论文部分内容阅读
条件随机场最早提出是用来解决标注问题的,它没有隐马尔科夫模型被人诟病的独立性假设问题,也没有最大熵模型的标注偏置问题,这些优点使得条件随机场模型成为了目前标注领域最好的模型。 应用条件随机场模型处理邮件的分类,首先要把待分类的邮件样本表示成条件随机场的观测序列,还需要把邮件的类别(垃圾邮件,非垃圾邮件),表示成条件随机场的状态序列;再结合文本分类领域方面的知识来构造特殊类型的特征函数来提取状态序列、观测序列间的特征,本文推广常用的一阶链式条件随机场到含有跳链的链式条件随机场,提取特征函数时考虑状态序列更多节点间的相关性,给出了所有可能特征函数的一般形式;进而完成模型的构建,因为在每封邮件样本和邮件类别间都可以构建条件随机场,并计算邮件样本属于给定类别的条件概率,本文对各封邮件间的性质做出了更多的假设,分为相互独立和具有马尔科夫性两种情况(前者是后者的一种特殊情形),分别构建样本的联合条件概率,并给出了各自参数极大似然估计的简单推导。最后再完成模型的预测和评价。