【摘 要】
:
支持向量机是性能良好的二类分类模型,适用于处理文本分类问题.但支持向量机无法直接用于处理多类分类问题.本文考察了四种流行的多类支持向量机方法,包括one-against-rest,p
【机 构】
:
东北大学自然语言处理实验室,沈阳,110004
论文部分内容阅读
支持向量机是性能良好的二类分类模型,适用于处理文本分类问题.但支持向量机无法直接用于处理多类分类问题.本文考察了四种流行的多类支持向量机方法,包括one-against-rest,pair-wiseMax-Win,DDAG和sigmoid模型.在中英文两个数据集上将几种方法应用于文本分类进行了比较实验.实验结果表明,在本文所用的中文分类数据集上几种方法的性能差别不大,在英文数据集上差距较为明显.0ne-against-rest方法在两个数据集上都获得了最优的性能.
其他文献
面向限定领域的特定任务翻译服务,在有限资源的掌上电脑(PersonalDigitalAssistant,PDA)上实现快速语音翻译这一实际问题,本文提出了一种基于suffixarrays数据结构的快速翻译
译文生成是任何机器翻译系统所要解决的重要问题之一,也是机器翻译的最终目的.从本质上来讲,不管采用何种翻译方法,译文生成都要完成两个任务:一是源语与目标语之间的句法结
在基于语料库的统计翻译方法中,基于短语的统计翻译与基于单个词的统计翻译相比可以更好地处理句中词语之间的关系,从而有效地提高机器翻译系统的性能.在基于短语的统计翻译
无谓语动词句(无动句)的理解和处理历来是汉语自然语言处理的一个难点,基于动词中心论的语言学理论对于无动句的描述和解释是非自足的.HNC理论定义了四组无特征语义块句类(无
日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系.为提高解析精度,提出一种基于NN-LSVM对大规模训练语料进行修剪的日语依存关系解析方法:使用LSVM和NN
本文介绍了近期在Web信息检索领域所进行的研究工作.首先,在自适应文本信息过滤研究中,采用了基于多次反馈的增量学习机制来构造过滤模型,并在模型自适应学习过程中引入特征
本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽
模式推理,又称为推理,是一个有着重要研究价值的课题.在问答系统的研究中,模式推理作为一种新的研究途径,具有较高的应用价值,也因此受到较高的关注和研究.在问答系统领域,模
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模