基于SVM的维吾尔文文本分类研究

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:womjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景.随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术.研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和x2统计量相结合的方法对表示空间进行降维.采用SVM算法构造了维吾尔文文本分类器.针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法.
其他文献
随着中国经济强劲的发展,中国报业出现了持续的繁荣景象,但同时也形成了激烈的竞争态势,各报社在经营管理、广告、发行、印刷及多种经营等方面都作了大量有益的探索.面向新世
银行理财产品作为利率市场化的产物,在利率市场化进程中得到了迅速的发展,其作为银行反“脱媒”的重要手段为市场提供了与存款竞争的金融产品,是对存款利率上限的突破,而存款利
近年来,随着我国市场经济的快速发展,人们可以投资的财富在不断增加,特别是在后危机时代,我国的个人财富相对发达国家加速膨胀。传统的理财观念和管理方式正在受到冲击,国际上先进
目前,对于高维数据进行降维的变量选择方法研究已经成为文本挖掘、临床医学和遗传学等领域的一个重要课题。变量选择的方法分为Filter类、Wrapper类和Embedded类三种,Filter方
自我国创业板市场于2009年10月推出以来,风险投资通过创业板实现投资退出的案例迅速增长,成为风险投资退出(exit)的首选通道。截止2011年2月22日,创业板上市的183家企业中,有风险
2009年10月23日中国创业板正式启动。它面向的是具有一定的自主创新能力并通过将高科技成果化来创造价值的高成长型企业。这些企业大多数处于生命周期中的成长期,虽然规模较
统计信息化是将现代IT技术应用于统计业务的各个流程,通过IT技术和统计业务的融合,对统计业务流程进行改革以提高统计工作质量。我国的统计信息化工作经过30年的不断探索,已
2010年的4月16日,我国资本市场迎来了首份股指期货合约——沪深300指数期货合约。股指期货在世界上的发展已经走过了三十多个春秋,是一个比较成熟的衍生品,也是国际金融市场
考点梳理  一、重点单词  1 信任;信心;信念 n.faith
企业社会责任是指企业在追求股东权益最大化的同时,还需维护债权人、员工、供应商、消费者、政府、社会和环境等其他利益相关者的利益。然而目前我国企业的社会责任意识依旧薄