维吾尔文文本分类中特征选择方法的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:wangtan2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网新技术的不断发展,互联网与人们的生活息息相关。目前,新疆的维稳工作是十分艰巨的,维吾尔文网页的发展也变得越来越多元化。如何有效加强信息管控,将维吾尔文网页内容进行有效分类,营造一个安全的网络环境,从而促进新疆的信息交流与稳定发展已成为当务之急。特征选择是维吾尔文文本分类过程中不可或缺的步骤,其主要作用是根据某种评价方法将能够有效表达文档内容的特征挑选出来。  本文主要针对维吾尔文文本分类过程中的特征选择方法进行研究,将维吾尔文字特点与特征选择方法进行无缝结合。分别研究了基于评价准则和基于搜索策略的维吾尔文文本特征选择方法,设计并搭建了维吾尔文文本分类特征选择演示系统。本文研究的主要内容和成果如下:  (1)基于评价准则的特征选择方法:针对传统卡方统计特征选择方法忽略特征词频和特征在数据集各类别中分布不均衡的缺陷,提出了一种改进的卡方统计特征选择方法。本文使用均值TFIDF进行文本表示,引入一个调整公式来平衡类间选取的特征项数,并结合余弦相似度进一步消除噪声文本。实验表明,改进的卡方统计方法不仅保留了传统卡方统计方法的稳定性,并且有效克服了传统卡方统计方法在选择较少特征数目时分类性能过低的问题。  (2)基于搜索策略的特征选择方法:首先研究鸟群的飞行、觅食以及警惕这三个基本行为。对原数据集采用传统卡方统计方法进行预选择,将已选择的特征进行编码。再根据鸟群的三个基本行为在特征空间搜索最优子集,其中适应度函数设计为分类准确率。实验表明,该方法使维吾尔文文本分类获得较高的准确率。  (3)在分类性能评估方面,首先将优选择的特征保存为weka默认读取的arff文件格式,再调用weka平台的Na?ve Bayes分类器和SVM分类器对生成的特征文件进行分类评估。
其他文献
液压系统是采煤机重要的组成部分,担负着调高和制动的作用。近几年,随着工况自动化水平的不断提高,煤矿生产的机电一体化装备也越来越高,与此同时,采煤机液压系统的故障发生
力学三维问题指力学量(受力和运动参量)不在同一平面内的力学问题,中学阶段力学问题以受力情况不在同一平面内的问题居多.力学三维问题在中学阶段对大多数同学都是难点,高考
高效视频编码(HEVC)标准和H.264/AVC标准是由国际标准化组织IOS下属的运动图像专家组MPEG和国际电信联盟电信标准化组织ITU-T下属的视频编码专家组 VCEG联合制定的视频压缩编码
在中学物理中有好多经过原始公式推导出来的结论即二级结论,笔者教学过程中发现如果在准确理解这些二级结论的前提下,应用这些二级结论解决有些高考题或者高考模拟题非常好,
记者写新闻,往往都是有结论的,虽然是客观报道的形式,但记者对新闻事实有自己的明确见解,只是不直接挺身而出发表意见罢了。这就是平常所说的“用事实说话”。这是新闻写作
随着工业自动化技术的迅速发展,越来越多的智能化设备应用于现场总线控制系统,PROFIBUS-PA作为PROFIBUS现场总线的一员,在过程控制领域具有很大的优越性。本文在对PROFIBUS-PA技
电源都有两个电极,电势高的叫做正极,电势低的叫做负极,非静电力由负极指向正极.图1是电源的一般原理图.当电源的两电极被导体从外面连通后,在静电力的推动下形成由正极到负
当今社会看病难已经是一个显而易见的社会问题,异地看病对于普通百姓来说更难上加难,而且心电图信息没有通用性,使得医院之间无法交流病患信息。1980年美国麻省理工学院提出了心
学生在目标性、针对性的要求和目标下,能够更加有的放矢地深入学习,能够更加深入地进行师生互动,能够更加深刻地开展探析活动.任务型教学策略作为激发学生学习情感,推动师生
“三自课堂”这一数学课堂教学改革实验是笔者所在中学的重点校本课题,在笔者所在中学的数学教研组进行了全面推广.笔者在尝试了一段时间的“三自课堂”后,对这一以“自主、