【摘 要】
:
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,文本分类是实现这个任务的最重要的方法之一。而文本分类的前提在于文本的表示和特征项的选择。因为在文本分类
论文部分内容阅读
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,文本分类是实现这个任务的最重要的方法之一。而文本分类的前提在于文本的表示和特征项的选择。因为在文本分类中,自然语言文本集中往往包含大量的词汇,特征空间的维数高达几万,甚至远远超出训练样本的数目。如果把这些词都作为特征,将带来诸如计算和存储压力、区分度不高、难于覆盖所有特征词以及“过学习”等一系列问题。特征选择正是为了选取最能表征文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度。
本文分析了传统特征选择算法的局限性,在前人工作研究成果的基础上,阐述分析了遗传算法的优势,以及将遗传算法用于文本特征选择的可行性。通过对现有的文本特征选择技术进行分析,发现对原始候选特征集合中的每个词条计算一个评估函数值,例如:信息增益、互信息等,然后基于评估函数值大小从而进行特征选择的方法,本质上都是贪婪算法,没有搜索到所有的可行域空间,并不能发现最优特征集。而遗传算法能获得全局最优解,且具有较高的寻优效率。因此,提出利用遗传算法进行文本的特征选择,主要解决现有特征选择算法的两个不足:1)基于评估函数值排名的贪婪选择策略,不能发现最优特征集;2)依赖于经验参数事先固定选择比例,而对不同的语料集,没有一个普遍适用的选择比例。
最后,为了验证本方法的正确性,我们在三个公开的互联网标准测试语料库数据集上,对每种特征选择方法均进行了多次实验,将其输出的特征词汇集合用于文本分类,记录、分析训练出来的分类器的评测指标。结果表明:基于遗传算法的特征选择方法在降低文档的特征空间、自适应选择特征词方面的效果是令人满意的。
其他文献
目前,第一次全国土地大调查的结束到现在已经有十几年,这段时间中出现了很多土地使用的变化,而这些变化的记录信息非常混乱,再加上传统的土地更新方法效率低下,使得利用计算机来协
随着网络和计算机技术的飞速发展,电子邮件凭借其方便快捷的特性,成为了一种广泛普及的网络信息交流工具,个人、企业和政府机关使用电子邮件进行通讯得到了大范围的推广。然而随
在科学研究和工程应用中的各个领域存在着大量的优化问题,进行最优化方法的研究具有重要的理论意义和实用价值。在现实生活中我们通常遇到的问题往往是多目标优化问题,即要同时
在由计算网格节点和应用网格组成的中国国家网格计算环境下,由于网格节点的访问控制机制,文件只能被特定的节点访问,而不能接受全网格用户的直接访问。当前的网格文件传输服务没
为了在网络中为大量用户提供高效的视频点播服务,基于流媒体的缓存和调度技术,针对不同网络结构以及所要满足的不同服务,本文提出一些新算法。主要贡献和创新点如下:
1.提出
近年来,随着计算机通信技术和网络技术的飞速发展,出现了一种新的数据模型—数据流。与传统的数据模型不同,数据流的特点是:(1)数据流是无限的,无法完整的存储;(2)数据的传输
k-匿名方法是视图发布条件下防止数据隐私泄露的一种重要方法,准标识符值是影响k-匿名表隐私保护程度和数据质量的关键因素,如何在给定各个准标识符属性泛化树的情况下求解准
下一代网络通过控制层设备屏蔽底层异构网络,向上提供开放的业务接口,引入了独立于网络运营商的第三方业务提供商。它的出现大大缩短了业务生成周期,并使得丰富多彩的跨网业务和
近十几年来,随着数字图像获取设备日益成为生活便利品,计算机存储介质成本不断降低,互联网络技术迅速发展,同时随着人们对视觉媒体日益关注,互联网上数字图像的数量和种类正在以前
图像分割是将图像划分成多个具有相似特征的区域,并提出感兴趣目标的技术与过程,图像分割是图像理解和图像识别的前提,计算机视觉中的一个经典难题,也是图像处理和计算机视觉领域