文本分类中的特征选择方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sfwyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息资源数量急剧增大,人们面对海量的数据往往无所适从。从海量的、不确定的应用数据中提取出人们所需要的信息和知识的现代技术--文本分类技术应运而生。然而,面对高维的文本特征,如若处理不当会造成“维度灾难”、反而大大影响分类效果,对特征选择的研究就显得必要而有意义。   本文主要在常用的文本特征选择方法的基础上做了以下几个方面的创新与研究工作:   第一,改进和实现了短文本过滤中的特征选择算法。主要通过监督学习利用词频特征和分布特征提取出关键词,从而获得稀疏模型,用以解决短文本分类、短文本聚类和短文本统计特征挖掘的问题。   第二,针对TREC中的博客检索评测,设计并实现了博客检索系统。主要针对博客长文本的特点,在词特征选择的基础上加入情感词的因素。对比实验表明,特征选择的加入明显提高了分类结果的准确度。   第三,本文提出一种词对关联特征的选择算法。不同于常用的基于单个词的特征选择方法,该算法以词对作为基本的特征单位进行特征选择,主要根据在训练文本中词对共现的频率、词对间激活力和词对共现的信息增益等方法进行关联特征选择。实验结果证明,这三种方法都具有可行性和有效性。   第四,设计和实现了特征选择系统,将常用的特征选择方法构建到一个系统中,用户只需要配置相应的属性即可方便快速地得到特征选择的结果,同时也便于针对具体的语料选择最佳的特征选择方法,该系统也具备良好的扩展性。  
其他文献
盲源分离(BSS)技术是现代信号处理领域中一个新的研究方向。目前已广泛应用于语音信号处理、图像处理、多用户通信、阵列信号处理及医学信号处理等许多领域。解决盲源分离的
无线传感器网络是由大量传感器节点在监测环境内形成的一个短距离无线通信网络,广泛应用于军事、环境、交通、医疗、航天等领域。位置信息对于传感器网络的监测活动至关重要,
近些年,多天线技术和中继技术的提出,大大推动了无线通信技术的发展。本文重点考虑了多天线技术与双向中继技术相结合的系统场景,研究联合预编码与检测算法的设计问题。首先回顾
无线传感器网络技术由美国军方于20世纪70年代提出,在近十年得到了广泛的研究和应用。然而,由于无线电频谱资源的匮乏,越来越束缚了基于固定频谱的传统无线传感器网络的应用
随着计算机技术的高速发展、网络的普及,虚拟现实技术的理论研究与应用成为信息技术领域中研究的热点之一,这项技术也将成为发展最好的计算机技术。虚拟现实技术在不同领域的
互联网技术的发展给人们带来了很多方便,但是由于网上信息的爆增,人们查找信息时候也会有非常多的不便。信息抽取技术就因此而生,可以将无序、无规则的信息结构化存储,对信息加以
LTE是3GPP为了对抗WiMAX的市场竞争,在移动通信宽带化趋势下研发出的B3G技术。该标准采用OFDM、MIMO等先进的无线传输技术提高了数据传输速率,支持更大的系统带宽、峰值速率和
HSDPA和HSUPA系统分别是WCDMA向B3G系统演进中针对下行和上行的增强型技术,后合称为HSPA技术,并持续演进至R9、R10版本。两者在不改变原有WCDMA网络结构的基础上新增了一系列的
网络业务是产生网络流量和网络行为的根本原因。对网络业务进行识别、分析和流量监测,深入了解网络业务的变化,并进行适当的网络关联与控制,对网络业务设计、运营和评估具有重要
摘要:“做中学”科学教学模式的目的在于提高学生的科学素养。本文主要介绍科学教师在此教学模式下需要的教师素质、教师的角色以及如何培养教师的专业能力。  关键词:“做中学”;角色转换;概念更新;专业培养  传统的教学方法主要是由教师通过语言传授和示范操作使学生接受、掌握系统知识与技能的教学。在教学活动中,主要是由教师来进行教学活动的组织,学生在教师的启发下、引导下学习,从教学方法看,主要是以教师的讲与