基于数据分布特征的文本分类研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:liyan19821021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网迅猛地向前发展,互联网已经成为一种不可缺少的信息传播媒介数字化图书馆,新闻资源等Web信息量呈几何级增长,出现了像文档检索、图像匹配、气象预报、入侵检测,基冈工程分析等大量机器学习问题。面对信息爆炸带来的挑战,人们迫切需要更快更有效地获取这类信息,用传统的人工分类方法去处理这些问题已经变得捉襟见肘,借助计算机工作便成为最佳选择。当前文本分类是一个热点研究领域,开展此项工作具有重要的研究价值和现实意义。在文本分类技术的研究过程中,虽然提出了许多方式方法,并且有些方法已经相对成熟且分类效果不错,但实用性强的分类技术仍旧比较缺乏。不少分类模型和特征选择算法的复杂性比较高,实现过程过于复杂而导致训练和分类的效率低下,难以应付实际当中碰到的庞大数据集。如何从海量数据中找到需要的日标信息是文本分类的一项重要的任务。如何提高文本分类的准确率和运行效率(时间复杂度,空间复杂度)是一个需要不断深刻思考的课题。特征选择方法与分类算法是文本分类技术当中两块核心内容,绝大多数研究人员都致力于其方法的探索与改进,许多新方法付诸的应用都取得了不错的成绩。总之,这是一项很有必要也非常有前途的研究。本文针对数据语料类别数据不均衡,从特征选择方法和文本分类器方面进行研究,大致内容如下:(1)基于改进的类别分布特征选择方法在文本特征降维空间中,本文发现基于Fisher思想的特征选择方法应该兼具考虑类内、类间方差,这样才可以得到具有更好类别区分能力的特征。具体到本文工作所面向的类别数据分布是不均衡的,为此在充分考虑类别之间样本数差异的基础上,作者提出了一种基于改进的类别分布特征选择方法。该方法可以选出在类别间差异比较大的特征而且还可以灵活地调整类别的权重,实验表明该方法在非平衡语料上结果很好,说明它在稀有类别上可以达到不错的效果。(2)基于推拉方法的非平衡中文文本分类从分类器学习角度,为了论证推拉方法优于SVM,KNN。本文首先介绍了传统分类方法涉及的相关知识,提出了传统分类器在语料类别非平衡下存在的问题,随后引入了解决该问题的推拉方法,最后把IG+推拉,IG+SVM, IG+KNN运用到实验中去。实验结果比较发现,IG+推拉方法在不同非平衡语料上的效果要比其他两个方法好,这允分证实该方法的优越性。
其他文献
该文首先在文献[7]讨论的基础上,证明了股票收益率的波动X为连续过程和独立增量过程,从而证明了{X}是一个具有独立增量的零均值连续Gauss过程.
该文对于抛物型方程的有限元方法的误差估计理论进行了讨论.主要作了如下工作:1.在文献中对于抛物问题的标准Galerkin方法给出了一个具有r阶精度的误差估计式,和一个具有r-1
该文针对小波分析这一国际前沿课题,结合地震勘探相关内容,分别从理论和应用两方面对小波分析进行了研究.理论部分:首先从Fourier变换开始,经过窗口Fourier变换,过渡到小波分
该文介绍了逼近的历史、目前存在的三种类型的K-W算法及同时扰动随机逼近(SPSA)算法的发展现状.给出了连续时间同时扰动逼近(SPSA)的变界截尾算法的收敛性、收敛速度和渐近正
近年来,含有非线性算子的微分方程越来越受到人们的关注,且在各类边值问题解的存在性和多解性方面获得了一系列有意义的研究结果.在一些文章中,人们研究了p-Laplace算子这类非线
该论文共包括两部分.第一部分是关于代数Lagrange插值问题的研究;第二部分是关于三角Lagrange插值多项式收敛阶的研究.
证券组合选择问题是金融领域中非常重要而复杂的问题之一,为了给投资者制定投资决策提供了一个比较可靠的参考依据,该文将结合当前证券市场的实际情形,构建了一个新的投资决
该文主要研究了成功实施公司购并资本运作的关键要素,并为公司购并提供了坚实的理论基础.主要的研究工作有:·公司购并理论和实践的发展.从三个不同的层次,对进行公司购并的
近年来,种群生态学已成为数学研究领域的热点之一.很多学者通过构造一些数学模型,并利用数学理论的工具来得到种群的生物特性,从而对生态学的研究起到了很大的促进作用.其中研究
学位