多领域的文本情感倾向分类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户：f520li

【摘要】

：

随着Web2.0技术的迅速发展,网上出现了大量带有主观性倾向的文本信息,为了对这些文本信息进行挖掘与分析处理,文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方

【作者】

：

暴艳

【机构】

：

山西大学

【出处】

：

山西大学

【发表日期】

：

2012年01期

【关键词】

：

文本情感倾向性分类特征选择 LDA模型 Fisher判别准则多领域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0技术的迅速发展,网上出现了大量带有主观性倾向的文本信息,为了对这些文本信息进行挖掘与分析处理,文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方法是进行文本情感倾向分析技术的重要步骤,但是仅仅考虑特征对文本情感倾向分类的作用已显得片面,本文将文本的主题信息与特征的类别区分能力相结合旨在得到既包含主题信息又包含区分能力的文本情感倾向分类特征。针对多领域的文本情感倾向分类问题,本文做了如下研究工作：(1)为了实现多领域的文本情感倾向分类,本文利用LDA主题模型对文本的主题信息进行了分析。通过建立文本表面的文字与隐藏于片段内的不同主题间的关联关系,获取主题在文本上的概率分布,实现文本的主题聚集。通过对2008年文本倾向性分析评测的2704篇文本的实验,对10个主题下的类别与已知领域类别进行的匹配结果表明,此时该文本子集的聚集纯度最高。(2)为了进一步对混合领域文本情感倾向性分类进行研究,本文利用LDA模型与Fisher判别准则两种方法进行交集和并集混合,获取用于文本情感倾向判别的特征,在此基础上,采用TF-IDF的特征权重计算方法以及文本情感分类效果较好的SVM分类器,在相同的文本语料上进行实验比较。结果表明,两种特征混合交集,在特征维数最低的情况,却得到了最好的情感分类结果。(3)针对多领域的文本情感倾向性分类问题,本文利用LDA模型将混合领域的文本进行领域聚集,在此基础上对各领域类别的文本,采用Fisher判别准则的特征选择方法重新选择了特征,仍采用TF-IDF的特征权重计算方法和SVM分类器,在同样的文本语料上进行实验比较。结果表明,当领域信息比较清晰时,文本的倾向性分类结果比较好,说明文本的情感倾向性分类是与领域相关的。

其他文献

粘性不可压缩流体流动的两重网格算法

近几年来,两重网格有限元方法(TGM)已被越来越多的运用到非线性偏微分方程的数值求解中.该文从理论分析与数值试验两方面讨论了粘性不可压缩流体流动的TGM的收敛性.给出了误

学位

Navier-Stokes方程有限元方法两重网格方法流函数罚形式稳定性

交换环及其零化理想图

交换环的零化理想图是M.Behboodi近年首先引进的。这种图为研究环的代数性质,尤其是理想结构,提供了有力的工具。本文首先研究了有界半环的零因子图的实现问题,然后在此基础

学位

交换环零化理想图代数性质有界半环结构定理

AFS理论研究及其在模糊查询以及数据挖掘中的应用

该文就EI代数的子代数的生成元问题进行了探讨.在AFS理论的研究基础上给出了EI代数的子代数,EI代数基及EI代数无关的定义.并把它们应用到EI代数的代数结构的研究上.此外还给

学位

AFS理论EI代数EI代数无关EI代数基隶属函数AFS模糊算子

各项异性的退化抛物-双曲方程无解熵解的适定性

退化抛物-双曲方程具有非常广泛的应用背景，例如多孔介质污染物迁移过程，多相流中的对流-扩散过程，热传导过程，沉降-固化过程，生物在自然界中的扩散过程，金融决策过程等等。由于这

学位

退化抛物-双曲方程无界熵解适定性Kruzkov双变量方粘性消失法

树叶数、树划分与并行排序

该文首先探讨度序列与树中的叶子数的关系,给出了树的度序列与叶子总数之间的关系式,从而利用树的度序列,得到了一种精确地计算树的叶子数的方法,并证明了结论:任何度序列满

学位

树树形图叶子数度序列划分支撑树支撑圈算法

ALBERT的线性解法器接口及典型迭代方法的性能比较

该文主要有三个目的.第一,为完善ALBERT的解法器,我们比较全面地回顾了求解线性方程组的现有迭代方法,并分析了这些方法的计算量和内存需求.第二,通过重新定义和组织新的数据

学位

ALBERT迭代方法解法器数据结构非对称

因果模型的可识别性研究

因果推断在流行病学、社会科学、经济学、自然科学等等科学研究中发挥着重要的作用,这些研究的终极目标就是估计事件之间的因果关系.用于因果推断的主要因果模型是虚拟事实模

学位

因果效应虚拟事实模型最小方差准则分层可识别性Monte Carlo

带耗散机制的双曲方程解的大时间行为

本文主要考虑了带耗散机制的双曲方程解的大时间行为。本文的主要内容如下：　　第一章为绪论，在这里，我们回顾了带分数阶耗散项的Burgers方程，两维的带扰动项的Hasegawa-Mima方程

学位

双曲方程解分数阶耗散大时间行为Burgers方程Hasegawa-Mima方程

反问题的优化与正则化算法

全文分为三部分.第一部分主要讨论线性反问题的数值解法.讨论了适定与不适定问题的基本概念,反问题、不适定性及其与第一类算子方程的联系,并对求解第一类算子方程的基本方法

学位

反问题不适定性正则化信赖域

属性聚类网络及属性模式识别在期货价格预测中的应用

在文献[1]、[2]、[3]中,作者建立了一套属性数学模型的理论,定义了属性集、属性测度、属性可测空间、属性测度空间,提出了属性空间的分割及有序分割.并在属性测度空间和分割

学位

属性测度属性识别准则Kohonen神经网络聚类网络期货价格趋势预测

多领域的文本情感倾向分类方法研究

其他学术论文