【摘 要】
:
随着Web2.0技术的迅速发展,网上出现了大量带有主观性倾向的文本信息,为了对这些文本信息进行挖掘与分析处理,文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方
论文部分内容阅读
随着Web2.0技术的迅速发展,网上出现了大量带有主观性倾向的文本信息,为了对这些文本信息进行挖掘与分析处理,文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方法是进行文本情感倾向分析技术的重要步骤,但是仅仅考虑特征对文本情感倾向分类的作用已显得片面,本文将文本的主题信息与特征的类别区分能力相结合旨在得到既包含主题信息又包含区分能力的文本情感倾向分类特征。针对多领域的文本情感倾向分类问题,本文做了如下研究工作:(1)为了实现多领域的文本情感倾向分类,本文利用LDA主题模型对文本的主题信息进行了分析。通过建立文本表面的文字与隐藏于片段内的不同主题间的关联关系,获取主题在文本上的概率分布,实现文本的主题聚集。通过对2008年文本倾向性分析评测的2704篇文本的实验,对10个主题下的类别与已知领域类别进行的匹配结果表明,此时该文本子集的聚集纯度最高。(2)为了进一步对混合领域文本情感倾向性分类进行研究,本文利用LDA模型与Fisher判别准则两种方法进行交集和并集混合,获取用于文本情感倾向判别的特征,在此基础上,采用TF-IDF的特征权重计算方法以及文本情感分类效果较好的SVM分类器,在相同的文本语料上进行实验比较。结果表明,两种特征混合交集,在特征维数最低的情况,却得到了最好的情感分类结果。(3)针对多领域的文本情感倾向性分类问题,本文利用LDA模型将混合领域的文本进行领域聚集,在此基础上对各领域类别的文本,采用Fisher判别准则的特征选择方法重新选择了特征,仍采用TF-IDF的特征权重计算方法和SVM分类器,在同样的文本语料上进行实验比较。结果表明,当领域信息比较清晰时,文本的倾向性分类结果比较好,说明文本的情感倾向性分类是与领域相关的。
其他文献
近几年来,两重网格有限元方法(TGM)已被越来越多的运用到非线性偏微分方程的数值求解中.该文从理论分析与数值试验两方面讨论了粘性不可压缩流体流动的TGM的收敛性.给出了误
交换环的零化理想图是M.Behboodi近年首先引进的。这种图为研究环的代数性质,尤其是理想结构,提供了有力的工具。本文首先研究了有界半环的零因子图的实现问题,然后在此基础
该文就EI代数的子代数的生成元问题进行了探讨.在AFS理论的研究基础上给出了EI代数的子代数,EI代数基及EI代数无关的定义.并把它们应用到EI代数的代数结构的研究上.此外还给
退化抛物-双曲方程具有非常广泛的应用背景,例如多孔介质污染物迁移过程,多相流中的对流-扩散过程,热传导过程,沉降-固化过程,生物在自然界中的扩散过程,金融决策过程等等。由于这
该文首先探讨度序列与树中的叶子数的关系,给出了树的度序列与叶子总数之间的关系式,从而利用树的度序列,得到了一种精确地计算树的叶子数的方法,并证明了结论:任何度序列满
该文主要有三个目的.第一,为完善ALBERT的解法器,我们比较全面地回顾了求解线性方程组的现有迭代方法,并分析了这些方法的计算量和内存需求.第二,通过重新定义和组织新的数据
因果推断在流行病学、社会科学、经济学、自然科学等等科学研究中发挥着重要的作用,这些研究的终极目标就是估计事件之间的因果关系.用于因果推断的主要因果模型是虚拟事实模
本文主要考虑了带耗散机制的双曲方程解的大时间行为。本文的主要内容如下: 第一章为绪论,在这里,我们回顾了带分数阶耗散项的Burgers方程,两维的带扰动项的Hasegawa-Mima方程
全文分为三部分.第一部分主要讨论线性反问题的数值解法.讨论了适定与不适定问题的基本概念,反问题、不适定性及其与第一类算子方程的联系,并对求解第一类算子方程的基本方法
在文献[1]、[2]、[3]中,作者建立了一套属性数学模型的理论,定义了属性集、属性测度、属性可测空间、属性测度空间,提出了属性空间的分割及有序分割.并在属性测度空间和分割