基于改进的TFIDF算法在文本分析中的应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:chao19890103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个数据爆炸、信息量巨大的时代,人类每时每刻都在制造大量的数据。人们通过手机、电脑联系在一起,通过论坛、微博讨论话题,通过QQ、微信实时交换信息。不论是近期世界上发生的大事还是家里的一些小事都在网上迅速的传播、交流。人类的活动产生的巨大的数据如何才能为我们所用,从中能发现什么规律?这正是我们要做的事情。我们需要分析这些文本数据,那就要用到自然语言处理,所以自然语言处理也是当今研究的热点之一。最近新浪微博的用户数量增长非常迅速,已经远远超过了贴吧等等一系列论坛。人们更愿意在微博上发表自己的观点,这使得微博的影响力不可小觑。所以本文以这个切入点为研究方向,研究基于微博数据的文本分析。但由于微博数据的特殊性,采用传统的方法无法取得很好的效果。传统的TFIDF算法比较简单且非常迅速,但是它的缺陷也很明显,对权重的计算效果也不是那么令人满意。特别是对于短文本的关键词权重计算方面有着不小的缺陷,所以运用传统的TFIDF算法对微博数据进行分析得不到很好的效果。为了提高文本分析的性能,针对传统TFIDF算法在短文本中表现不佳和一旦数据存在类间、类内分布不均时算法作用直线下降这两个不足,本文在关键词提取中对TFIDF算法进行了改进。主要方法有:(1)通过训练抑制文本和增益文本得到新的加权值,来修正传统的TFIDF算法算出的权值与实际的偏差。(2)我们将改进的算法引入到大数据平台,使得算法可以进行海量数据的文本分析。(3)将算法应用于文本分析的热点话题挖掘方向,直观的展示了热点话题挖掘效果。在此基础之上我们设计并实现了以微博数据为背景的文本分析,而且和别的算法进行了对比。实验结果表明,改进后的方法效果良好。
其他文献
“谁行为,谁被告”是对我国现行行政诉讼被告确认规则“谁主体,谁被告”的完善,是由人权理念的提升、依法治国方略的实施、中国加入WTO等现实国情决定的。文章从宪政基础、现
根据理论力学自由刚体的动力学理论,建立了飞机在平面内飞行的质心动力学方程,并且讨论了有关简单解问题。
以批评性话语分析(CDA)及意识形态的理论为基础,借助系统功能语言学的研究方法,从及物性、转换、情态、人称代词和语篇等方面分析奥巴马总统的演说,解释政治家是如何利用意识
<正>ISBN(书号):9787111403920丛书名:计算机科学丛书出版日期:2013年3月版次:1-1开本:16定价:128.00出版单位:机械工业出版社图书简介:《分布式系统:概念与设计(原书第5版)
<正>一是延伸培训范围。坚持集中培训和分级培训相结合,将农村、社区"两委"班子成员和所有党员全部纳入培训范畴,实现了培训"全覆盖"。二是延伸培训时间。保证每次培训时间不
兴趣是学生音乐学习的根本动力和终身喜爱音乐的必要前提。在小学音乐教学中,要根据学生身心发展规律,以丰富多彩的教学内容和生动活泼的教学形式,激发学生对音乐的兴趣,不断
《第一哲学沉思集》以“普遍怀疑”为开端,探寻“清楚分明的确定性”为目的,用“我思”奠定了近代主体性哲学的“新基础”,来证明上帝和物质世界存在的“老问题”。笛卡尔在《沉
“谁行为,谁被告”是对我国现行行政诉讼被告确认规则“谁主体,谁被告”的完善,是人权理念的提升、依法治国方略的实施、中国加入WTO等现实国情决定的。文章从规则的宪政基础
行政诉讼被告的确认,是明确行政诉讼责任承担主体的前提。我国是以行政职权来界定行政主体的资格的,在这个前提下,无法满足对越来越多的受委托机构、中介机构提供公共服务过
非典型性肺炎(SARS)属中医冬温、春温、湿热疾疠的范畴。目前,认为非典型肺炎是由冠状病毒的六个变种引起的,是一种新的呼吸道传染病。本病起病急、传播快,主要是近距离的空