基于半监督学习的微博情感分析方法研究

被引量 : 0次 | 上传用户:liongliong508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的快速发展使其平台积累了大量的文本,其中蕴含着大量的有价值的信息,包括商业信息、社交网络和用户观点与情感等。微博的短文本特征使其文本分析具有一定挑战性,并且中文文本固有的特征使得文本分析性能下降。针对上述特征,本文应用半监督学习对微博文本进行情感分类:结合语言资源和标注集合对文本情感分类器进行训练和优化。情感分类包括两个任务:识别情感的极性,如正性、负性;识别情感类别:如高兴、愤怒。本文主要工作如下:1)微博信息抽取。应用微博运营商提供的API,对微博信息进行采集,以热门话题和认证用户为入口,采集话题相关的微博和用户微博及其评论文本。2)半监督学习。结合已有的标注集,运用主动学习标注微博文本的情感极性和类别,以减少标注成本。应用标注数据集于监督学习中,包括最大熵、神经网络和支持向量机模型,对不同监督学习模型进行优化,分析其误差和学习曲线。3)特征抽取。使用已有语言资源和开源软件,如情感词汇本体和同义词词林进行特征抽取,基本特征包括文本所固有的词项、词性和词林编码等。此外,鉴于文本特征空间维度较大,采用PCA对特征空间进行降维。在模型优化过程中,对比了不同特征空间组合和模型的准确度。部分的特征抽取过程,如自然语言处理、以及微博信息处理运行在分布式计算框架上,以提高算法的运行效率。情感极性分析的准确率达到0.7,具有一定的应用价值。而多类别情感分析准确度相对较低,为0.34:由于标注语料不充分和文本情感表达的复杂性,频率较高的类别,如喜欢、厌恶,分类效果较好,而惊奇、恐惧等分类效果不佳。情感分析结果可作用于舆情监测、市场调研和社会计算等方面,具有一定的商业价值。在其分析的基础上,可结合在线网络的结构和时序进行信息传播和受众分析,获得用户的行为模式和规律。结合用户特征,可进一步获得用户在发布信息等行为时的真实情感与心理状态,称之为情感计算,也是情感分析的最终目的。
其他文献
目的探讨通过注意骨显像的技术操作要点及正确使用骨显像的各种方式提高骨显像影像质量的方法。方法对本科2011年~2012年2543例接受骨显像检查的患者进行分析。显像仪器为GE公
如何提高农民的种粮收益,是关系到我国粮食供给安全与农民增收的关键问题。提高农户种粮收益,可以将政府保障粮食供给的宏观目标与农户追求家庭收益最大化的微观诉求统一在一
高速公路提高了车速,使车辆快速流通从而缩短了物资交流周期,使我们的生活、工作快速、高效、便利,更是一个国家综合实力的体现,是促进人类进步、社会发展、经济增长和科技繁
目的探讨心理护理干预对肝硬化急性上消化道出血患者临床治疗效果的影响。方法选取2013年10月至2014年10月住院治疗的肝硬化急性上消化道出血患者85例为观察对象,随机分为观
人防建设关系到未来战争或自然灾害来临时刻人民群众财产与生命的安危,人防体系建设尤其是人防信息系统建设具有重要意义。信息社会的快速发展必然要求人民防护体系工程的建设
尼泊尔鸢尾异黄酮是葛花中的主要异黄酮成分之一,具有广泛的药理活性如抗炎、抗氧化、抑菌、抗肿瘤、雌激素样作用、保护酒精中毒引起的肝损伤等。实验室前期对野葛花(P. Pue
产学研合作能够大力推进区域的经济发展已成为各地区的广泛共识。但在当前建设创新型和低碳型社会的新时期,面对能源短缺、污染严重、资源浪费等现象,各区域亟需依靠高水平和高
本研究就学生处理英语写作反馈的策略以及学生对不同的英语写作反馈类型的需求进行了实证研究。结果显示,学生采用六种策略处理反馈信息——查阅字典、依靠评语、参考语法书
目的探讨事件相关电位(ERP)P300检查与蒙特利尔认知功能评估量表(MoCA,中文版)及简易精神状况检查表量表(MMSE)对多发腔隙性脑梗死的患者在早期认知功能评估中的相关性及一致
姜黄素是从草本姜科植物姜黄的根茎中提取出来的一种酚类色素,具有抗炎、抗氧化、抗菌、抑制肿瘤细胞增殖与转移、诱导肿瘤细胞凋亡、阻断肿瘤细胞信号传导等广泛药理作用。