【摘 要】
:
观点检索任务需要为每个用户查询返回一个文档列表,要求列表中的每篇文档表达了对当前查询主题的某种观点,并依据它们对查询主题的情感程度进行排序。目前,在微博数据(比如推
论文部分内容阅读
观点检索任务需要为每个用户查询返回一个文档列表,要求列表中的每篇文档表达了对当前查询主题的某种观点,并依据它们对查询主题的情感程度进行排序。目前,在微博数据(比如推特数据)上的情感分析工作越来越普遍。通常情况下,微博数据富含互联网用户观点信息。 本文首先提出将推特数据作为一种外来辅助数据,并探讨利用该数据提高观点系统效果的有效性。采取了三种不同的方法(查询扩展、查询相关的情感词词典和基于相似度的重排策略)来验证推特数据在观点检索任务上的有效性。在观点检索任务标准评测数据集(BLOG06数据集)上的实验结果表明,推特数据集能够有效改善观点检索系统的性能。另一方面,计算查询相关情感得分是观点检索任务的一个关键步骤。当前的流行方法主要依赖于情感词与查询词之间的距离信息。在本文中,为了获取更加准确的查询相关情感得分,我们提出在概率语言模型中融入语法和语义信息的全新计算方法。该方法基于树核技术利用句子的语法树信息来评估句子内情感词与名词之间的修饰概率。此外,该方法分别基于词网和概率主题模型来评估名词与当前查询之间的语义相关度。与基于距离信息的方法比较,在BLOG06数据集与TREC提供的标准相关基线上的实验结果表明我们提出的方法是有效的,优于基于距离的方法。
其他文献
互联网从诞生以来一直遭受着黑客攻击和恶意代码的威胁,随着互联网成为人们日常生活不可或缺的一部分,由地下经济链等多种因素驱动,新形态的安全威胁不断涌现并持续演化,从计
当今社会化媒体正在获得越来越多的关注,并且已经成为许多网民日常生活的必要元素。不同功能的社会化媒体网站为用户提供上传信息、图片、视频等各种类型资源的平台。除资源上
随着近年来假币犯罪案件的高发,案件数量逐年增多,涉案金额越来越大,呈现出团伙性作案的特点,这极大影响了社会的经济秩序。由于案件数量的增多,传统的由警员手动分析案件的方式已
在纺织工业界,由于各种原因存在许多遗失原始设计稿件的织物样品。通常对遗失设计稿件的织物进行再生产,就必须先由经验丰富的设计人员对织物样品进行手工临摹来得到设计稿,
在印刷行业中,图像由于其直观性和广泛适用性,对印刷品的质量起着至关重要的作用,对于承印物为织物的纺织印刷业中来说就更是如此。因此,印前图像处理便成了印刷过程中不可或
随着XML数据被广泛应用于互联网服务、信息集成等各个领域,针对XML数据的结构化查询,尤其是作为其核心操作的多分支查询,已经在研究领域成为一个热点话题。虽然在最近几年,为
计算机辅助设计(CAD、Computer Aided Design)在工业界已经得到广泛应用,极大促进了汽车、航空、航天、造船、建筑等行业的发展。离散曲面形变是CAD领域的研究热点之一,但是
任务群计算(Many-Task Computing,MTC)是广泛应用于科学计算领域的一种大规模松耦合任务并行计算模式,目的是在较短的时间内完成大量资源需求相同的可独立调度任务。这种模式下
经过多年的研究与应用实践,基于relation数据库引擎扩展XML管理功能已成为共识。目前,各大商用数据管理系统DB2,ORACLE,SQL SERVER以及开源数据管理系统(MonetDB,GALAXY,xlnd
工尺谱作为一种中国古代乐谱,常用于昆剧等中国传统音乐。工尺谱拥有完整的音调、音高标记,但是节奏标记不完备,一个节拍内音符的时值划分不明确。因此,工尺谱一般都以“口传心授