论文部分内容阅读
网络技术的快速发展和普及,对人类的生活模式产生了巨大的影响。目前在线购物已经成为人们的主要购物模式之一,用户评论对商品/服务提供商和其他潜在用户具有重要的参考价值。然而,用户评论的海量性使得用户难以快速地检索到期望的信息。因此,对用户评论进行自动化和智能化的分析处理显得极其重要。观点目标和观点词是用户评论中两个核心的成分,前者描述了用户对什么对象发表评价,后者表达了用户对该对象持有什么样的态度,这两者承载了大部分的用户观点信息。因此,从文本中自动抽取观点词和观点目标是进行评论分析和智能应用的一项基础工作。本文围绕观点词和观点目标的系统抽取展开研究,主要工作包括:(1)在已有的工作中,有监督的观点对抽取方法能够达到较好的抽取效果。然而,这类方法依赖于高质量的训练样本,而样本标注是一个耗时费力易错的过程。我们提出一种利用众包计算从用户评论中迭代式获取高质量观点词对的方法。首先,通过EM算法评估工作者的可靠性;然后,基于工作者的可靠性进行任务分发;最后,结合工作者可靠性和返回结果中标注词对的依赖信息产生最终的观点词对。在此过程的每次迭代中,利用生成的结果重新评估工作者的可靠性,能够在不增加成本的基础上保证结果的质量。实验结果表明,我们的方法在预算固定的情况下能够获取更多的观点词对。(2)基于带有注意力机制的观点依赖关系分析,进行观点词对抽取的方法。同一类商品下,观点词对中包含的观点目标和观点词通常有着很强的观点依赖关系,因此在观点词对的提取过程中,可以通过对评论句子中单词间的观点依赖关系进行分析来提取出观点词对。首先,构建出评论句子的依赖关系分析模型来获取到评论句子中每个单词之间的依赖关系信息,本文选择的基本模型是LSTM神经网络;然后,假设评论句子中所包含的观点词对中的一项是已知的,并将该已知项作为模型的注意力信息,使得模型能够从评论句子中有重点地提取出与该已知项具有强观点依赖关系的单词或词组,作为观点词对中的另一未知项;最后,将观点依赖关系得分最高的词对作为观点词对进行输出。接着研究工作进一步设计了一种复合模型,通过结合两种包含不同已知项信息的上述模型,来达到在不需要提前知道已知项的情况下实现观点词对的挖掘。