论文部分内容阅读
随着电子商务和人工智能的发展以及社交媒体用户数据的爆炸性增长,从大规模信息流中发现、分离和分析核心论点变得十分必要。论辩挖掘(Argumentation Mining)的主要目标是自动地从文本中提取论点、论据以及它们之间的逻辑关系,以便为论辩和推理引擎的计算模型提供依据和结构化数据。其中论点、论据等统称为论辩组件,论辩组件的类别根据不同的应用场景有不同的定义。本文主要关注的是论辩挖掘中的论辩组件识别和论辩组件分类两个任务。 目前论辩组件识别和分类任务中普遍存在着复杂的人工特征抽取工作和很强的领域依赖性。本文利用深度学习自动抽取文本特征,大大减少了人工特征的复杂工作,同时对领域的依赖性更小。 在论辩组件识别任务中,本文在双向循环神经网络(Recurrent Neural Net-work,RNN)的基础上加入条件随机场层,同时考虑多个词语的预测标签,提高了预测效果。另外,在深度学习方法的基础上提出联合RNN模型,对论辩组件识别中的两个子任务联合建模,有效避免了错误传递问题,同时也进一步提高了组件识别的准确度。 在论辩组件分类任务中,观察到文本中指示性词语(如表示因果关系的词)对论辩组件分类的作用,本文利用Attention机制对输入的词语学习不同的权重,从而提高这些指示性词语的影响力,进一步提高了分类准确度。