论文部分内容阅读
作为自然语言处理的核心技术之一,句法分析是连接词法分析和语义分析的桥梁,可以在各种任务和领域中提供巨大的帮助。依存句法具有形式简洁、易于标注、便于应用等优点,逐渐成为句法分析的主流。但是目前依存句法分析的速度和精度饱受诟病,严重影响了它应发挥的作用。 依存句法分析可以在句子依存结构层面捕捉到更长的依赖,对于消除情感歧义有很大的帮助。基于表示学习的方法逐渐成为了情感分析任务的主流方法,本文尝试将这两者的优势结合起来。 针对如何设计一个高性能的依存句法分析器和如何将依存句法应用在情感分析任务中这两个问题,本文的主要工作和贡献如下: (1)构建基于神经网络的依存句法分析框架。基于图的方法和基于转移的方法是目前依存句法分析技术的两种主要方法。出于速度上的需要,基于转移的方法实际使用更有优势。但是传统的方法需要大量手工特征,多数时间花费在特征抽取和查找上,影响了转移方法的效率。在已有工作基础上,本文构建了基于神经网络的依存句法分析框架,实验表明,在精度变化不大的情况下,解码速度上有了巨大的提升。 (2)提出了一种非全局学习条件下的基于神经网络的柱搜索解码方法。通常,柱搜索技术都是基于全局训练模型的,但是并不适合于基于动作分类体系的神经网络分类器模型中。本文将解码过程建模成了一个全局的概率状态机,尝试了只在预测解码的时候使用柱搜索的方法。实验表明,在柱宽度较小的情况下,精度有所提升,说明在一定程度上这种方法可以扩大搜索空间,缓解贪心搜索存在的错误级连问题。 (3)提出了一种半监督学习扩充训练样本的方法。基于监督的方法强烈依赖于标注数据,而依存句法分析的标注对于语言现象的要求更高,人工标注并不容易。本文基于图模型和转移模型在错误分布上的不同的观察现象,提出用精度更高的高阶图模型自动标注一定量的数据然后再让神经网络训练的方法。实验表明,在速度基本保持一致的情况下,这种方法可以有效提升神经网络依存句法分析的精度。 (4)将依存句法分析同时应用到句子级情感分类和对象级情感分类两种粒度的情感分析任务中。本文提出了一种树窗口卷积转“伪时序”窗口卷积的方法,使得一维时序卷积网络能够处理树卷积任务。在对情感词向量进行语义强化后,融入句法信息的卷积神经网络框架可以同时处理句子级情感分析和对象级情感分析两种任务。实验表明,在融入句法结构信息后,两种粒度的情感分析效果都有提升,验证了依存句法分析对于情感消歧的作用。