论文部分内容阅读
双语词典是跨语言信息检索和机器翻译等自然语言处理任务中的一种基础性资源,所以双语词典的抽取一直是研究者们研究的重点。目前,基于可比语料库的双语词典抽取算法性能还不够理想,而且大部分研究集中在特定领域的术语抽取。近来神经网络在机器学习等相关领域取得很好效果,词向量就是神经网络在自然语言处理领域应用的代表性的成果之一,并且已经广泛的应用于语义扩展和情感分析等自然语言处理的子领域中。词向量不仅能以向量的形式将词语数值化,而且在单语种环境中可以直接用于两个词语之间的相似度计算并自带平滑功能,这一特点适合基于可比语料库的双语词典抽取场景。本文将词向量的这一优点应用到可比语料库的双语词典抽取的工作中,其中主要的工作包括两部分内容:第一,通过词向量量化词间关系,设计并实现了双语词典抽取算法。在单语种条件下词向量可以很好的量化词语之间的相关性,而一个词语与其他词语之间的相关性反映了词语的部分语义信息。有学者研究表明这种词语之间的相关性是稳定的,因此本文将词语相关性作为词语的重要区分特征分别构建了源语言和目标语言的词间关系矩阵,然后通过种子词典将源语言的词间关系向量和目标语言的词间关系向量映射到相同的向量空间中,最后通过词间关系向量的相似度计算完成双语词典抽取的工作。实验表明,与基于向量空间模型的经典方法相比基于词向量和词间关系的词典抽取方法在准确率方面有显著的提升,特别是对于高频词语其准确率提升最为显著。第二,在词向量词间关系模型的基础上,提出融合词语共现度的双语词典抽取方法,以提高词典的抽取性能。在多语种条件下词语共现是词语语义信息的一个重要体现,因此本文将词语共现这一特征作为词语的区分特征用于可比语料库的双语词典抽取任务中来优化最终的抽取效果。本文基于该思路提出了不同语种词语之间量化共现度的方法,并将词语共现度作为词语的另一个重要特征融合到词间关系抽取模型中,形成新的词语互译的评价指标。最后实验表明,融合了词语共现度的模型与词间关系模型相比准确率上有进一步的提升。