论文部分内容阅读
引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言非常有用。引文推荐问题可以被转化为一个信息检索问题,其中查询语句就是文献中的文字片段,相关文档即是被引用的文档。在实际中,这些文字片段和被引用的文档往往使用了不同的词汇术语,这导致了直接检索的困难。而翻译模型在信息检索中恰好可以很好的将查询语句与目标文档之间的词汇联系起来。 本文在经典信息检索模型语言模型中,加入了表征词与词之间联系的翻译模型,以此来解决引文与目标文档使用词汇不尽相同的这一问题。针对翻译模型的训练,我们需要一个较大的查询语句与相关文档对的集合,这里我们假设查询语句和对应的相关文档是平行的。在此基础上本文提出了两种翻译模型的训练方法: 1)全局翻译模型,2)位置对齐翻译模型在本文的实验部分,详细比较了不同的参数对实验结果的影响,其中包含不同的平行语料构建方法、翻译保留词汇量、语言模型与翻译模型的权重参数等。与传统的方法相比,本文通过翻译模型可以找到更好的备选引文,效果提升明显。