基于翻译模型的引文推荐

来源 :北京大学 | 被引量 : 0次 | 上传用户:ajianginger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言非常有用。引文推荐问题可以被转化为一个信息检索问题,其中查询语句就是文献中的文字片段,相关文档即是被引用的文档。在实际中,这些文字片段和被引用的文档往往使用了不同的词汇术语,这导致了直接检索的困难。而翻译模型在信息检索中恰好可以很好的将查询语句与目标文档之间的词汇联系起来。  本文在经典信息检索模型语言模型中,加入了表征词与词之间联系的翻译模型,以此来解决引文与目标文档使用词汇不尽相同的这一问题。针对翻译模型的训练,我们需要一个较大的查询语句与相关文档对的集合,这里我们假设查询语句和对应的相关文档是平行的。在此基础上本文提出了两种翻译模型的训练方法:  1)全局翻译模型,2)位置对齐翻译模型在本文的实验部分,详细比较了不同的参数对实验结果的影响,其中包含不同的平行语料构建方法、翻译保留词汇量、语言模型与翻译模型的权重参数等。与传统的方法相比,本文通过翻译模型可以找到更好的备选引文,效果提升明显。  
其他文献
该文主要从以下几个方面讨论了对象WEB技术的基本原理及其在OMA2000系统中的具体应用和实现.(1)从理论上介绍了对象WEB技术的基本概念,讨论了该技术的JAVA-CORBA框架模式,以
近年来,由于互联网及数码设备的日益普及,视频的内容分析和处理受到各界的广泛关注。其中,基于视频的人体动作识别方法在近年来被广泛应用于各个领域,成为热门的研究方向。但
随着现代社会节奏的日益加快,计算机网络进入了飞速发展时期,逐渐成为了人们日常生活中信息交流的主要渠道。然而在网络上的信息传输仍然面临着很多安全问题,同时也对国家经济造
随着信息化技术的飞速发展,网络成为信息交流的重要平台,信息化教育技术受到越来越多高校的重视,建设一个健全的数字换校园成为高校的一个重要课题。传统的教学方式已不能满足高
互联网络为网民发表评论、交换观点带来了极大的便利,也为人们的决策提供了有力的支持。消费者很容易在餐馆点评网上对餐饮与服务进行评论,为新的客户选择餐馆提供依据;人们也
XML是一种半结构化的数据描述语言,因其具备高可读性、跨平台性和可扩展等特性,在互联网领域被广泛应用。为了推动XML数据查询和处理的标准化,国际万维网组织W3C发布了XQuery
人体检测技术是计算机视觉领域一个重要的研究方向,是实现智能监控等应用的关键,具有很强的实用价值。许多基于人体目标的高级技术,如异常行为分析、行人追踪等,都直接依赖于人体
随着信息化发展和网络技术的广泛应用,网络安全性变得至关重要。继防火墙,数据加密等安全保护措施后,入侵检测系统成为新一代的安全保障技术。传统的入侵检测系统都有一些缺
随着城市化进程的逐步推进,城市建设快速发展,各类建筑物的地下部分所占空间越来越大,地置深度越来越深。基坑工程向更大、更深、条件更复杂的方向发展,变得更加规范化、信息
无线传感器网络是由部署在监测区域内的大量廉价传感器节点,通过无线通信方式形成的一个多跳的自组织网络,以其低成本、低功耗、自组织和分布式等特点带来了一场信息感知的革命