多层次维汉语料库的自动构建方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:baobeidjlj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的勃兴为维吾尔文的信息处理带来了新的挑战和新的希望。一方面维汉民族之间的交流日益频繁和深入,迫切需要机器翻译、跨语言信息检索、维汉双语新词辞典等工具的支持,而这些工具都有赖于双语语料库的低成本大规模自动构建。另一方面互联网维汉双语新闻的出现为平行语料库的构建提供了稳定的来源,从中构建的维汉双语语料库具有真实性和针对性。  为从网络中自动获取双语平行语料,首先要对采集的网页进行预处理,主要包括信息抽取、维文识别和编码转换,维文单词的形态还原等。在此基础上,结合维汉双语辞典和一些启发信息进行双语句子、段落和篇章三个层次的对齐。  句子对齐的双语语料库是最常见的语料库形式,也是本文研究的重点。我们综合利用内部特征和外部特征两个标准进行句子对齐。内部特征指双语句子中的词汇、人名地名、数字标点之间的对应关系,它决定了双语句子在语义上的匹配程度,作者称基于句子内部特征的无序句子配对为匹配对齐;外部特征指句子长度及其在段落中、篇章中的序号,在此基础上的对齐称为序列对齐。  段落对齐是语料库对齐中隐含的重要环节,它为篇章对齐提供了依据,又约束了句子对齐的边界。在配对的两篇文章中,段落对齐既可以采用匹配对齐方法,也可以采用序列对齐方法。因为双语新闻的段落之间并非完全对应,段落数量存在一些差异,我们比较了两种段落对齐的效果,最终采用了匹配对齐。  在配对的段落中,我们先进行句子的匹配对齐,用于验证段落配对的可信度。然后在段落边界约束下进行基于长度的序列对齐和基于内容匹配度的序列对齐(Bellman算法),并针Bellman算法的缺陷进行了改进,纠正了错误的(1∶2)和(2∶1)模式的句珠,得到可靠的句子对齐结果。  双语篇章对齐是典型的匹配对齐,我们在内部特征匹配度的基础上进行了候选配对篇章的初步筛选,然后结合其中段落对齐和句子对齐的结果进行确认,最后用阈值过滤,得到了可靠的配对篇章。  最后,结合作者实现的双语多层次对齐工具的软件界面,介绍了其功能和部分输出结果。  本文的工作主要体现在:  1.提出了基于字符层Bigram特征的语种识别模型,对区分维文与阿拉伯文等相近语言具有很好的性能。  2.用于维汉双语对齐的特征提取与融合方法。作者提出了融合维汉人名/地名、数字/标点、关键词以及长度等多种特征的维汉多粒度元素(包括句子、段落和篇章)的相似度计算方法。然后将元素对齐问题转化为二部图的最佳匹配问题,进而采用基于二部图的最佳匹配算法实现了无序元素集合匹配概率的最大化。测试表明,该方法在(1∶1)模式的句子对齐、段落对齐和篇章对齐中均有良好的效果。  3.在句子内容匹配度的基础上,利用动态规划方法提高了句子序列对齐算法在(1∶0)和(0∶1)两类特殊情况下的对齐准确率。
其他文献
近几十年来基于统计的自然语言处理方法逐渐兴起并成为当今的主流方法。而人工标注资源作为统计建模方法的主要知识来源,在当今的自然语言处理方法中发挥着重要的作用。在为统
随着烟草物流信息化、智能化的不断发展,在烟叶仓储中心建立智能化车牌识别系统(License Plate Recognition System,LPRS)也成为烟草物流信息化的重大需求。现有车牌识别系统仅满
该文首先概述了成本核算的基本方法,然后针对半导体厂的实际核算管理要求提出了一种新的综合成本核算算法,它以分步核算为基础,同时根据引进流程定额兼顾了品种和批次,考虑了
随着摩尔定律的发展,处理器中核的数量也在不断增长,片上网络已经成为影响众核处理器性能的瓶颈。因此,如何设计一款高性能低功耗的片上网络一直受到学术界和工业界的广泛关注。
多核处理器的内存系统对于提高多核处理器性能与可扩展性有重要作用。随着集成电路芯片规模的增长和工艺的细化,内存系统面临着诸多因素如芯片可靠性以及功耗等方面限制的挑战
首先,该文从对网络QoS的定义开始,对QoS参数作了全面的论述.传统IP网络只提供一种QoS,就是"尽力而为"的数据服务.以往的应用在这个服务之上能够很好地工作也取得了巨大的成功
集群中的节点由于其硬件配置不同导致其性能不同,使得集群环境成为异构环境。然而,在以Hadoop为代表的MapReduce实现中并没有充分考虑到环境的异构性,致使节点的负载不能与其
随着互联网的普及与流行,以及“开放共享”观念的深入人心,越来越多的人愿意在互联网上分享他们的代码。目前,互联网上的开源代码量正以指数规模增长,如果这些代码能被很好地
论文围绕多跳无线网络以吞吐量最大化为目标的链路调度问题展开研究,重点解决单信道多跳无线网络和新型的多信道多跳认知无线电网络这两类不同网络类型下的链路调度问题。在传