论文部分内容阅读
网络的勃兴为维吾尔文的信息处理带来了新的挑战和新的希望。一方面维汉民族之间的交流日益频繁和深入,迫切需要机器翻译、跨语言信息检索、维汉双语新词辞典等工具的支持,而这些工具都有赖于双语语料库的低成本大规模自动构建。另一方面互联网维汉双语新闻的出现为平行语料库的构建提供了稳定的来源,从中构建的维汉双语语料库具有真实性和针对性。 为从网络中自动获取双语平行语料,首先要对采集的网页进行预处理,主要包括信息抽取、维文识别和编码转换,维文单词的形态还原等。在此基础上,结合维汉双语辞典和一些启发信息进行双语句子、段落和篇章三个层次的对齐。 句子对齐的双语语料库是最常见的语料库形式,也是本文研究的重点。我们综合利用内部特征和外部特征两个标准进行句子对齐。内部特征指双语句子中的词汇、人名地名、数字标点之间的对应关系,它决定了双语句子在语义上的匹配程度,作者称基于句子内部特征的无序句子配对为匹配对齐;外部特征指句子长度及其在段落中、篇章中的序号,在此基础上的对齐称为序列对齐。 段落对齐是语料库对齐中隐含的重要环节,它为篇章对齐提供了依据,又约束了句子对齐的边界。在配对的两篇文章中,段落对齐既可以采用匹配对齐方法,也可以采用序列对齐方法。因为双语新闻的段落之间并非完全对应,段落数量存在一些差异,我们比较了两种段落对齐的效果,最终采用了匹配对齐。 在配对的段落中,我们先进行句子的匹配对齐,用于验证段落配对的可信度。然后在段落边界约束下进行基于长度的序列对齐和基于内容匹配度的序列对齐(Bellman算法),并针Bellman算法的缺陷进行了改进,纠正了错误的(1∶2)和(2∶1)模式的句珠,得到可靠的句子对齐结果。 双语篇章对齐是典型的匹配对齐,我们在内部特征匹配度的基础上进行了候选配对篇章的初步筛选,然后结合其中段落对齐和句子对齐的结果进行确认,最后用阈值过滤,得到了可靠的配对篇章。 最后,结合作者实现的双语多层次对齐工具的软件界面,介绍了其功能和部分输出结果。 本文的工作主要体现在: 1.提出了基于字符层Bigram特征的语种识别模型,对区分维文与阿拉伯文等相近语言具有很好的性能。 2.用于维汉双语对齐的特征提取与融合方法。作者提出了融合维汉人名/地名、数字/标点、关键词以及长度等多种特征的维汉多粒度元素(包括句子、段落和篇章)的相似度计算方法。然后将元素对齐问题转化为二部图的最佳匹配问题,进而采用基于二部图的最佳匹配算法实现了无序元素集合匹配概率的最大化。测试表明,该方法在(1∶1)模式的句子对齐、段落对齐和篇章对齐中均有良好的效果。 3.在句子内容匹配度的基础上,利用动态规划方法提高了句子序列对齐算法在(1∶0)和(0∶1)两类特殊情况下的对齐准确率。