【摘 要】
:
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(如SBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。以往词语对齐方法对双语词典在对齐中的作
论文部分内容阅读
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(如SBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。以往词语对齐方法对双语词典在对齐中的作用的研究都不够深入。本文重点研究利用由多部人读双语词典扩充双语词典的规模来改善对齐质量。在Ker的基于类的词语对齐方法研究和实践的基础上,提出了一个利用大规模双语词典进行汉英词语对齐的方法。该方法利用双语词典计算的词语相似度,位置和词性信息进行词语对齐,并通过对齐窗口得到了多对多的词语对应。用该方法建造的汉英词语对齐系统,最终在中文句子平均单词数是24.8,英语句子的平均单词数为34.5的650对中英语句子的测试集下,取得了准确率84.0%下召回率62.9%的结果。在对齐算法上,本文在下面几点上对Ker的词语对齐算法做了改进和创新:1.对Ker的算法中相对位置偏移量的计算方式做了改进,并在开始对齐前通过词语相似度选择对齐锚点来改善对齐质量。2.提出对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对多的词语对应。
其他文献
本文针对视频中人体动作识别和分类的需求,设计和实现了具有较高准确率的人体动作识别系统。在设计系统的过程中,我们分析和评估了近年来国内外流行的动作检测和识别方法,在此基
基于构件的软件系统的测试问题,应该从构件的提供者和构件的使用者两个角度来看。当构件从提供者交付到使用者时,往往假定单个构件已经进行了彻底的测试,但是一旦这些构件在
随着计算机性能的提高和网络技术的发展,计算机系统已由传统的问题求解和数学计算,越来越多地转向支持人类广泛和有效的工作模式——协同,即帮助一组用户进行交互和支持他们
马尔可夫过程广泛应用于物理、化学、生物、工程问题的建模。最近,研究者受生物学问题的启发提出了一种对连续状态空间马尔可夫过程进行分解的框架,该框架将原来的过程分解为
随着企业规模的不断扩大,企业信息系统的规模也在不断的增加,其开发难度也越来越大。因此,对企业信息系统的总体结构的把握,即对体系结构的关注显得要比对程序的算法和数据结
汽油机电控系统是指以发动机电控单元ECU为核心,通过各类电子传感器进行信息采集,在ECU中分析处理后输出合理的电子信号来控制汽油发动机在各种工况下的运行,具有良好的稳定性、
本论文旨在深入探索免疫网络机制与非我选择机制,在现有人工免疫网络模型以及非选择算法的基础上,设计出更高效快速的实用性算法,并应用于实际的异常检测。 具体而言,本文的研
随着计算机技术的发展及计算机网络的日益普及,利用计算机实现网上在线考试、在线测试等已成为教育改革的热点之一。论文介绍了计算机在线考试系统的工作流理论模型、用例分
面向对象数据库技术是面向对象技术和数据库技术相结合的主流技术。尽管面向对象数据库系统作为数据库家族中的一个新兴的研究和开发领域,尚缺乏完整的理论支持,但其在数据库