基于后缀数组方法的网络译文挖掘

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:hnjylwn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用互联网上丰富的信息资源来挖掘出专业术语的翻译选项可以应用在计算机辅助学习、机器翻译和跨语言检索等多个领域。如何挖掘出Web上所有可能的标注对形式并获取候选译文的正确边界,怎样去掉统计形成的噪声是一个困难的问题?本文在分析并综述了所有可能的译文获取方法的基础上,提出了基于后缀数组的统计方法来进行专业术语挖掘。该方法不但能够挖掘出网页中译文存在的不同形式,并且能够获得正确的边界。在此基础上,系统将出现的噪声定义为两大类:子集冗余信息和前后缀型冗余信息,本文分别提出基于排序子集删除法和互信息的方法来解决这两种冗余。在401个英汉词汇集和100个英日词汇集上进行实验,取得良好的效果。实验也表明该方法是一个通用的解决亚洲语言译文获取的有效手段。
其他文献
双语语料库在机器翻译研究中是非常重要的。本文探讨了如何利用蒙英双语语料进行蒙英翻译片段对的抽取,在蒙英两种语料进行词性标注处理之后,利用假设-检验的方法通过词语关
该文提出了基于二部图的词对齐模型:利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。实验表明,该
采用根癌农杆菌介导法的叶盘转化法,将紫穗槐反义4CL基因片段导入烟草中,获得T0代阳性转化植株.T0代转基因植株自花授粉,收获种子,种植后获得T1代植株.PCR、RT-PCR (T1代)检
指出双语组块最重要的特点是语义自足性、结构合法性和翻译转换的充分性,即识别出来的"双语组块"包含有确定的语义信息和双语对译信息,并且符合-定的语法规范。为此,相应地提
会议
从1986年以后每年人们郡像往常一样来到切尔诺贝利核事故纪念碑前哀悼死难者.人类对自然和科学的掌握.创造了更好的生活,也带来了不少灾难.环境的污染和资源的流失,威胁到了
基于树到串对齐模板的统计机器翻译模型是一种新颖的翻译模型,本文提出了基于树到串对齐模板翻译模型的n-best解码算法。实验结果表明,本文提出的解码算法不但提高了开发集上
当前统计机器翻译系统还存在很多弊端,对于一些常见的语言学现象的处理并不理想,离真正的实用化还有一定的差距。本文结合统计和规则翻译方法的优点,提出了一种将句型模板融
会议
短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于
在基于大规模双语语料库的机器翻译研究中,如何找到最有效的翻译参考一直以来都是人们的关注焦点,其核心技术就是参考例句的相似度计算。本文提出了一种基于HowNet词语相似度
FinteX是一个功能强大、高性能、灵活的全文索引和检索平台。FinteX的主要目标是作为一个开放式的实验平台研究信息检索的各种数据结构、算法和模型,并可快速搭建实验系统。
会议