基于维基百科的汉日双语命名实体翻译等价对自动获取方法

来源 :第六届全国青年计算语言学会议 | 被引量 : 0次 | 上传用户:HUANJIAN666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于维基百科的汉日双语命名实体对自动获取方案。基本思想是先从维基百科中抽取汉日双语标题对作为训练数据,训练一个统计机器翻译系统;再抽取汉语或者日语的单语标题,通过翻译得到目标语言的翻译结果;然后,使用互联网对翻译结果进行自动查错;自动查错后的双语实体对抽取结果,抽取双语对中日语或汉语的每个条目的首段内容的主要特征,与条目的分类信息一起作为最大熵模型训练数据的特征集合,对命名实体进行词性标注,获得最终的双语命名实体对;通过反馈处理扩大统计机器翻译和最大熵模型的训练集合,不断提高翻译精度。实验结果表明,词性标注准确率达91.131%,翻译结果的BLEU和NIST均值分别达到0.8688和13.7564。
其他文献
本文考察了国内基于WordNet的本体构建研究现状,从基于WordNet结构、多渠道获得概念和关系以及基于有向图等三个方面分类评述了其主要方法,归纳出语义相似度计算、核心本体构建
会议
本文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏文语言的特殊性,提出基于中心语块扩展的藏文基本名
会议
A proper quantitative understanding of the dynamic interaction between gas-phase semivolatile organiccompounds (SVOCs) and airborne particles is important for h
会议
以现有的词典资源和分类体系为基础,我们提取了航空领域的主要概念并揭示了概念之间的关系,形成航空领域概念分类谱系,最后构建了一个俄汉双语航空领域本体知识库。将俄汉两种语
汉语分词粒度对统计机器翻译系统性能影响深远。在专利文献中存在着大量的专业术语,适当的专业术语分词粒度,可有效提高统计机器翻译系统性能。为了提高机器翻译性能,
会议