融合领域知识与深度学习的机器翻译领域自适应研究

来源 :情报科学 | 被引量 : 0次 | 上传用户:protosser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域:利用论文关键词和科技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。 [Purpose / Significance] Whether it is statistical machine translation or neuro-machine translation, training data usually come from complex sources, diverse topics, different styles, and can not be completely consistent with the field of the target text to be translated, resulting in the problem of self-adaptation in the field. At present, the domain adaptive methods of machine translation mostly use thematic models to obtain thematic information, which roughly divides the data into in-domain and out-domain, lacking a clearer field label. 【Method / Procedure】 This study uses the CLC number as the field label, and uses two methods to mark the field of Chinese sentences automatically: using the keyword of the thesis and the scientific word system to construct the domain labeling method of the field knowledge base; training Convolution neural network depth learning domain labeling method, through the neural network depth fusion model these two methods are combined to obtain a better field label, the use of machine translation test set to obtain the field label set to select its training data. [Results / Conclusion] After testing on the neuro-machine translation system, for two test fields in a particular field, only the partial training data was used to obtain the translation result of about 1.3 BLEU (5.4% relative to the original training data), which proves The effectiveness and feasibility of this research method.
其他文献
高速公路的路基质量对高速公路的使用性能影响较大,因此在进行路基施工时应严格按照规范要求进行,针对不同的路基项目采取不同的具体措施。 The subgrade quality of expres
北京大学地理系教授董黎明说,有偿转让土地是国家一项特殊载策,既可积累一定资金,又可有计划地将土地使用引入商品市场。我国自1987年以来已对外有偿转让国有土地近2000公顷
美国对太平洋区域经济合作的态度经历了一个逐渐转变的过程,从60年代初反应冷淡,到80年代中积极参与,进而在80年代末为了争夺领导权,与日本展开了激烈的较量。美国态度的这种转变,有其深刻的背景。
其实在经济增长放缓的背景下,人们会把更多的精神寄托投放在大众传媒上,这也是为何1929-1933年美国经济发生危机但却迎来了好莱坞电影事业的春天。 In fact, in the context
1982年,随着墨西哥债务危机的爆发,拉美国家经济环境急剧恶化,资金大量外流,外国直接投资大幅度减少,拉美国家从资金净流入地区,变成资金净流出地区,从而严重妨碍了拉美各国
孔夫子老先生曾站在河边叹息道:“逝者如斯夫,不舍昼夜。”从1996年6月5日召开的中国注册会计师协会全国特别代表大会到即将召开的新一届具有历史意义的全国会员代表大会,整
七幕粤剧《青青公主》取材于广东地方题材,描写广东名士邝露与瑶家公主青青的一段传奇爱情故事,着力在保留粤味的基础上营造新的视觉效果,塑造粤剧舞台新的艺术形象。该剧也
CLCnumber:H319Documentcode:AArticleID:1000┐5293(1999)Sup.┐0102┐041.TwoKindsofCommunicativeApproachesAfterprobingtheviewsoncom... CLCnumber: H319 Document Code: AArticle ID: 1000┐5293 (1999) Sup. ┐0102┐041. TwoKindsofCommercialApproachesAfterprobingthevie
期刊
一、概况委内瑞拉共和国(REPUBLICA DEVENEZUELA)位于南美洲北端,北临加勒比海,东与圭亚那接壤,南与巴西毗邻,西与哥伦比亚交界。境内西北部为山区,东南部为高原,中部为奥里
国际直接投资对世界经济和国际贸易的发展所起的影响作用越来越大。表现为:1.十多年来国际直接投资的增长速度领先于并引导着世界产量和国际贸易量的增长。2.几乎所有的国家