基于词向量与可比语料库的双语词典抽取算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:qaz370724qaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语词典是跨语言信息检索和机器翻译等自然语言处理任务中的一种基础性资源,所以双语词典的抽取一直是研究者们研究的重点。目前,基于可比语料库的双语词典抽取算法性能还不够理想,而且大部分研究集中在特定领域的术语抽取。近来神经网络在机器学习等相关领域取得很好效果,词向量就是神经网络在自然语言处理领域应用的代表性的成果之一,并且已经广泛的应用于语义扩展和情感分析等自然语言处理的子领域中。词向量不仅能以向量的形式将词语数值化,而且在单语种环境中可以直接用于两个词语之间的相似度计算并自带平滑功能,这一特点适合基于可比语料库的双语词典抽取场景。本文将词向量的这一优点应用到可比语料库的双语词典抽取的工作中,其中主要的工作包括两部分内容:第一,通过词向量量化词间关系,设计并实现了双语词典抽取算法。在单语种条件下词向量可以很好的量化词语之间的相关性,而一个词语与其他词语之间的相关性反映了词语的部分语义信息。有学者研究表明这种词语之间的相关性是稳定的,因此本文将词语相关性作为词语的重要区分特征分别构建了源语言和目标语言的词间关系矩阵,然后通过种子词典将源语言的词间关系向量和目标语言的词间关系向量映射到相同的向量空间中,最后通过词间关系向量的相似度计算完成双语词典抽取的工作。实验表明,与基于向量空间模型的经典方法相比基于词向量和词间关系的词典抽取方法在准确率方面有显著的提升,特别是对于高频词语其准确率提升最为显著。第二,在词向量词间关系模型的基础上,提出融合词语共现度的双语词典抽取方法,以提高词典的抽取性能。在多语种条件下词语共现是词语语义信息的一个重要体现,因此本文将词语共现这一特征作为词语的区分特征用于可比语料库的双语词典抽取任务中来优化最终的抽取效果。本文基于该思路提出了不同语种词语之间量化共现度的方法,并将词语共现度作为词语的另一个重要特征融合到词间关系抽取模型中,形成新的词语互译的评价指标。最后实验表明,融合了词语共现度的模型与词间关系模型相比准确率上有进一步的提升。
其他文献
运用感性工学的相关理论和方法评估保温饮水器的形态设计,进而探索得出一种产品形态设计的合理方法。通过眼动追踪设备捕捉被试者观察试验图片时的眼动数据,并利用划分兴趣区
石油化工建设项目的采购是比较庞大和繁杂的工作,涉及设备和材料的种类和数量繁多,供货厂家多,工作线长,而且往往因建设工期紧张,留给采购的时间有限,从而形成项目的瓶颈。为
在泸州古蔺县城西南方向,有一大片开阔、平坦的地方,每年万亩油菜花景观吸引游客前去观光,那就是闻名的双沙镇。龙升村就在双沙镇东面,距场镇约2公里,这里民居依小溪而建,村
城市建设初期市政管网规划不完善、考虑不长远,随着城市建设的快速发展,雨污管网错接乱接、管网破损情况日益严重,很大程度影响了河道水质及污水处理厂负荷,增加管网维护难度
为了进一步贯彻落实《中共中央、国务院关于进一步加强和改进大学生思想政治教育的意见》精神,切实加强和改进大学生心理健康教育工作,武汉大学发展与教育心理研究所和上海社会
为了研究拌制工艺对纳米黏土水泥砂浆(NCM)抗裂性能的影响,选用4种不同粒径纳米黏土,通过超声分散试验研究了纳米黏土在水中分散性,采用平板刀口约束试验,研究了3种拌制工艺
目的探讨中性粒细胞/淋巴细胞比值对急性缺血性脑卒中患者预后的影响。方法选取2016年1月至2018年3月该院收治的急性缺血性脑卒中患者100例为研究对象,均接受阿替普酶静脉溶
培养国际化人才是“一带一路”对高校人才培养提出的新要求,高校作为培养主体责无旁贷。跨文化交际能力是国际化人才素养的重要组成部分,这势必要改革现有大学英语课程教学体
1月3日10时26分,嫦娥四号探测器成功着陆在月球背面东经177.6度、南纬45.5度附近的预选着陆区,并通过“鹊桥”中继星传回了世界第一张近距离拍摄的月背影像图,掲开了古老月背