基于词向量与可比语料库的双语词典抽取算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：qaz370724qaz

【摘要】

：

双语词典是跨语言信息检索和机器翻译等自然语言处理任务中的一种基础性资源,所以双语词典的抽取一直是研究者们研究的重点。目前,基于可比语料库的双语词典抽取算法性能还不

【作者】

：

陈鹏

【出处】

：

华中师范大学

【发表日期】

：

2017年期

【关键词】

：

词典提取可比语料库词向量共现信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

双语词典是跨语言信息检索和机器翻译等自然语言处理任务中的一种基础性资源,所以双语词典的抽取一直是研究者们研究的重点。目前,基于可比语料库的双语词典抽取算法性能还不够理想,而且大部分研究集中在特定领域的术语抽取。近来神经网络在机器学习等相关领域取得很好效果,词向量就是神经网络在自然语言处理领域应用的代表性的成果之一,并且已经广泛的应用于语义扩展和情感分析等自然语言处理的子领域中。词向量不仅能以向量的形式将词语数值化,而且在单语种环境中可以直接用于两个词语之间的相似度计算并自带平滑功能,这一特点适合基于可比语料库的双语词典抽取场景。本文将词向量的这一优点应用到可比语料库的双语词典抽取的工作中,其中主要的工作包括两部分内容:第一,通过词向量量化词间关系,设计并实现了双语词典抽取算法。在单语种条件下词向量可以很好的量化词语之间的相关性,而一个词语与其他词语之间的相关性反映了词语的部分语义信息。有学者研究表明这种词语之间的相关性是稳定的,因此本文将词语相关性作为词语的重要区分特征分别构建了源语言和目标语言的词间关系矩阵,然后通过种子词典将源语言的词间关系向量和目标语言的词间关系向量映射到相同的向量空间中,最后通过词间关系向量的相似度计算完成双语词典抽取的工作。实验表明,与基于向量空间模型的经典方法相比基于词向量和词间关系的词典抽取方法在准确率方面有显著的提升,特别是对于高频词语其准确率提升最为显著。第二,在词向量词间关系模型的基础上,提出融合词语共现度的双语词典抽取方法,以提高词典的抽取性能。在多语种条件下词语共现是词语语义信息的一个重要体现,因此本文将词语共现这一特征作为词语的区分特征用于可比语料库的双语词典抽取任务中来优化最终的抽取效果。本文基于该思路提出了不同语种词语之间量化共现度的方法,并将词语共现度作为词语的另一个重要特征融合到词间关系抽取模型中,形成新的词语互译的评价指标。最后实验表明,融合了词语共现度的模型与词间关系模型相比准确率上有进一步的提升。

其他文献

基于感性工学的产品形态设计研究——以保温饮水器的眼动试验为例

运用感性工学的相关理论和方法评估保温饮水器的形态设计,进而探索得出一种产品形态设计的合理方法。通过眼动追踪设备捕捉被试者观察试验图片时的眼动数据,并利用划分兴趣区

期刊

保温饮水器形态设计眼动试验感性工学thermal insulation drinking water containersappearance desi

做好项目采购工作的前延管理为现场施工创造条件

石油化工建设项目的采购是比较庞大和繁杂的工作,涉及设备和材料的种类和数量繁多,供货厂家多,工作线长,而且往往因建设工期紧张,留给采购的时间有限,从而形成项目的瓶颈。为

期刊

采购工作延伸

“好顾问”张枝国

在泸州古蔺县城西南方向,有一大片开阔、平坦的地方,每年万亩油菜花景观吸引游客前去观光,那就是闻名的双沙镇。龙升村就在双沙镇东面,距场镇约2公里,这里民居依小溪而建,村

期刊

顾问镇党委书记党支部书记油菜花办公室关工委退休县城

省了浸种剂废了一田秧——农技员手记之十八

期刊

恶苗病浸种剂农技员

盘溪河流域市政排水管网溯源排查及内窥检测

城市建设初期市政管网规划不完善、考虑不长远,随着城市建设的快速发展,雨污管网错接乱接、管网破损情况日益严重,很大程度影响了河道水质及污水处理厂负荷,增加管网维护难度

期刊

排水管网溯源内窥检测network of drainstrace to the sourceborescopic inspection

“大学生研究学术论坛”暨“大学生心理健康及干预策略”研讨会（2006·武汉）

为了进一步贯彻落实《中共中央、国务院关于进一步加强和改进大学生思想政治教育的意见》精神，切实加强和改进大学生心理健康教育工作，武汉大学发展与教育心理研究所和上海社会

期刊

大学生心理健康学术论坛学生研究武汉上海社会科学院学生思想政治教育心理健康教育工作心理研究所心理健康现状中共中央

拌制工艺对NCM开裂性能影响试验研究

为了研究拌制工艺对纳米黏土水泥砂浆(NCM)抗裂性能的影响,选用4种不同粒径纳米黏土,通过超声分散试验研究了纳米黏土在水中分散性,采用平板刀口约束试验,研究了3种拌制工艺

期刊

纳米黏土水泥砂浆开裂分形维数nanoclaycement mortarcrackfractal dimension

中性粒细胞/淋巴细胞比值对急性缺血性脑卒中患者预后的影响

目的探讨中性粒细胞/淋巴细胞比值对急性缺血性脑卒中患者预后的影响。方法选取2016年1月至2018年3月该院收治的急性缺血性脑卒中患者100例为研究对象,均接受阿替普酶静脉溶

期刊

中性粒细胞/淋巴细胞比值急性缺血性脑卒中预后静脉溶栓neutrophil/lymphocyte ratioacute cerebral infarcti

服务“一带一路”的大学英语校本课程体系构建

培养国际化人才是“一带一路”对高校人才培养提出的新要求,高校作为培养主体责无旁贷。跨文化交际能力是国际化人才素养的重要组成部分,这势必要改革现有大学英语课程教学体

期刊

“一带一路”大学英语课程体系校本特色跨文化交际能力the Belt and Road Initiative(BRI)College Englishcu

首次!嫦娥四号实现人类探测器月背软着陆

1月3日10时26分,嫦娥四号探测器成功着陆在月球背面东经177.6度、南纬45.5度附近的预选着陆区,并通过“鹊桥”中继星传回了世界第一张近距离拍摄的月背影像图,掲开了古老月背

期刊

软着陆探测器嫦娥人类近距离

基于词向量与可比语料库的双语词典抽取算法研究

其他学术论文