基于词语相似度的未登录词元框架选择研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:wanxlm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语框架网(CFN)作为一种词汇语义资源,可以广泛应用在阅读理解问答系统等中文信息处理研究领域,然而和其它语义类资源一样,需要面对词元覆盖率的问题。在对汉语文本进行基于框架语义学的语义分析时,词元覆盖率问题会导致遇到能够激起CFN框架语义场景、但暂未收录到已有框架下的目标词,这样的未登录词元阻碍了语义分析任务过程的正常进行。要提高汉语框架网的词元覆盖率,就需要通过丰富框架词元来扩充现有词元库的规模。本文以国家863计划项目的“语言问题求解和答案生成关键技术”课题为依托,针对高考语文阅读理解语义分析过程中的未登录词元问题,以未登录词元与框架词元的语义相似度为研究角度,利用目前常用的词语相似度计算方法,将未登录词元划分到与之语义场景最接近的框架之下,完成未登录词元的框架选择任务。本文的主要工作及研究成果如下:首先,针对未登录词元的框架选择任务,提出并验证了两种方法。(1)基于HowNet语义词典的未登录词元框架选择方法。依据HowNet的知识描述语言和义原层次体系结构,将未登录词元与框架词元按照“词语相似度-概念相似度-义原相似度”的转化过程进行相似度计算,按未登录词元与框架的相似值由高到低排序,确认未登录词元的框架选择范围,最终取得70.38%的准确率。(2)基于Word2Vec词向量模型的未登录词元框架选择方法。利用Word2Vec工具进行大规模语料训练得到词向量表,将未登录词元与框架词元向量化表示后,采用欧式距离和余弦相似度计算出相似度,按未登录词元与框架的相似值由高到低排序,确认未登录词元的框架选择范围,准确率最高达到81.45%。最后,基于以上两种未登录词元的框架选择方法,设计与实现了汉语框架网未登录词元框架选择原型系统,为解决未登录词元问题提供了自动化工具,可应用于CFN词元库规模的扩充。
其他文献
经济的发展和时代的进步使得机械设计制造及自动化技术成为制造业发展的组成部分,现代社会人们对生产生活物质的需求不断增加,而高科技的机械设计制造及自动化技术发展,成为提高人们生活水平、实现现代化建设的重要途径。在这种情况下,认真研究机械设计制造及自动化发展方向,稳步推进制造业的不断发展,提升技术水平成为人们关注的重点。机械设计制造及自动化技术对于制造业的发展起着重要的作用,因此,本文将针对目前制造业,
目的分析胸部肿瘤患者开胸术后下肢深静脉血栓(DVT)的预防性护理干预价值。方法选择2019年1月至2020年2月于郑州大学第一附属医院择期行开胸术的80例胸部肿瘤患者为研究对象。将2019年1月至7月收治的患者纳入对照组(n=40),给予常规护理干预;将2019年8月至2020年2月收治的患者纳入观察组(n=40),在常规护理干预的基础上给予DVT预防性护理干预。比较2组干预前后血流速度、静脉通畅
"低税率"是自贸港基本制度安排,全球自贸港企业所得税税率均低于17%,部分自贸港免征企业所得税。《海南自由贸易港建设总体方案》(下称《总体方案》)明确2025年前,对注册在海南自贸港并实质运行的鼓励类的产业企业,减按15%征收企业所得税,2025年后,对所有企业减按15%征收企业所得税。用好企业所得税优惠政策,将有利于海南参与国际竞争,抢抓全球新一轮科技革命和产业变革重要机遇,培育具有海南特
期刊
本文通过介绍一个实例,阐述和探讨了以在MicroStation V8平台上快速更新基础地理信息数据为目的,实现利用林业资源数据与基础地理信息数据共建共享的方法
森林作为地球生态系统中十分重要的组成部分,一方面,森林能够有效地改善地球生态环境;另一方面,能够为人类社会源源不断地提供宝贵的木材等林业资源。近年,我国对森林资源高度重视,实施了一系列的林业生态保护工程和人工林场工程,然而我国森林培育技术发展较晚,森林培育技术在林业生态保护工程和人工林场工程中有着重要意义。基于此,本文从多个层面对森林培育技术精准化的相关问题进行深入剖析,以期为推进我国森林栽培技术
海洋生物污损对海洋工业造成严重影响,导致船舶阻力及油耗上升、海水输送管道堵塞、腐蚀加速等问题。基于有机硅弹性体的污损脱附型涂层具有环境友好、减阻节能、性能长期稳定的优点,应用前景广阔。但其污损脱附性能依赖于强水流冲刷,且无法阻抗污损生物的黏附,不能满足海洋工程装备在静态条件下服役的防污需求。近年来,国内外学者通过化学与物理改性制备了系列具有污损阻抗性的有机硅涂层,包括共混/接枝两亲性添加剂、两性离
7-氨基头孢烷酸(7-ACA)是合成头孢菌素类抗生素的重要中间体,工业上通常采用头孢菌素C酰化酶一步水解头孢菌素C制备,但在该反应产物中存在一个主要杂质3-去乙酰基-7-氨基头孢烷酸(D-7-ACA),该杂质的产生是由大肠杆菌中内源基因aes编码的头孢菌素C乙酰酯酶水解头孢菌素C或7-ACA引起的。为了防止D-7-ACA的形成,获得高品质7-ACA,减少下游精制成本,采用大肠杆菌双质粒pTarge
"权利"是民法学理论的核心概念和民法法典化的构造基础。《民法典》所规定的知识产权,具有民事权利的基本属性和专有权利的特殊品格。《民法典》在知识产权领域里的适用规范,包括"基本规定""一般规定""专门规定",涉及知识产权法的价值目标、原则立场、精神理念的基本遵循,与知识产权运行有关民事活动的一般规则和通行制度,以及对知识产权相关事项作出的特别规定。法教义学的任务是:从知识产权法律适用需要出发,对《民
为快速获取台风过后玉米倒伏信息,该研究以生态无人农场大田玉米作为研究对象,利用无人机搭载多光谱相机获取玉米田块图像。采用主成分分析(Principal Component Analysis,PCA)变换多光谱图像,保留信息量最多的前3个主成分波段;应用最小噪声分离变换(Minimum Noise Fraction Rotation,MNF)对48项纹理特征降维,保留信息量最多的前6项特征;计算选择