文本语义相似度计算方法研究及应用

来源 :苏州大学 | 被引量 : 3次 | 上传用户:ankeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算一直是自然语言处理领域研究中的一个基础问题。而文本语义相似度计算则是在文本相似度计算基础上增加了语义分析,在语义层面对文本相似度作进一步的分析研究,具有广阔的应用背景。本文针对句子级别的文本语义相似度计算问题,提出了应用结构化特征和神经网络的方法,并将该方法应用到一个实际的问答系统中,取得了良好的效果。本文深入研究文本语义相似度计算方法,主要研究内容如下:(1)基于结构化表示的文本语义相似度计算方法针对句子级文本相似度计算方法中平面特征表征性弱的问题,本文提出了应用结构化特征来表示句子级文本的句法、语义等信息。在浅层句法树和依存关系树的基础上,获得了基于短语的浅层句法树PST(Phrase-based Shallow Tree)和基于短语的依存树PDT(Phrase-based Dependency Tree)的结构化特征,并与平面特征向量相结合,使用支持向量回归模型进行文本语义相似度计算。实验结果表明,加入PST或PDT特征可以分别使皮尔逊相关系数比基准系统提高0.054和0.041。(2)基于Tree-LSTM的文本语义相似度计算方法为了进一步提高长文本语义相似度计算性能,本文提出应用深度学习方法对长文本进行语义相似度计算研究。首先,设计了适合神经网络模型的新的基于短语的浅层句法树NPST(New PST)和新的基于短语的依存树NPDT(New PDT)结构化特征;其次,将以上结构化特征与多个Tree-LSTM模型相结合进行文本相似度计算。实验结果表明,在长文本集上使用NPST和NPDT,可以分别使皮尔逊相关系数比基准系统提高0.012和0.053。(3)基于文本语义相似度计算的问答系统本文提出了基于工单内容的文本语义相似度计算方法,并将该方法运用在自动问答系统中。对用户咨询的内容使用文本相似度计算方法查询结果,对查询到的结果按照相关性进行智能排序。应用表明,该方法可以提高返回用户咨询答案的正确率,减少话务员工作量。
其他文献
近日,海南省住房城乡建设厅结合当地实际出台《海南省建设工程质量检测管理办法》(以下简称《办法》),从检测资质、检测人员、检测行为、监督管理等方面制订工程质量检测的业务内
大量经验研究表明,教育在中国人地位获得中的作用在加强,与此同时,人们也发现来自家庭背景,或者说阶层背景的差异对人们的教育获得的影响也是不可忽视的。那么家庭背景是如何
青山沟镇地处辽宁省宽甸满族自治县北部山区,拥有得天独厚的旅游资源。以前这里的农友守着青山绿水,却不知道如何高效利用。随着旅游业的迅速升温,当地近百位农民自费到长春、哈
期刊
对家蚕核型多角体病毒苏州株(BmNPVsu)光胱氨酸蛋白酶基因(CP)的序列分析表明,该基因读码框为972个核苷酸,编码323个氨基酸。同源性分析表明,BmNPVsu的CP与芷蓿银纹夜蛾核型多角体
哈贝马斯的普遍语用学以奥斯汀与塞尔的言语行为理论为基础,但又有超越。这种超越体现在3个方面:哈贝马斯突破了奥斯汀与塞尔关于制度界限内的以言行事行为,提出了非制度界限
哈贝马斯的言语行为理论在其社会批判理论中占有重要地位。他认为,社会秩序得以可能的基础是交往行为,而交往行为得以可能的基础是言语行为,因此,以言语行为为中介的交往行为
目的:探讨中心静脉导管治疗恶性胸腔积液的治疗及护理方法。方法选取72例恶性胸腔积液患者为研究对象,全部采用中心静脉导管行胸腔留置作闭式引流,由中心静脉导管向胸腔内注
4月29日。广东省首个百兆瓦级光伏发电项目——协鑫海丰县100MWp农业光伏发电项目开工。项目建成后将成为广东省内最大的单体农业光伏电站,年均发电量1.1亿度。据悉,电站25年所
本文简述家蚕育种现状,提出了分子标记在家蚕育种中如何应用、存在的问题及解决方法。首次将筛选出的家蚕耐氟性分子标记在回交后代中进行选择尝试。