【摘 要】
:
随着信息的爆炸性增长,如何从大量信息中有效地挖掘有用信息成为一个重要问题。文本是信息的重要载体,因此文本的处理和分析已成为数据挖掘的热点之一。文本相似度是自然语言处理(Natural Language Processing,NLP)中大多数与文本相关的任务的基础,如信息检索和问答系统,准确的文本相似度计算对于文本处理有着重要的意义。文本相似度是计算一对文本之间的匹配程度的方法,目前大多数研究方法主
论文部分内容阅读
随着信息的爆炸性增长,如何从大量信息中有效地挖掘有用信息成为一个重要问题。文本是信息的重要载体,因此文本的处理和分析已成为数据挖掘的热点之一。文本相似度是自然语言处理(Natural Language Processing,NLP)中大多数与文本相关的任务的基础,如信息检索和问答系统,准确的文本相似度计算对于文本处理有着重要的意义。文本相似度是计算一对文本之间的匹配程度的方法,目前大多数研究方法主要关注文本的语义相似度,或者通过经验设定的加权方法将多种类型的相似性特征(例如词汇、句法、语义)进行堆叠。与目前的方法不同,本文在考虑文本的句法特征基础上,融入了语义信息,提出基于词向量增强树核模型的文本相似度计算方法,本文的主要工作如下:为了融合文本的句法和语义特征,提出一种基于词向量增强树核的文本相似度计算方法(VTK)。构建高质量的词向量作为方法的语义知识资源,然后对文本进行句法分析,构建文本的句法树。在树核方法进行两个文本树的公共子树数量计算的基础上,定义子树匹配的新规则:区别对待文本树中不同类型的节点(句法和单词),使用单词节点的词向量作为单词节点标签。从而实现语义信息的融入,完成文本的语法-语义特征的自动抽取和匹配。最后通过特征之间的匹配分数获得文本之间的相似性。为了解决词向量固有的反义词高相关性对算法性能的影响,进一步提出基于WordNet的反义词标记过滤方法对VTK方法进行优化。修改VTK进行子树匹配的规则,基于WordNet词典中的反义关系,增加对文本句法树中单词对的反义关系的判断,对具有反义关系的单词节点对进行标记,在匹配时对具有反义词标记的特征分数置为0实现反义词过滤,以提高相似度判断的准确性。本文在2012年到2015年这四年的文本语义相似度任务(Semantic Textual Similarity,STS)提供的源自各种来源的19个数据集上进行了实验,并采用领域中广泛使用的皮尔逊相关系数(Pearson correlation coefficient,Pearson)作为评价指标进行方法性能的评估。实验结果表明,与文本相似度中一些常用的方法相比,本文提出的方法具有良好的性能,它可以有效提高文本相似性判断的准确性,这也说明句法和语义特征的融合是短文本相似度计算建模的一个很好的选择。
其他文献
随着我国人口老龄化的日趋加剧,传统的几代同堂的家庭模式已经变成父母子女三口之家,家庭自主赡养老人无法满足现有的人口结构。此次论文深入研究空间尺度与老人生理心理特征
众所周知,超卤素是一类强氧化剂。1962年,Bartlett等人发现了超卤素PtF_6可以氧化惰性气体氙(Xe),形成离子型化合物Xe+[PtF_6]-。他们又在随后的研究中发现PtF_6也可以氧化O_2分子,体现出超强的氧化性能。2013年,Skurski等人尝试用超卤素分子BF_4和AlF_4去氧化小型的水分子团簇,发现二者间发生电子转移,形成了离子型复合物[(H_2O)_n]+[BF_4]-
超支化环氧树脂作为一种具有优异物理化学性能的热固性树脂,被广泛用于通用环氧树脂的增韧增强,但其微观结构及性能的调控仍是环氧树脂领域的关键难题。本文采用具有选择性高、无副产物、产率高等优点的Thiol-X点击反应技术调控环氧树脂的微观结构与性能,具体地利用硫醇-环氧点击反应调控了双酚A型环氧树脂(DGEBA)的性能,用硫醇-烯烃点击反应合成了微观结构(环氧值和支化度)可控的超支化环氧树脂,并研究了环
土壤侵蚀会造成富含养分的表层土壤持续流失,降低土壤持水保肥效果,是农田土壤退化的主要原因之一。而生物炭作为一种土壤改良剂应用于耕作土壤受到广泛关注,生物炭施加不但可以减轻温室气体排放,还可以改善土壤理化性质。但是目前关于生物炭的施加对侵蚀退化农田土壤的改良研究还相对较少。本文通过模拟沈阳地区农田棕壤的3个侵蚀程度,研究施加0%、4%和8%生物炭对土壤含水率、有效磷、碱解氮、有机质和苜蓿产量的影响,
研究区位于小兴安岭—张广才岭Fe-Pb-Zn-Cu-Mo-Au-W-Sn水晶硫铁矿成矿带、滨东Cu-Mo-W-Sn-Pb-Zn-Fe成矿亚带与延寿Pb-Zn-Cu成矿亚带的衔接部位,成矿地质条件有利,找矿标志明显,具有较好找矿潜力。依托―黑龙江省1:5万兴隆镇、杨家店、元宝镇、行政村幅区域地质矿产调查‖和―黑龙江省尚志市元宝林场钨多金属矿普查‖等黑龙江省基金项目,在收集整理前人研究成果基础上,总结
目前在南方城市河道中底泥黑臭现象十分常见,黑臭底泥向上覆水体释放污染物,是造成上覆水体水质恶化的主要原因。研究表明硫化物和亚铁的累积是造成底泥黑臭的主要因素,而磷
化石能源短缺和环境污染成为制约社会可持续发展的瓶颈,此问题已经成为社会共识。研究节能环保技术是解决瓶颈问题的有效方法之一。其中,电催化技术因具有清洁、高效转化的特点而得到广泛关注。基于本课题组多年的金属卟啉类化合物的合成经验与优势,制备了三种含氮碳基非贵金属电催化剂,并对其在氧还原反应和葡萄糖选择性氧化反应中的性能进行了研究,主要研究内容包括:(1)为了探究卟啉大环化合物活性中心对氧还原反应(OR
染料敏化太阳能电池由于制备简单,可进行大规模生产,具有较高的光电转换效率等优点,近年来得到了研究人员的广泛关注。常见的光电转换效率较高的光敏染料主要为金属染料,但部分贵金属较为稀缺,成本昂贵且会造成环境污染,同时金属染料合成步骤繁琐提纯较为困难,且摩尔吸光系数较低限制了其应用。非金属有机染料材料来源广泛,成本低廉,合成及提纯方法较为简单且结构可调,同时具有较高的摩尔吸光系数成为备受瞩目的光敏染料。
研究区樊29块为典型的浊积低渗油藏,历经多年勘探开发,现已进入高含水阶段,对剩余油分布认识不清等问题日益突出。剩余油的分布不仅受沉积微相、储层非均质性和动态开发因素
重型车辆在社会基础设施建设和经济发展中具有举足轻重的地位。由于其多变的使用场合与复杂的工作环境,重型车辆在坏路面上的动力性和好路面上的经济性之间的矛盾日益突出。加装轮毂液压混合动力系统的重型车辆,在坏路面时利用前轮的路面附着力进行液压辅助驱动,在好路面时使用机械后轮驱动,能够实现分时全驱,拥有良好的应用前景。但由于重型车辆行驶工况的复杂性和驾驶员操作的不确定性,进行液压辅助驱动时往往会出现单侧车轮