【摘 要】
:
本文要研究的是基于维基百科的比较语义的方法,分别通过使用分类信息,页面的网络信息,以及网页的内容作为背景知识进行语义比较,最后综合比较分析。分类信息(WikiRelate,ECat
论文部分内容阅读
本文要研究的是基于维基百科的比较语义的方法,分别通过使用分类信息,页面的网络信息,以及网页的内容作为背景知识进行语义比较,最后综合比较分析。分类信息(WikiRelate,ECate-Wikipedia):在维基百科中每个词都属于一个类,类和类之间又存在着上下位的关系,最后这些类就形成了一棵巨大的树,通过每对不同的词之间在类树上的位置,我们可以使用与WordNet中已经比较成熟的方法在这个维基百科树上进行同样的操作,从而得到不同的词汇之间的相似程度。页面网络信息(Link-Wikipedia):在维基百科中每一个页面都有着自己的出链(outlinks)以及入链(inlinks),这些链接就将维基百科编织成一个巨大的网络,通过给这些所有的链接加权,最后我们通过近似最短路的算法就能生成不同页面之间的最短距离,并以此做为不同页面之间的相似度。页面内容(ESA-Wikipedia):就是将整个维基百科视为一个巨大的知识库,在维基百科中每一个页面就只有一个主题。而整个页面上的内容都是描述这个主题的,所以我们通过将这个页面变成向量(后面部分具体描述)。而后,通过比较不同向量之间的余弦距离来得到不同页面之间的相似度。最后,我们展示了语义比较的一个应用:用语义比较的方式来提示帮助用户从成千上万的功能中找出用户想要的功能。整个系统是对本文中提到的算法的运用,不但可以证明算法的可行性,也展示了语义比较的重要性。
其他文献
智能规划的研究是人工智能研究领域的一个重要分支,在具体的实际应用中具有重要的意义。虽然基于模型检测的规划方法发展时间不长,但是可以用其来解决很多问题,例如求解不确
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种:基于规则的方法、基于
遗传算法通过模拟生物自适应选择过程和自适应进化过程,通过不断迭代逼近最优解,可以将其用于求解高度复杂的非线性最优值问题。在对复杂的单目标问题进行求解时,遗传算法表
新一代网络计算是以大规模、分散控制、动态性、自治性和松耦合为主要特征的分布式计算,传统的点对点和同步通信已不能满足动态应用环境。发布/订阅(Publish/Subscribe)是一
随着生物技术的发展,产生了大量的生物网络数据。如何从这些生物网络数据中发现一些具有生物功能的拓扑结构成为生物信息学的一个研究热点。大量实验表明,模体是这些生物网络中
本文详细介绍了国内外温室控制技术的发展,根据国内外应用及发展现状,在对我国日光温室进行了全面调研后,认为针对日光温室设计的专家系统是日光温室控制的发展方向。这是因
多目标优化问题一直是科学研究和工程应用中非常重要的研究课题。进化算法具有解决多目标优化问题的优势,因其不存在对优化问题先验知识方面的要求,可以同时搜索到优化问题的
目标跟踪是指在一段视频序列中寻找与指定目标最相似的内容,是计算机视觉的一个重要研究方向。它在智能监控、人机交互、基于目标的图像压缩和国防工业中有着广泛的应用。在
随着计算机网络的发展,图书馆管理模式也受网络化的影响进入改革的时期。网络技术所引发的社会基础结构的变革、知识经济的兴起、信息技术的进步使信息资源的数字化存贮、处
本文关注骨架提取中的一个困难问题:低质汉字骨架的提取。由于低质汉字受到多种降质因素的影响,大部分现有的骨架提取算法并不能提取出符合人类视觉的且满足“好”骨架标准的