中文本体自动构建关键技术研究及平台实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:aiming4636j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于计算机和互联网的高速发展,信息资源呈现出爆炸式增长,数量上越来越丰富,但同时也给知识获取增加了难度。如何能够对信息进行有效的组织和管理,使之转化为知识,成为知识获取的瓶颈问题。本体是一种能在语义层次上描述知识的概念模型,其目的在于以一种通用的方式来获取领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用系统之间的共享和重利用。   早期的Ontology的构建工作是通过人工完成的,耗费大量的人力、物力和财力,时间周期也很长,在很大程度上影响了Ontology的应用。近30年来,研究人员将精力集中在Ontology的自动、半自动构建上,取得了很多的成果。   本文的研究重点在于本体自动构建任务中的两个基本问题:本体的概念学习和本体的层级结构生成。   在本体的概念学习方面,本文提出一种基于互联网的本体属性值自动提取方法。首先提出了一种在小规模属性值种子集的基础上,将包含属性值的句子选择与属性值提取进行互动的方法。利用互联网信息的冗余性,自动抽取并扩充目标属性值集合;进一步,为避免人工构造属性值种子集,又提出了种子集自动生成的方法。   在本体的层级结构生成方面,本文提出了一种基于FCA的本体层级结构自动生成方法,利用该方法可以实现从概念列表到概念层级结构的自动化构建过程。在该方法中,我们限定特征空间为概念的属性值集合,并通过属性值提取实现特征选择。基于规则构建初始本体,并通过其中上下位关系的相似度计算来实现特征评估,最后通过综合属性概率和属性值概率实现概念间的相似度计算。   作为以上两个问题的融合,本文又提出了一种基于互联网的概念学习和层级关系提取一体化的方法,将概念属性值的提取结果用于评估层级关系,反之,将层级关系提取结果用于扩充概念的属性值;并通过权重传递使不准确因素进行快速衰减,以保证结果的准确性。实验证明,这种方法对于概念学习和层级结构提取的性能都不同程度上有所提高。   本文将上述关键技术集成到中文本体构建平台中,该平台基于国外开源本体编辑平台Protege,本文在其基础上实现了概念学习与层级结构自动生成的功能,并提出了关于中文本体构建平台的进一步设想——基于NLP的本体自动构建流水线工作平台。
其他文献
计算机动画一直是计算机图形学领域的一个研究热点,影视特效的发展以及电子游戏的强力需求进一步推动了这一方向的研究。然而,真实世界蕴涵着复杂的运动规律,而计算机图形学领域
随着互联网的迅猛发展,网络安全已经成为互联网应用中的焦点问题之一。单一的防火墙无法应付日益复杂和多样化的网络攻击,需要在网关进行全方位的防护。在网关部署众多的网络安
工作流的概念起源于生产组织和办公自动化领域,其目的是通过将工作分解成定义良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控,达到提高工作效率、降
门户中间件作为构建、管理、运行企业信息门户的支撑系统,提供了面向表示层的开放集成框架,能很好的集成现有应用,消除信息孤岛,同时具有强大的用户个性化功能。门户开发人员在门
目前DeepWeb是数据库领域研究的热点,开放存取期刊OA(Open Access)作为DeepWeb资源,以其优秀的学术共享理念得以迅速发展。但是OA期刊遍布互联网,“孤岛”现状日益严重,而传
基因组测序技术的发展和质谱技术的进步,使得能够快速地产生大量的蛋白质序列数据,然而相比之下,经典的蛋白质结构测定方法速度却很慢。因此,为弥补测定蛋白质序列和蛋白质结构之
P2P(Peer—to—Peer,对等)文件共享系统从1999年正式出现以来一直在经历着飞速的发展,现在这些系统已经吸引了大量的Internet用户以及占据了大量的Internet流量。最近的测量结
基于生物特征识别的身份鉴别技术提供了一种高可靠性、高稳定性的身份鉴别方式。在各种生物特征识别技术中,人脸识别是一项极具发展潜力的生物特征识别技术,在信息安全、公共安
学位
随着过去几十年勘探技术的发展和油气田大规模的开采,一些较易发现、较简单的油气田已几乎开发殆尽。人们的目标开始转向复杂油气藏。由于复杂油气藏在地质形态上表现为倾角较
二进制翻译技术通过软件手段将一种指令集体系结构(ISA)上的可执行程序翻译到另一种ISA上执行。该项技术可以应用于代码移植、动态优化、错误监测、系统安全等多个领域。