基于自然语言处理技术的领域本体学习研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:serene_he
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网概念在本世纪初的提出和广泛接受,作为其基础的领域本体成了计算机界的研究热点。手工构建领域本体耗时费力,寻找有效的半自动化构建方法,是语义网发展的一个瓶颈问题。通过机器学习的方式让计算机参与到本体构建过程中的领域本体学习是本体普遍建立的必由之路。   本文从学习目标、学习框架和学习实践三个方面对领域本体学习展开研究:   (1)要进行本体学习,首要的步骤就是明确学习的目标。领域本体的学习目标即构成本体的四大要素:概念、关系、公理和实例。其中实例在之前的本体学习研究中往往被忽略,本文从领域本体的哲学解释角度出发,认为实例是本体诸要素中第一位的东西,在本体学习中占基础性地位。   (2)领域本体的建设需要工程化,各种本体学习方法应该集成到一个规范框架之下。本文按照本体工程的要求,提出了一套基于自然语言处理技术的领域本体学习框架。此框架主要面向中文环境下的纯文本学习,综合了中文信息处理技术中的分词、词性标注、命名实体识别、句法分析和语义标注等多项技术,并通过模式匹配的迭代方法抽取文本中的本体要素,同时丰富和完善领域语料库的标注信息。将本体语义加入到语义标注集中实现中心词模式聚类是迭代方法的核心。最终的领域本体通过Protégé工具形式化为OWL语言表示的文档。   (3)本文的本体学习实践选择的是《资治通鉴》历史领域,具体实现其先秦部分--先秦史本体。按照之前提出的学习框架,在手工构建原型的基础上进行迭代学习,最终经过确认得到62个概念,54个对象属性,22个数据类型属性,1793个实例。通过可视化和SPARQL查询两方面的应用评价,先秦史本体显示出了令人满意的质量。另外,在迭代过程中,我们同时也建立了一个具有深层语义标注的先秦史领域语料库和大量的历史领域概念模式,这对于《资治通鉴》历史领域本体工程的后续工作仍具有积极的参考价值。
其他文献
由于各种原因,大多数成像过程中都存在或轻或重的散焦模糊退化,散焦模糊普遍存在于卫星遥感图像、航天、道路交通等重大科研和研究领域中。因此,研究散焦模糊图像的复原,消除模糊
近年来,国家大力倡导电子政务建设,电子公文作为电子政务建设中关键的一环,其应用有着广阔的市场前景和巨大的发展潜力。随着“无纸化办公”的逐步推进,办文人员对前端排版制作系
由于互联网上的信息量呈几何级数增长,用户对于网络信息的应用需求也不断提高,传统的搜索引擎也不能保证综合风险信息的全面性和精准性。因此,必须构建综合风险的信息检索平台,利
随着网络的普及,各种宽带网络应用层出不穷,组播技术得到迅速的发展。相对于单播和广播,组播具有节省带宽、减少拥塞,减轻网络负载等特点。然而,目前的组播协议缺乏安全机制来满足
随着信息技术的发展,银行的业务得到了迅速发展。越来越多的业务电子化,自动化,自助化;银行卡发卡量、交易量大幅激增,ATM设备、中间业务机等电子设备的数量也随之大幅增加。业务
Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎随之成为人们最普遍使用的信息检索的工具。但目前
软件测试工作在软件开发的整个过程中占有极其重要的位置。为了克服手工测试的一些困难,提高软件质量和测试效率,测试过程的自动化被广泛地引入进来。它以其自动化程度高、实用
基于多源(可见光、合成孔径雷达)遥感影像特征级融合的舰船目标分类研究,充分利用可见光传感器和合成孔径雷达(SAR,Synthetic Aperture Radar)传感器的信息互补性,实现船舶目标的
计算机二维动画是计算机图形学跟艺术、数学、物理学和其它相关学科交叉形成的综合课题,主要探讨如何利用计算机技术辅助生成自然连续的动画序列。二维动画力求用二维信息来表
随着互联网的迅速普及和计算机软、硬件功能的日益强大,人们对计算应用的需求开始朝着高性能、多样化发展,网格计算的概念也随之应运而生。网格是一个集成的计算与资源环境,