基于三元组闭合的知识发现方法研究

来源 :中国科学院文献情报中心 | 被引量 : 0次 | 上传用户:seuarchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸的时代,如何从海量学术文献中高效率地挖掘其中的知识,尤其是以传统文献阅读方式所不容易察觉到的隐含知识,对科学家斟酌和遴选有意义和有价值的科学问题具有重要意义。目前基于文献的知识发现主要有三个途径:一是基于非相关文献的知识发现,主要侧重于寻找科学家所不容易关注到的不同领域之间的潜在知识元关联;二是基于文献全集的文本挖掘,其专题层面的知识元关联挖掘主要侧重于宏观角度的主题关联态势分析;三是从专题文献集出发,通过映射出关联概念空间进行知识发现,该法实现了个例“知识”的发现,但解读映射图寻找间接关联比较困难。本文从科学家获取和利用信息的习惯出发,试图模拟科学家的阅读行为,用基于相关文献集的三元组闭合方法来挖掘知识元的潜在关联,从而实现“批量”发现可以为科学家遴选科学问题之用的富集信息(即潜在知识)。   本文主要研究工作有以下几个方面:   (一)方法论基础研究   在知识发现原有的理论基础之上,引入本体论与分析论哲学原理,为本文知识发现方法提供理论基点;深入剖析知识元关联产生的语篇共现机制,构建知识元关联网络理论:引入社会网络理论,辨析知识元关联网络与社会网络的可比拟性和相对特性:模拟社会网络,提出知识元关联网络的基本结构即知识元三元组,其中,“开放”三元组(即“∧”型三元组,三个知识元中有存在两个链接,缺少一个链接,呈开口状,因而命名为开放三元组,链接意指两个知识元同篇共现或直接共现)是知识元间接关联的基本形式,是知识发现的初始目标,是本研究挖掘文献集中潜在知识的起点,其“闭合”表示间接共现成为直接共现,意味着原来未链接的两个知识元确实隐含着“知识”(闭合三元组形如“△”,即三个知识元伞部两两链接),闭合的三元组集合可经筛选构成可供科学家遴选科学问题的富集信息集;探讨了知识元关联网络的映射与表达方法,尤其是矩阵表达法,该法是开放三元组挖掘的基础,同时还探讨了知识元关联统计测度的原理,为本文采用互信息实现知识元间接关联的量化判识提供依据。本研究的目的就是考察开放三元组初始集中那些发生闭合的、可供科学家遴选科学问题的、可谓之潜在知识富集信息集的三元组的关联强度特征,从而提出一套基于三元组闭合的知识发现方法。   (二)方法研究   系统设计基于三元组闭合的知识发现方法。由两个部分组成:知识元提取和基于三元组闭合的知识元间接关联挖掘。   知识元提取方法:根据引入的社会网络分析原理和关联强度测度原理,知识元的正交性是知识发现成功的前提和保障。本文采用领域本体实现正交知识元提取。通过考察试验,得出领域本体应用时控制参数设置的经验原则;进而通过自编程序进一步实施体现这些原则,实现正交知识元的有效提取,并尽可能减少人工干预。   知识元间接关联挖掘具体包括如下几个方面:领域文献集构建,即从领域文献集出发进行知识发现的合理性探讨;引入社会网络三方组思想,以知识元三元组和禁现三元关系假设为出发点、以知识元开放三元组作为潜在知识元关联初始集合,设计知识元间接关联挖掘的方法,以解析从开放三元组到闭合三元组的过程,其最终结果的表现形式就是潜在关联知识元成为在同一篇文献中报道的“知识”。知识元间接关联挖掘的方法的最终目标是找到全部闭合的三元组(初始集),从中提取最有价值最具潜在知识意义的开放三元组(富集信息集)作为科学家发现有价值科学问题的信息支持;为了论证知识元间接关联挖掘方法的可靠性和有效性,本文提出了基于文献的三元组闭合检验方法;“同时法”和“历时法”,并用历时法演绎三元组从开放到闭合的发展过程,跟踪检验开放三元组闭合率。历时法检验有三重作用,除检验方法有效性外,还检验知识发现结果有效性,同时也实现本文间接关联的定量判识研究。在跟踪三元组闭合过程中以互信息为知识元关联量度来考察闭合三元组的计量特征,从而实现潜在知识富集信息的挖掘。   通过对知识元间接关联挖掘方法的论证和实证,本研究得出以下结论:从领域文献集出发,有效提取文献集中知识元后,构建知识元全集关联矩阵,遍历挖掘其中的二阶共现形式的间接关联,得开放三元组初始集,同时测度开放三元组的两个“腰”(表征两个直接关联知识元对关联强度的互信息值)的大小,从中筛选出两腰近似相等且“腰”值在0与中位值(指0以上互信息值的中位值)之间的开放三元组即潜在知识富集信息集提供给科学家,从而辅助科学家发现科学问题,寻找研究机遇。   上述系列研究构成了帮助科学家识别相关文献集中仅通过逐篇阅读所不容易发现的潜在知识富集信息的知识发现方法。  
其他文献
期刊
期刊
学科战略规划是科技政策的重要组成部分,是科技情报工作的重要内容.在循证决策方法逐渐引起科技决策重视的背景下,将循证决策领域中证据的概念引入到学科战略规划制定流程,从
基于对生成性思维、生物化学变构酶调节机理和变构学习模型的认识,创建情报生成理论:提出并诠释情报生成概念;探讨情报生成的解读系统结构及其转化的变构调节机理、协同模型
在h指数和帕累托效应的启发下,发现一种基于引文数据而评价科研人员及学术期刊的排序方法——ET指数。通过CSSCI引文数据库实际数据测算,利用该方法得到的评价结果与CSSCI原
以国家综合配套改革试验区城市(群)为研究对象,选用修正的广义柯布-道格拉斯生产函数建立回归模型,探讨知识产权在影响区域经济发展的生产要素中的配置与贡献率,结果表明知识
随着互联网信息资源的爆炸式增长,网络信息资源管理面临着众多困境,但不同组织对此提出的多种解决方案在某些方面都存在着缺陷。进入新世纪后,一种全新的互联网范式-web2.0逐渐
学位
从信息的相对性属性和信息分化的社会现象出发,将信息分为强信息(SI)和弱信息(WI).指出在科学研究中,除对主流的强信息进行有效提取外,同样不能忽略弱信息的大量存在.从弱信
基于用户为中心原则,构建查新站质量评价的指标体系,将直觉模糊集理论引入查新站质量评价领域,提出基于自适应神经直觉模糊推理系统的查新站评价方法.首先,采用减法聚类确定
团队教学法是由2名及2名以上教学人员参与、强调施教者和受教者之间的互动、同时强调教与学的共同作用的一种教学方式。昆士兰理工大学(QUT)图书情报学研究生课程(GDLIS)采用