论文部分内容阅读
在当今信息爆炸的时代,如何从海量学术文献中高效率地挖掘其中的知识,尤其是以传统文献阅读方式所不容易察觉到的隐含知识,对科学家斟酌和遴选有意义和有价值的科学问题具有重要意义。目前基于文献的知识发现主要有三个途径:一是基于非相关文献的知识发现,主要侧重于寻找科学家所不容易关注到的不同领域之间的潜在知识元关联;二是基于文献全集的文本挖掘,其专题层面的知识元关联挖掘主要侧重于宏观角度的主题关联态势分析;三是从专题文献集出发,通过映射出关联概念空间进行知识发现,该法实现了个例“知识”的发现,但解读映射图寻找间接关联比较困难。本文从科学家获取和利用信息的习惯出发,试图模拟科学家的阅读行为,用基于相关文献集的三元组闭合方法来挖掘知识元的潜在关联,从而实现“批量”发现可以为科学家遴选科学问题之用的富集信息(即潜在知识)。
本文主要研究工作有以下几个方面:
(一)方法论基础研究
在知识发现原有的理论基础之上,引入本体论与分析论哲学原理,为本文知识发现方法提供理论基点;深入剖析知识元关联产生的语篇共现机制,构建知识元关联网络理论:引入社会网络理论,辨析知识元关联网络与社会网络的可比拟性和相对特性:模拟社会网络,提出知识元关联网络的基本结构即知识元三元组,其中,“开放”三元组(即“∧”型三元组,三个知识元中有存在两个链接,缺少一个链接,呈开口状,因而命名为开放三元组,链接意指两个知识元同篇共现或直接共现)是知识元间接关联的基本形式,是知识发现的初始目标,是本研究挖掘文献集中潜在知识的起点,其“闭合”表示间接共现成为直接共现,意味着原来未链接的两个知识元确实隐含着“知识”(闭合三元组形如“△”,即三个知识元伞部两两链接),闭合的三元组集合可经筛选构成可供科学家遴选科学问题的富集信息集;探讨了知识元关联网络的映射与表达方法,尤其是矩阵表达法,该法是开放三元组挖掘的基础,同时还探讨了知识元关联统计测度的原理,为本文采用互信息实现知识元间接关联的量化判识提供依据。本研究的目的就是考察开放三元组初始集中那些发生闭合的、可供科学家遴选科学问题的、可谓之潜在知识富集信息集的三元组的关联强度特征,从而提出一套基于三元组闭合的知识发现方法。
(二)方法研究
系统设计基于三元组闭合的知识发现方法。由两个部分组成:知识元提取和基于三元组闭合的知识元间接关联挖掘。
知识元提取方法:根据引入的社会网络分析原理和关联强度测度原理,知识元的正交性是知识发现成功的前提和保障。本文采用领域本体实现正交知识元提取。通过考察试验,得出领域本体应用时控制参数设置的经验原则;进而通过自编程序进一步实施体现这些原则,实现正交知识元的有效提取,并尽可能减少人工干预。
知识元间接关联挖掘具体包括如下几个方面:领域文献集构建,即从领域文献集出发进行知识发现的合理性探讨;引入社会网络三方组思想,以知识元三元组和禁现三元关系假设为出发点、以知识元开放三元组作为潜在知识元关联初始集合,设计知识元间接关联挖掘的方法,以解析从开放三元组到闭合三元组的过程,其最终结果的表现形式就是潜在关联知识元成为在同一篇文献中报道的“知识”。知识元间接关联挖掘的方法的最终目标是找到全部闭合的三元组(初始集),从中提取最有价值最具潜在知识意义的开放三元组(富集信息集)作为科学家发现有价值科学问题的信息支持;为了论证知识元间接关联挖掘方法的可靠性和有效性,本文提出了基于文献的三元组闭合检验方法;“同时法”和“历时法”,并用历时法演绎三元组从开放到闭合的发展过程,跟踪检验开放三元组闭合率。历时法检验有三重作用,除检验方法有效性外,还检验知识发现结果有效性,同时也实现本文间接关联的定量判识研究。在跟踪三元组闭合过程中以互信息为知识元关联量度来考察闭合三元组的计量特征,从而实现潜在知识富集信息的挖掘。
通过对知识元间接关联挖掘方法的论证和实证,本研究得出以下结论:从领域文献集出发,有效提取文献集中知识元后,构建知识元全集关联矩阵,遍历挖掘其中的二阶共现形式的间接关联,得开放三元组初始集,同时测度开放三元组的两个“腰”(表征两个直接关联知识元对关联强度的互信息值)的大小,从中筛选出两腰近似相等且“腰”值在0与中位值(指0以上互信息值的中位值)之间的开放三元组即潜在知识富集信息集提供给科学家,从而辅助科学家发现科学问题,寻找研究机遇。
上述系列研究构成了帮助科学家识别相关文献集中仅通过逐篇阅读所不容易发现的潜在知识富集信息的知识发现方法。