论文部分内容阅读
随着语义技术的兴起,目前的互联网上产生了越来越多的语义数据。这些语义数据蕴含了大量的不同领域的知识,在互联网范围内相互关联,形成了一个规模巨大的人类知识库。在特定领域,一组具有高度关联性的语义数据集构成一个相对独立的领域知识库,领域知识库往往也具有极大的规模。在生物医学领域,长期的发展产生了大量科学文献,汇集了丰富的生物、医学和化学知识,相关语义数据集,构成了一个规模巨大的领域知识库。无论是领域特定的知识库,还是互联网范围的整个人类知识库,其规模都在不断增长。通过计算机智能应用,有效地利用语义技术带来的知识整合与关联,可以帮助人们快速地获取知识和解决问题。但随着知识规模的增长,规模本身成为了获取知识的障碍,这就需要探索和研究合适的解决方法,以适应大规模知识处理的需要。生物医学领域知识库除了具有一般大规模知识库的性质之外,还具有自己的特殊性质,因此不仅需要通用的大规模知识处理方法,也需要对这些特殊性质及其处理方法进行研究。 生物医学领域知识库由多个语义数据集组成,生物医学文献数据集是其中最大规模的一个,是本研究的主要数据来源之一。搜索和推理是获取知识的重要途径,也是使用计算机处理大规模语义数据时面临的主要问题。本课题基于生物医学文献数据集,对大规模语义数据及其搜索和推理方法进行了研究,主要研究内容包括: 1)研究语义网背景下的大规模知识库的特性,特别是生物医学领域知识库的特性。在语义网背景下,知识库是描述知识的语义数据集合。为了研究大规模语义数据的处理方法,需要先对大规模语义数据的特性进行研究和分析。特定到生物医学文献数据集,又有其领域独特性。为了研究知识库领域特性与大规模数据处理的关系,又需要对生物医学文献数据集的特殊性进行研究和分析。基于人类利用隐性知识解决问题的行为,研究如何利用知识库中蕴含的隐性知识解决大规模语义搜索和推理问题。 2)研究生物医学文献数据集的基于用户兴趣的个性化搜索的改进方法,以及与之相关的隐性知识。相关隐性知识包括医学用户的研究兴趣,以及构成用户兴趣的医学领域词汇的相似度。研究适合生物医学领域的用户兴趣提取和词汇相似度计算方法。研究规范化医学语义距离(Normalized MEDLINE distance,NMD)方法,并用于调整用户兴趣的排序,和对搜索结果进行相关度排序和数量调整,为用户返回更好的个性化的结果。 3)研究从查询过程的角度改进大规模医学文献数据的搜索和推理的方法,及其相关的隐性知识。这里的隐性知识是关于数据本身的知识,是由数据集分块引起的关于数据局部与整体的关系:通过对大规模语义数据的分块和总结,获取对数据局部、整体的概貌性认识,以及从整体到局部的指示性关联信息。在搜索时,这些知识成为启发式信息,被用于优化搜索路径,减小搜索空间,帮助定位搜索目标,实现结果质量和查询时间的折衷。结合多层次、多视角、不完备推理以及推理和选择交替的思想,优化大规模知识库的搜索过程。 4)研究大规模知识库中的隐性知识如何获取的问题。语义网数据中蕴含的隐性知识体现为隐式关系、隐式的节点、隐式关系实例,以及由这三者构成的隐式关系网络。本文中用于支持搜索和推理的隐性知识一般是隐式关系网络,其求解涉及大量的搜索和推理。本文选取了若干案例进行研究,分析了这类问题的特点。受到逻辑真值表示的启发,本文研究了通过把语义关系网络表示成真值矩阵,基于矩阵演算的隐式关系求解方法。 本课题主要采用了以下的研究方法:1)采用自顶向下的方式,针对待解决的问题,提出假设和研究解决方案,结合数据集进行实验验证;2)采用自底向上的方式,对研究中的系列工作进行归纳和总结,发现其中的共同点和抽象本质; 3)将所提出的方法实现为原型系统,并进行应用验证。 本文的主要创新点是: 1)提出了规范化医学语义相似度方法,并将其应用于基于用户兴趣的个性化医学文献搜索系统当中。这个方法主要从用户和词汇的角度改进查询,利用了知识库中关于用户兴趣和词汇相似度的隐性知识,起到了改进医学学者的兴趣计算结果和优化医学文献搜索结果的作用。 2)研究了语义数据的分块和总结技术,提出了基于知识总结的选择与推理方法。此方法从查询过程的角度改进查询,利用了知识库中关于数据局部与整体关系的隐性知识,结合不完备推理的思想,改进了大规模知识库上的搜索过程,使之具有可扩展性。 3)提出了基于矩阵的隐式关系发现方法。将大规模知识库中的隐式关系求解问题转换为矩阵操作,为一类问题建立了通用解决方案,提出了两个算法,分别适用于不同规模的隐式关系求解问题。这种方法不同于传统推理方法,利用了计算机擅长的计算能力,规避其不擅长的语义理解,因而在一类问题上具有较好的性能。本文对这类问题进行了描述、分析和界定。