大规模语义搜索与推理及其在生物医学文献上的应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:logan_lxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义技术的兴起,目前的互联网上产生了越来越多的语义数据。这些语义数据蕴含了大量的不同领域的知识,在互联网范围内相互关联,形成了一个规模巨大的人类知识库。在特定领域,一组具有高度关联性的语义数据集构成一个相对独立的领域知识库,领域知识库往往也具有极大的规模。在生物医学领域,长期的发展产生了大量科学文献,汇集了丰富的生物、医学和化学知识,相关语义数据集,构成了一个规模巨大的领域知识库。无论是领域特定的知识库,还是互联网范围的整个人类知识库,其规模都在不断增长。通过计算机智能应用,有效地利用语义技术带来的知识整合与关联,可以帮助人们快速地获取知识和解决问题。但随着知识规模的增长,规模本身成为了获取知识的障碍,这就需要探索和研究合适的解决方法,以适应大规模知识处理的需要。生物医学领域知识库除了具有一般大规模知识库的性质之外,还具有自己的特殊性质,因此不仅需要通用的大规模知识处理方法,也需要对这些特殊性质及其处理方法进行研究。  生物医学领域知识库由多个语义数据集组成,生物医学文献数据集是其中最大规模的一个,是本研究的主要数据来源之一。搜索和推理是获取知识的重要途径,也是使用计算机处理大规模语义数据时面临的主要问题。本课题基于生物医学文献数据集,对大规模语义数据及其搜索和推理方法进行了研究,主要研究内容包括:  1)研究语义网背景下的大规模知识库的特性,特别是生物医学领域知识库的特性。在语义网背景下,知识库是描述知识的语义数据集合。为了研究大规模语义数据的处理方法,需要先对大规模语义数据的特性进行研究和分析。特定到生物医学文献数据集,又有其领域独特性。为了研究知识库领域特性与大规模数据处理的关系,又需要对生物医学文献数据集的特殊性进行研究和分析。基于人类利用隐性知识解决问题的行为,研究如何利用知识库中蕴含的隐性知识解决大规模语义搜索和推理问题。  2)研究生物医学文献数据集的基于用户兴趣的个性化搜索的改进方法,以及与之相关的隐性知识。相关隐性知识包括医学用户的研究兴趣,以及构成用户兴趣的医学领域词汇的相似度。研究适合生物医学领域的用户兴趣提取和词汇相似度计算方法。研究规范化医学语义距离(Normalized MEDLINE distance,NMD)方法,并用于调整用户兴趣的排序,和对搜索结果进行相关度排序和数量调整,为用户返回更好的个性化的结果。  3)研究从查询过程的角度改进大规模医学文献数据的搜索和推理的方法,及其相关的隐性知识。这里的隐性知识是关于数据本身的知识,是由数据集分块引起的关于数据局部与整体的关系:通过对大规模语义数据的分块和总结,获取对数据局部、整体的概貌性认识,以及从整体到局部的指示性关联信息。在搜索时,这些知识成为启发式信息,被用于优化搜索路径,减小搜索空间,帮助定位搜索目标,实现结果质量和查询时间的折衷。结合多层次、多视角、不完备推理以及推理和选择交替的思想,优化大规模知识库的搜索过程。  4)研究大规模知识库中的隐性知识如何获取的问题。语义网数据中蕴含的隐性知识体现为隐式关系、隐式的节点、隐式关系实例,以及由这三者构成的隐式关系网络。本文中用于支持搜索和推理的隐性知识一般是隐式关系网络,其求解涉及大量的搜索和推理。本文选取了若干案例进行研究,分析了这类问题的特点。受到逻辑真值表示的启发,本文研究了通过把语义关系网络表示成真值矩阵,基于矩阵演算的隐式关系求解方法。  本课题主要采用了以下的研究方法:1)采用自顶向下的方式,针对待解决的问题,提出假设和研究解决方案,结合数据集进行实验验证;2)采用自底向上的方式,对研究中的系列工作进行归纳和总结,发现其中的共同点和抽象本质;  3)将所提出的方法实现为原型系统,并进行应用验证。  本文的主要创新点是:  1)提出了规范化医学语义相似度方法,并将其应用于基于用户兴趣的个性化医学文献搜索系统当中。这个方法主要从用户和词汇的角度改进查询,利用了知识库中关于用户兴趣和词汇相似度的隐性知识,起到了改进医学学者的兴趣计算结果和优化医学文献搜索结果的作用。  2)研究了语义数据的分块和总结技术,提出了基于知识总结的选择与推理方法。此方法从查询过程的角度改进查询,利用了知识库中关于数据局部与整体关系的隐性知识,结合不完备推理的思想,改进了大规模知识库上的搜索过程,使之具有可扩展性。  3)提出了基于矩阵的隐式关系发现方法。将大规模知识库中的隐式关系求解问题转换为矩阵操作,为一类问题建立了通用解决方案,提出了两个算法,分别适用于不同规模的隐式关系求解问题。这种方法不同于传统推理方法,利用了计算机擅长的计算能力,规避其不擅长的语义理解,因而在一类问题上具有较好的性能。本文对这类问题进行了描述、分析和界定。
其他文献
目前,我国正面临着严重的人口出生缺陷数量增大的问题,因此,国家计划生育委员会开发了免费孕前优生健康检查系统,2010年的12月份,该系统已经开发完毕,现已经在全国100多个试
随着集成电路制造工艺的特征尺寸不断缩小,芯片的性能以及复杂度也不断提高。鉴于当前集成电路制造工艺的迅速发展而导致的芯片复杂度越来越高的事实,如何做到对处理器芯片接
实践十号卫星是我国首颗空间微重力科学实验卫星,综合电控箱用于控制7台空间科学试验载荷(实验设备)的实验过程。空间科学实验对试验设备的要求很高,如果每一台设备都使用人
正电子发射断层扫描(Positron Emission Tomography,PET)是当前最高层次的核医学影像技术,借助扫描前注入活体内的放射性核素标记的示踪剂进行显像,能够在分子和细胞水平上反
现代社会生活中,视频信息逐渐成为人们传递信息的一种重要途径,可以足不出门便可观澜天下事成为现代生活的重要特征。视频信息作为一种重要的信息传递途径,以其直观性强等特点越
航天器电子设备是航天器的重要组成部分,其系统设计及设备制造需要耗费大量人力、物力成本,航天器电子设备具有伴随航天器发射后到被回收之前的不可维修性,使用地面测试系统
随着网络新闻的蓬勃发展与随之而来的信息爆炸,人们一方面可以轻易获取到广泛的资源,丰富自己的生活;另一方面,读者获得关键信息的时间成本也随之增加。如何从海量的网络新闻
所谓云服务,是指利用计算机硬件技术、软件技术、信息安全技术、网络技术、空间信息技术、通信技术、虚拟化技术、集群技术和存储技术以及并行计算等技术,将大量分布在网络中的
近年来,三维模拟技术已广泛应用于各个领域。本文主要研究基于场景的仿真应用。如场景的漫游,基于三维环境的工程仿真,自然现象的模拟,社会活动的模拟,灾害的仿真模拟(如水灾、火
近年来,随着计算机网络和信息技术的快速发展,网络安全也越来越成为人们关注的焦点。每年木马的数量都在迅速的增加,在各类非法程序中占据着最大的比重,而由木马程序所造成的