基于Mesh词表和共词分析的疾病本体半自动构建方法研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:ssfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕分析了利用专业词表和共现分析方法相结合半自动构造领域本体构建的方法。利用专业词表抽取概念和等级关系,利用共现分析方法抽取非等级关系。
  〔关键词〕本体;半自动构建;Mesh;共现分析
  〔中图分类号〕G254.24 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0208-04
  
  本体是用来描述某个领域甚至更广范围内的概念以及概念之间的联系,使得这些概念和联系在共享的范围内有着明确惟一的定义,达成一种共识,这样人机就可以进行交流。N.Guarino提出将本体划分为顶级本体(top—level ontology)、领域本体(domain ontology)、任务本体(task ontology)和应用本体(application ontology)。
  
  1 领域本体概述
  
  1.1 领域本体的概念、特征及其发展态势
  领域本体是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及相互关系、领域话动以及该领域所具有的特性和规律的一种形式化描述。目前,领域本体模型的研究已经进入实际应用阶段,许多研究领域都建立了自己标准的本体[1]。领域本体的发展非常迅速,不仅得到了广泛的应用,在实际应用中也取得了积极的作用。国外文献中涉及的领域本体,包括化学领域、生物医学领域、地理学领域和其他领域。领域本体的应用展现出涉及学科领域广、更加专业化、针对性更强、涉及多个学科的领域本体增多等特点[2]。
  对数字图书馆而言,领域本体在数字图书馆对其知识进行语义层面的组织中扮演着至关重要的角色,领域本体的构建是语义网络环境下数字图书馆知识组织不可或缺的关键步骤。
  1.2 领域本体的构建
  目前本体构建主要有手工构建、复用已有本体以及自动构建本体3种方法。手工构建领域本体费时费力、花费巨大,且由于手工构建本体尚缺少一套工程化的科学管理流程作为支撑,使得本体的构建主观性太强,可行性和实用性都受到质疑。自动构建本体目前还处于研究阶段,利用机器学习会产生大量的噪音数据,缺乏必要的语义逻辑基础,抽取的概念关系松散且可信度无法得到很好的保障。尽管机器学习应用于本体自动构建有巨大的潜力,但是距离良好的可理解性尚有很大的距离。半自动构建本体是较为理想的模式,其关键技术在于领域概念的获取和领域概念之间关系的获取[3]。
  1.2.1 领域本体构建的主要方法
  目前主要的领域本体构建方法有TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEF5法和斯坦福大学医学院开发的七步法。TOVE法专用于构建TOVE本体,由多伦多大学企业集成实验室研制;METHONTOLOGY法专用于构建化学本体(有关化学元素周期表的本体);骨架法专门用来构建企业本体;KACTUS工程法的目的是要解决技术系统生命周期过程中的知识复用问题;SENSUS是开发用于自然语言处理的SENSUS语言本体的方法路线。IDEF5法开发用于描述和获取企业本体的方法;斯坦福大学医学院开发的七步法,主要用于领域本体的构建。目前大多数领域本体的构建都采用了七步法。
  1.2.2 领域本体构建的流程
  根据现有的本体构建方法进行总结,本体构建的一般流程如下:(1)明确研究对象和范畴;(2)对该领域的现有本体进行调查和研究,借鉴已有的研究成果;(3)提取核心概念;(4)对概念词进行分类和合并,定义类和类的语义关系,主要包括等级关系和非等级关系;(5)定义函数和公理;(6)创建实例;(7)构建知识库。
  1.3 领域本体构建的关键技术
  领域本体构建的关键技术包括领域概念的获取和领域概念之间关系的获取。领域本体领域概念获取主要有以下两个途径:①专业词典;②利用自然语言处理技术,直接从全文或者文摘、关键词字段中抽词。领域概念之间的关系主要分为等级关系和相关关系。等级关系获取的方法主要有:①专业词典;②聚类算法;③字面成族;④模式匹配。相关关系获取的主要算法有:①共现统计算法;②关联规则算法;③隐含语义索引;④Hopfield联想算法等[3]。
  
  2 疾病本体的构建
  
  生物学领域涉及比较广,与医学、化学等多个学科多有交叉,相关本体也多是与其他学科相结合,其应用也比较成熟、广泛。近年来在生物医学领域出现的领域本体有:(1)SGDS(Similar genes discovery system),相似基因发现系统;(2)GOHSE系统,是一个支持浏览生物资源的应用程序;(3)FMA(the Foundational Model of Anatomy)是一个生物医学信息学方面的参考本体。(4)OBO(Open Biomedical Ontologies),开放生物医学本体[3]。
  重大疾病通常具有以下2个基本特征:一是“病情严重”,会在较长一段时间内严重影响到患者及其家庭的正常工作与生活;二是“治疗花费巨大”,此类疾病需要进行较为复杂的药物或手术治疗,需要支付昂贵的医疗费用。卫生部2006年统计报告指出,重大疾病导致的全国人口死亡总数占死亡总数的90.4%。因此,探讨重大疾病本体构建的方法具有重大意义。
  2.1 疾病本体的顶层构建
  由于疾病具有相同的特征,如都可以从表型、病因学、治疗手段等角度进行描述。因此,对疾病的特征进行分析,探讨构建本体的方法是可行的。澳大利亚科庭大学Maja Hadzi等人对疾病本体展开了深入的研究,在第38届国际系统科学会议上,展示了在疾病本体研究领域的研究成果,构建了疾病本体的顶层框架,认为疾病本体可以从疾病类型、表型、病因学、治疗手段4个主要的维度进行描述(见图1)[4]。人类基因组计划后,人类对基因的认识突飞猛进,对现有生物医学相关数据库的调查发现,大部分数据库仅限于基因组学等分子生物学领域。从基因的角度认识基因与疾病的关系尤其具有重要的意义。
  
   2.2 疾病本体概念的获取
  由Medline数据库收录的生物医学文献,都由标引人员赋予了12个左右的MeSH主题词来表达该文献的主要内容。正是由于MeSH主题词的存在,才保证了PUBMED海量生物医学文献的有效检索。《医学主题词表》(Medical Subject Headings,简称MeSH),由美国国立医学图书馆(NLM)编辑出版。MeSH词表的以下特点,使MeSH词表满足为疾病本体构建提供概念的要求。
  (1)詞表主题词是在医学文献标引的基础上编制的,并尽可能吸收反映专业文献领域新出现的专业术语符合医学文献标引的需要。目前,MeSH已收入叙词24 767个,入口词97 000个[5]。
  (2)树形结构表划分级别深,列类详尽,远超过一般叙词表的范畴索引,有助于从分类的角度对叙词表进行查找和使用。
  (3)使用范围广:MeSH是国外生物医学领域使用最广泛的专业词表,NLM利用MeSH叙词表来标引MEDLINE数据库和pubMED数据库中的4 800种世界顶级生物医学期刊的文章。
  (4)更新速度快:MeSH词表1960年出版,从1962年起每年更新1次,网络版每周更新,使词表 能收录最新的词汇,避免了辞典通常不能及时收录新词的缺陷。
  2.3 等级关系的获取
  MeSH词表从学科分类角度组织叙词。树形结构表从学科分类的角度,按MeSH收录的主题词的学科属性分类编排而成,故又称范畴表。它通过展示主题词在学科体系中的逻辑关系,纵向反映主题词之间的概念等级关系。树形结构表将MeSH所有的主题词分为17大类(见表1)[6]。
  
  
  参考文献
  [1]王梅.owl领域本体构建方法研究[J].图书情报工作,2004,12(22):12-33.
  [2]余倩.近年来领域本体的应用新进展[J].图书馆建设,2008,(8):95-99.
  [3]何琳,杜慧平,侯汉清.领域本体的半自动构建方法研究[J].图书馆理论与实践,2007,(5):26-27,38.
  [4]Maja Hadzic,Elizabeth Chang.Ontology-based Support for Human Disease Study.Proceedings of the 38th Hawaii International Conference on System Sciences.2005,143a.
  [5]http:∥www.nlm.nih.gov/pubs/factsheets/mesh.html[EB].2008-09-06.
  [6]http:∥www.nlm.nih.gov/cgi/mesh/2008/MBcgi[EB].2008-09-07.
  [7]耿骞,耿崇.利用词语共现进行Ontology的概念获取[J].现代图书情报技术,2006,(2):43-49.
  [8]Ying Ding IR and AI:Using Co-occurrence Theory to Generate Lightweight Ontologies 12th International Workshop on Database and Expert Systems Applications.0961.
  [9]TakeshiMorita,Yoshihiro Shigeta,et al.DODDLE-OWL:On-the-fly Ontology Construction with Ontology Quality Management[EB].http:∥iswc2004.semanticweb.org/posters/PID-JURPMVUS-1090083983.pdf,2008-09-07.
  [10]张学福.基于词共现的可视化概念空间研究[J].情报学报,2008,(27):2,205-211.
  [11]王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006,(4).29-34.
其他文献
二笨,起床困难户,重度懒癌者。陌生人面前的话痨,熟人眼里的自闭症儿童。对于身高已绝望,一本正经地伪装未成年。梦想成为一个温柔的人,以及带着我爸我妈我家狗一起去洛阳……  某个寒冷的秋日,我裸露的额头在瑟瑟的秋风中突然感到一阵微妙的寒冷。  于是,我决定,把自己失去的刘海儿剪回来!  说做就做。当天晚饭后,我拉上两个室友直奔附近老街的理发店。我去剪刘海儿,她俩逛街,完美。  待我改头换面走出店门,发
体育课上,马虎的我发现自己的裤子穿反了!我环顾四周,心想:天助我也,没有人发现我裤子穿反。于是,我想趁着没人注意,溜进厕所悄悄地换裤子。  可我的脚居然不听使唤,咚咚咚跑了起来。跑就跑呗,竟跑到“喇叭王”小成的前面。我暗暗心想:完了,秘密要曝光了。果然,“火眼金睛”的小成立马用99999的分贝,让全班同学都知道了我的秘密。  同学们像围观小怪物一样把我团团围住,里三层,外三层,让我差点儿透不过气来
录取通知书今天刚刚拿到,回到家捧着书坐了片刻。接到了你的电话,电话那头依旧是嘈杂的人声,你喊着你的另一个朋友的名字,和我把话说完后立刻挂掉。  太久没接到你的电话,似乎从我们认识那年起,时至今日,岁月像长着大嘴,吞掉了很多很多东西。  譬如被微信替代的好几十分钟的通话,认认真真打下的字,保存的短信。  昨天我到你那里去,翻看小学时留下的照片,都感叹着当时脸庞青涩稚嫩。忘了自己依旧是一字打头的年纪。
外表粗犷的三掌门心里藏着一万首诗。虽然三掌门和著名江湖诗人贾斯丁师父仅仅共同生活了不到半年,但用他的话说,他还是未能幸免地沾染了贾师父的诗人气质,每逢被生活触及心灵就会诗兴大发,一发不可收拾。三掌门说他要慢慢地将心中的这一万首诗还给生活,还给这个处处充满了诗意和情意的蜀山。  现在,三掌门就正在酝酿着一首诗。我与小楼,小米与燕十七绝句般地站在后厨的锅灶前等待着三掌门的灵感,李大婶一边埋怨山下的袁大
下面的这些动物中,你最喜欢哪一个呢?  河马、鳄鱼、大象、狮子、猴子、长颈鹿、熊猫  结果分析:  喜欢河马的人,感情丰富细腻。易怒也爱笑,看上去有些慵懒。如果你不开心的话,甚至能使周围的人也跟着郁闷,具有十分强大的吸引力。你的缺点是考虑问题不够慎重,想说什么就说什么。  喜欢鳄鱼的人,能够很快地融入集体,适应体制。你是能够在学校或职场都得到认可的有能之士。你有着极强的忍耐力,并且很懂礼貌,但是偏
河北石家庄:建立健全机制 强化制度保障  近日,石家庄市直工委坚持以规范制度机制为抓手,制定《关于加强新时代机关党的工作的意见》(1 7专项文件),“1”是《关于加强新时代机关党的工作的意见》,“7”是贯彻落实《意见》的4个《实施办法》、2个《实施方案》和1個《实施意见》,重点解决了机关党组织隶属关系不规范、党费收缴不统一和机关专职党务干部配备不足以及机关党组织活动经费保障不到位等问题,进一步突出
心事便签:  我仍然记得,那天我们站在栏杆旁,有一群学生在操场上踢足球,他们奔跑着,汗珠凝结在头发上,有风猎猎,白衣飘飘。我对烟烟说,我的梦想啊,就是将来建一个四合院,你、我、易洺扬还有其他好哥们儿都住进来,吃大锅饭,打扑克牌。  每一场雨都标有云的下落,每颗流星都注有归处,我们一起见证彼此从青春到衰老的样子,相亲相爱,永不缺席。  当时烟烟双手撑着栏杆,望着远方,眼睛里有明明灭灭的泪光,她长吁一
摘要:对纤维素酶产生菌JW-11的培养条件进行优化研究,以期得到最佳培养条件,并在理论上丰富纤维素酶的研究材料,在实践中指导纤维素酶的生产应用。利用单因素法对培养方式、培养温度、培养时间、初始pH值、接种量和装液量进行研究,并通过DNS法测定不同溶液在540 nm处的吸光度,间接计算出酶活性。结果表明,纤维素酶产生菌JW-11最佳培养条件为30 ℃、初始pH值为7、装液量60%、接种量25%、14
一  千小千的课室长得像贫民窟,吵得像难民所。  忽地,全班安静下来,大家你看我我看你,再望了望后门——没有老师,突然又爆笑起来,继续肆无忌惮地说话。  千小千咬紧牙关思考着数学练习册拓展提升最后一道勾股题,无奈同学实在是太吵了。常言道,忍无可忍,无需再忍。作为班长的千小千拎着厚厚的练习册走到讲台上重重一拍,发出了千小千自己都忍受不了的响声,课室又瞬间安静下来,齐刷刷地看向千小千。千小千觉得自己此
记忆里有一个女孩儿,她一笑起来就会露出她俏皮的小虎牙;她个子不高,一梳起双马尾就俨然是个小萝莉;她活泼可爱,待人友善,她的眼睛很大,仿佛可以装得下整片星空。不过可惜又可悲的是,她永远地停留在了我的记忆里,从未踏出脑海一步。  [1]  我是阿宁,一个重文轻理,语文可以拿132分,数学只拿22分的严重偏科的高一16岁女生。  因为我烂鱼一般的数学成绩,母上大人多年的耐心终于在我高一那年的暑假爆发了,