基于文献的语义资源库构建及其应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:luzhengnan801106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文献中蕴含着极其丰富的信息与知识,随着科技社会的不断发展,各类文献资源迅速增长。面对这些海量文献信息资源,如何挖掘其中的知识,组织潜藏着的丰富的语义资源及语义关系,同时利用它们去提高现有的文本信息处理技术已经变得越来越重要了。  目前计算机需要依赖大量的一般意义或专门领域的知识来实现基于语义知识的智能化信息处理。而这些语义知识的获取最常见的是通过人工方法对语义知识进行总结,形成知识库。但是人工构建知识库投入量大,且无法跟上信息资源、新知识和新概念的增长速度。这就需要基于大规模真实文本语料的语义分析及语义知识获取来克服这些困难。本文以NSTL(国家科技图书文献中心,National Science and Technology Library)作为实验平台,研究目的在于利用现有的文献资源,通过一定的技术手段与组织方式获取其中的语义知识和语义关系,构建语义资源库,并将其应用于NSTL系统中,以提高其信息检索的服务质量。  本文首先回顾了知识库和信息检索方面的研究现状,然后从技术角度探讨了与本文研究相关的一些技术与方法,如汉语分词,知识库的结构与构建,概念匹配与相似度计算等。在汉语分词方面,本文利用信息熵来判断成词的条件,识别出文献中的复合词,从而改进现有的开源分词工具,提高分词的准确率。在知识库的构建方面,本文重点分析了目前比较经典的知识库结构,并结合应用的实际情况,挖掘文献中词汇的层次等级关系和共现相关关系,提出相应的语义资源库的结构模型。同时以近几年计算机类核心期刊中的文献为语料,实现语义资源库的构建。  最后本文将构建的语义资源库应用到NSTL系统中,实现相关检索结果的推荐,以方便用户对检索结果的浏览,并提高用户对检索结果的理解。同时通过实验,验证语义资源库的实用性与有效性。
其他文献
针对现有电子商务自动谈判系统存在的不足,将Agent技术应用到双边自动谈判,重点研究基于Agent的电子商务自动谈判模型、谈判策略和学习机制。提出改进的自动谈判模型、基于多
21世纪人类进入了知识经济时代,人们越来越认识到知识的重要性。对于一个组织来说,知识已经成为其最重要的生产资料,如何获取和让组织成员吸收更多的知识对组织的发展至关重要。
《苏门啸》是明末剧作家傅一臣所创作的杂剧剧本集,共收剧十二种,现存明崇祯壬午年(公元1642年)敲月斋刻本。傅一臣,字青眉,号无技,别署四泠野史,浙江杭县(今杭州)人。傅一臣创作《苏门
从期刊被引视角出发,选取影响因子、期刊h指数、特征因子、新期刊扩散因子进行评析。以国内图书情报学部分期刊为实证对象,对比这四种期刊评价指标的数值,并分析指标间的相关
随着互联网的迅速发展,网络资源的规模也急剧膨胀,传统搜索引擎的搜索效果和效率面临着严峻的考验,专注于特定主题和领域的垂直搜索引擎的出现提供了新的解决方案;档案网站作为
1.问题提出:rn每次从菜市场里买回蔬菜,家长总要反复洗涮浸泡,有时还要加点盐或果蔬清洗剂.这么新鲜翠绿的蔬菜为什么还需要反复清洗?家长说:"看着新鲜翠绿,其实已被污染了!
20世纪末以来,世界经济的发展越来越依赖于知识的生产、扩散和传递,以知识和信息为基础的创新开始成为获取竞争力的重要手段。建立基于知识交流的军民融合创新机制,对中国实现国
康斯坦茨大学是德国一所成立于20世纪60年代中期的年轻大学.在50多年的发展历程中形成了自己的鲜明特色,探索出了“康斯坦茨模式”,成为德国高校中的翘楚.该模式以创新文化为
自2005年默克尔执政以来,为追求科学与研究的卓越性,扩大德国在国际上的影响力,弘扬德意志文化,德国大力推进高等教育国际化进程.其高等教育国际化的发展路径,包括扩大学生与
一、厚积薄发,探求分数本质rn1.何谓分数.rn分数概念起源于“分”,在表达平均分结果的时候,遇到了分的结果比1还要小的情况,这只用自然数显然是不够的,于是引进了分数.这时候
期刊