科技文献引文互联与分析系统原型的设计和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yuyuxinmi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展与web技术的日益成熟,大量科技文献、技术报告等文档资源摒弃了陈旧的纸笔和印刷体媒介,以数字化的形式出现在网络与数据库之中.如何合理有效地存储、组织、检索这些数字化文档资源,为用户提供更加方便、快捷并具有良好指导与启发意义的检索与评价服务,已经成为数据库、数字图书馆和信息检索等领域亟待解决的问题.科技文献的一个突出特点是引文信息.引文作为一种有效的检索手段与文档组织方式,本身包含了丰富的语义信息,是对相关引用文献精确而简练的概括性描述.利用引文信息进行文档存储、组织与检索并在此基础上进行的引文分析和数据挖掘工作已经成为数据库与信息系统领域的研究热点,为越来越多的科研工作者所重视和关注.该文在深入剖析现有引文互联与分析研究成果的基础上,以科技文献引文信息为主要研究对象,提出建立数字化文档共享平台的构想与策略,并实现了文档存储、检索、组织、评价的相关算法.该文采用自动化抽取元数据的方法将科技文献元数据信息作为引文互联的关键元素,利用关系数据库存储文献引用逻辑关系以实现引文互联.其中,启发式规则与正则匹配相结合的元数据自动抽取算法以及粗细两种粒度的元数据抽取策略保证了较高的信息抽取精确度,可供定制的抽取规则库也为信息抽取工作提供了必要的指导.在引文互联研究工作的基础上,该文利用HITS算法寻找科技文献集合内部具有重要地位和作用的Authority文档以及具有指导与启发意义的Hub文档,并完成特定检索结果的排级工作.在引文上下文的内容分析与知识发现方面,该文利用WordNet与领域知识库发掘读者感兴趣的信息,包含文章主旨、引用动机、领域分类、评价与预测等.系统原型结合文档元数据信息的主观描述与引文上下文内容描述的客观评价,自动形成文档的概要表述,为用户提供语义信息更丰富、更客观、更权威的文档指导,并对未来科研发展方向给出合理预测.文章亦给出了领域知识库的动态更新与索引建立与维护的有效算法,保证概念识别与知识发现的准确与高效.该文在实验过程中,注重将现有原型与当前流行的引文分析与数据挖掘系统进行比较,以期突出我们的工作重点与主要特色.该文在最后给出了进一步的研究设想与相关工作展望.该系统原型作为北京大学科技研究交互平台PKUSpace中信息抽取与检索、引文互联分析模块的一部分,为用户提供数字化科技文献存储、浏览、查询与评价预测服务.
其他文献
事务处理技术是保证信息可靠性和一致性的关键技术,事务监控器是提供这种技术的中间件产品,它是开发、部署、运行和监控基于三层结构的联机事务处理应用系统的基础平台,在构筑基
建立在互联网之上的Web服务结合了高效紧密的单层计算技术与面向消息的、松散耦合的Web技术,为电子商务的发展带来了新的契机.但是,由于互联网的开放自由带来的消息安全隐患,
随着通信技术、嵌入式计算技术和传感器技术的飞速发展,由具有感知能力、计算能力和通信能力的微型传感器构成的感知网(Sensor Networks)引起了人们的极大关注,并应用于国防
近几年来,随着大型企业对海量数据库性能的要求,并行数据库系统成为数据库领域的一个研究热点.国内外的学术界已经对并行数据库系统开展了许多研究工作,相关的理论日益成熟;
九十年代以来,伴随着信息化浪潮,数字图书馆迅速发展,成为人们研究的热点之一.与传统图书馆相比,数字图书馆有着很多明显的优势,它不受时空的限制,涵盖信息的容量大、品种多,
随着科学技术的发展,具有动态自组织,低功耗等特性的无线通信技术逐渐取代了有线通信技术,在生活生产中的应用范围越来越广泛。ZigBee协议是当前无线传感器网络普遍采用的通
本论文课题以“辽河流域水环境管理技术综合示范”项目为依托,报表服务是辽河流域水环境相关管理系统中核心业务需求之一。随着报表服务需求多样化的不断扩大,现有报表开发方
随着中国市场经济的深化,以及对外资银行经营的逐步放开,现在商业银行之间的竞争越来越激烈,如何为客户提供更多更好的服务,是摆在银行业务和技术人员面前的一道难题。江苏工行整
分布式计算是把一个需要进行大量计算的工程任务分割成许多小规模的任务模块,分配给网络中的多台计算机分别计算,由网络中的各个计算节点进行任务模块间的相互通信,协同完成
在教育信息化过程中,教育资源库建设得到越来越多的重视和投入.以多媒体素材库为基础的教育资源库是实现教育信息化的基础.基于教育资源媒体多样性和结构多样化,教育资源库实