中文网络数据库中机构实体与作者实体的识别

来源 :南京大学 | 被引量 : 0次 | 上传用户:sufe_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据库是文献检索的重要工具,也是学术信息的主要来源。传统的网络数据库提供的服务,一般仅仅局限于基本的文献检索,用户需要面对一堆无序的、未经整合的文摘信息。   随着科技文献的日益增加,科技工作者不可能有足够的时间和精力来阅读了解其所在学科领域一年之中产生的有关信息与文献资料。传统的文献检索服务已无法满足用户快速方便获取信息的需求,一些数据库服务商已开始提对数据进行更深层级的加工,以提供用户更多的服务功能,例如scopus的学术评价功能。   传统数据库的检索结果中,一般只包含作者、机构的名称,而未对应到具体的实体。这样的检索结果不仅很不利于用户的浏览,此外,用户需要经过人工的筛选统计,才能得出一个作者或机构的统计信息。   如果数据库的服务商对原始的文摘数据进行再加工,并从中提取出机构实体与作者实体,就可以在实体数据的基础上,开发出更加丰富的功能,提供更多的增值服务,以适应不同层次用户的需求。同时,用户获取信息的成本也可以得到减少。   本文在实体识别的理论基础上,结合实际的数据,提出一种有效的实体识别的方法。本文提出的方法,首先在原始的文摘记录的基础上对机构名称进行了预处理,构建机构的规范表,通过机构名称与规范名称的匹配,从而实现了机构实体的提取。然后在机构实体识别的基础上,根据作者姓名与所属机构两个属性,抽取了作者实体。依照作者间的合作发文关系,来进行作者重名的甄别,进一步提高了识别的准确率。  
其他文献
目前,各种形式的户外登山运动风靡全球,部分高校大学生对户外登山运动表现出较高的积极性.本文以成都市高校的大学生为调查对象,采用文献资料法、问卷调查法、逻辑分析法、数
由于互联网信息资源的海量增长,人们用于浏览网页以及查找信息的时间也越来越多。一方面,面对网络空间中浩如烟海的各种资源,人们往往容易迷失方向,花费了大量的时间却找不到自己
本文采用文献资料法、问卷调查法、逻辑分析法、数理统计法等,并且对学校的学生进行问卷调查和对体育教师进行询问,总结出开县中学现阶段大课间体育活动的开展现状,分析出存
篮球运动是一项受广大中学生及其各种年龄阶段人所喜爱的运动,它以自己特有的魅力吸引了成千上万的人们去积极参与.篮球运动由美国的詹姆斯奈史密斯发明创造,自这项运动诞生
Background:Soccer injuries constitute an important public health problem and cause a high economic burden. Nevertheless, comprehensive data regarding injury cos
目前的图书馆学不再是一个单一的学科,它已经发展成为包含众多分支学科的学科组群,只有正确认识图书馆学学科体系的构造和发展趋势才能把握整个图书馆学的发展方向。因此,关于图
传统武术是中华民族文化中的重要组成部分,其中融合了中国古代哲学、古典美学、传统理论学和医学等多种文化知识,具有悠久的文化价值.高校武术文化传播工作的水平和武术事业
本文主要是采用调查分析法就我校公体课学生对维吾尔族赛乃姆舞蹈的认知情况进行研究.结果显示:学生对赛乃姆舞蹈的认知度不高,局限于对民族舞蹈的普遍认识,对赛乃姆舞蹈的动
中图分类号:G852.9 文献标识:A 文章编号:1009-9328(2017)01-021-02  摘 要 采用文獻资料法、田野调查法等研究方法对赣南客家灯彩民俗体育项目进行调查分析。研究发现:赣南客家灯彩民俗体育内容丰富、形式多样、广泛分布在赣南十八个县市(区)中。具有灯具美、音乐美、服饰美、队形美等赣南客家燈彩民俗体育表演特点;具有增强体质、愉悦身心、提升审美、保护赣南客家灯彩文化等发展价值
学位