论文部分内容阅读
网络数据库是文献检索的重要工具,也是学术信息的主要来源。传统的网络数据库提供的服务,一般仅仅局限于基本的文献检索,用户需要面对一堆无序的、未经整合的文摘信息。
随着科技文献的日益增加,科技工作者不可能有足够的时间和精力来阅读了解其所在学科领域一年之中产生的有关信息与文献资料。传统的文献检索服务已无法满足用户快速方便获取信息的需求,一些数据库服务商已开始提对数据进行更深层级的加工,以提供用户更多的服务功能,例如scopus的学术评价功能。
传统数据库的检索结果中,一般只包含作者、机构的名称,而未对应到具体的实体。这样的检索结果不仅很不利于用户的浏览,此外,用户需要经过人工的筛选统计,才能得出一个作者或机构的统计信息。
如果数据库的服务商对原始的文摘数据进行再加工,并从中提取出机构实体与作者实体,就可以在实体数据的基础上,开发出更加丰富的功能,提供更多的增值服务,以适应不同层次用户的需求。同时,用户获取信息的成本也可以得到减少。
本文在实体识别的理论基础上,结合实际的数据,提出一种有效的实体识别的方法。本文提出的方法,首先在原始的文摘记录的基础上对机构名称进行了预处理,构建机构的规范表,通过机构名称与规范名称的匹配,从而实现了机构实体的提取。然后在机构实体识别的基础上,根据作者姓名与所属机构两个属性,抽取了作者实体。依照作者间的合作发文关系,来进行作者重名的甄别,进一步提高了识别的准确率。