论文部分内容阅读
本文主要包括以下四个部分:
首先,本论文的第1~2章主要是介绍图书馆关联数据的研究背景,明确论文的研究目的和意义,阐述研究思路和方法;调研图书馆关联数据的国内外发展现状,确定论文所要研究的目标软件、特定数据类型以及预期研究目标;对文中所涉及到的概念和相关理论知识——包括MARC、关联数据、FRBR、RDA等——进行梳理。通过对瑞典、德国、美国等图书馆关联数据发展相对成熟的图情机构进行系统调研、流程梳理和工具试用,总结现有图书馆关联数据发展过程中存在的问题。
第二,本论文的第3章主要是详细介绍待优化系统平台eXtensible Catalog,包括软件框架、现有功能、优势劣势等。该软件由Drupal Toolkit、Metadata services Toolkit(MST)、OAI Toolkit和NCIP Toolkit四个工具包组成。笔者将主要针对MST进行优化扩展。现有MST仅支持西文编码的MARC和DC元数据,笔者希望在现有功能的基础上通过编写算法,使其能够支持中文MARC元数据,加快我国图书馆关联数据发展的步伐。
第三,本论文的主体部分是第4~6章。这三章分别讲述了笔者对eXtensible Catalog进行优化扩展的详细步骤。本文在现有MST的基础上扩展了三个功能:CNMARC的XML化(第4章)、CNMARC书目数据的预处理与转换(第5章)、CNMARC书目数据的关联数据发布(第6章)。CNMARC的XML化主要是通过编写算法实现ISO2709格式的MARC数据与MARCXML和marcXchange的转化。CNMARC书目数据的预处理包括删除原始CNMARC记录中可能出现的错误字段信息;将数据字段中的代码替换为词表术语,并将这些字段解析到9XX字段供用户访问;以及合并字段中的相似信息等。CNMARC的转换操作则是从MARC书目数据中选择有代表性的字段,并将这些字段和子字段与FRBR不同实体对应的XC Schema属性映射。CNMARC记录的关联化发布包括MARC关键字段的选择与抽取、MARC字段与XC Schema的关系映射、D2R系统配置、个性化Mapping文件生成以及外联关联数据集的分析比较等步骤。
最后,本论文的第7章是结语部分。在这部分笔者总结了本文的主要研究内容和不足之处,并对图书馆关联数据未来的发展前景和研究工作进行了展望。
论文正文约5.2万字,包括图30幅,表16个。