论文部分内容阅读
近年来随着语义网技术研究的深入,网络上发布的关联数据数量基本呈指数级增长。与此同时,各种基于关联数据的应用也陆续的被开发出来,如关联数据搜索引擎、关联数据浏览器以及关联数据整合平台等。在对关联数据展开应用的同时,数据消费者发现由于缺乏统一的标准,网络中已发布的关联数据资源存在严重的质量问题,这很大程度上影响了关联数据的开发应用。 关联数据质量评估主要包括评估标准、评估方法以及评估工具几个主要问题。文章论述了关联数据质量评估方法、评估标准、评估工具以及这些评估工具的主要功能、针对的质量维度、应用许可信息、评估流程等方面的内容。高效的关联数据质量管理对关联数据可持续发展、乃至构建语义网都有着很重要的促进作用。 为了更好地了解关联书目数据的具体情况以及现有主要质量评估框架的可用性,文章选取了5个国家级的关联书目数据进行质量评估。分析和评估国家图书馆发布的关联数据集,可以了解典型国家级资源的数据质量状况,同时评估结果对其他图书馆的数据发布和应用集成具有借鉴和示范作用。文章主要参照莱比锡质量评估指标体系对关联书目数据进行评估,通过人工调研和自动统计、分析方法对关联数据集的RDF词汇、URI有效性等指标进行统计和分析。5个国家图书馆发布的图书关联数据集在RDF词汇、著录项描述、信息关联等三方面显示出了较为明显的一致性。在语法检测及URI的有效性检测等方面显示出了国家图书馆数据的高质量。 在以上文献调研和数据调研的基础上,文章构建了关联书目数据质量评估框架,该框架同样也包括质量评估方法、评估标准、评估工具3个主要方面。该指标体系共计13个维度、36项评估指标,同时整个评估系统划分为数据层、方法层、评估层和信息层四层框架结构。最后构建并完成了关联书目数据质量评估的原型系统,并在最后选取了葡萄牙国家数据对系统进行了试验性验证且试验效果良好。