论文部分内容阅读
摘要:借鉴国内外主要文化艺术产业元数据标准,构建河北省文化艺术产业大数据平台的元数据标准框架体系。在元数据体系结构设计上,突出对文化艺术产业中的企业、演出机构、政府资助项目、产业园区(示范基地)等重要对象的信息管理,便于艺术行政主管部门准确掌握并管理河北省文化艺术资源开发利用、项目进展、企业主体等重要信息。该元数据标准框架可为当前文化艺术类大数据平台建设和研究提供参考借鉴,以满足政府部门对于文化艺术大数据的数字化管理需求。
关键词:大数据;文化艺术;元数据
中图分类号:G253 文献标识码:A 文章编号:1673-1573(2020)03-0025-06
一、国外数字文化资源元数据研究概况
(一)元数据的定义
元数据通常被解释为“关于数据的数据”,Jeffrey Pomerantz(2015)认为该定义缺乏准确性,有些模糊,[1]而Joudrey等认为这种观点将信息资源视为一种数据形式[2]226。目前,关于元数据还没有统一的定义,但国内外一些具有代表性的定义仍值得参考,如:Greenberg(2003)将元数据定义为“关于支持指定对象相关的功能的对象的结构化数据” [3]5;Caplan则将元数据定义为“用来表示关于任何媒体类型或格式的信息资源的结构化信息”。Lorcan Dempsey将元数据视为一种可以从用户中删除的数据,他们在潜在利益的环境中需要对事物的存在或特征有充分的了解;Muriel·Foulonneau和Jenn·Riley则认为元数据是关于数字资源及其属性的结构化信息[4];Jeffrey Pomeratz将元数据定义为“对某个潜在性信息对象做出的陈述。”[5] 肖珑等(2001)认为元数据是“描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。”[6]
由此可以看出,元数据的基本作用就是通过一套信息结构来描述一个具体的信息对象,但正如Taylor所说“重要的是要记住,元数据一词对于不同的团体可能意味着不同的东西。”[2]227因此,河北文化艺术产业大数据平台(以下简称“平台”)元数据的设计首先要从平台的信息对象着手,并适用于河北省本地文化艺术管理机构,这就需要对信息对象的类型、主题加以区分。
按照Anne J.Gilliland的分析,所有信息对象都可以而且应该通过元数据反映其内容、上下文和结构三个特征。因此,笔者在设计河北文化艺术大数据平台元数据框架时,采用了Anne J.Gilliland关于信息对象三个特征的论述[7]:(1)内容指信息对象包括对象本身的内容,以及与对象相关的内容。(2)上下文指与信息对象创建过程中的人、内容、原因、地点、创建方式,而非信息对象本身。(3)结构指的是单个信息对象内部或信息对象之间的正式联系的集合。
(二)元数据的种类和作用
Mutha·Baca(2008)将元数据分为管理型、描述型、保存型、技术型、使用型,并提出其属性包括:元数据来源、创建方法、性质、状态、结构、语义、级别,其产生方式包括创建者设计、数字化加工系统生成以及计算机自动生成。[7]15-17根据不同的使用目的或元数据功能,其种类也有多种划分,如专家与非专家元数据、静态与动态元数据、长期与短期元数据、结构化与非结构化元数据、集合型元数据、项目型元数据等。2010年,图书馆员Jenn Riley发表了一份元数据标准的世界地图。该地图包含超过100种元数据标准,涵盖图书馆、档案馆、博物馆、信息产业、文化对象、音乐、地理信息、视觉资源等多个领域,功能涵盖管理型元数据、技术性元数据、结构性元数据、版权型元数据、内容标准、可控词表、标记语言等。[8] 此外,根据元数据的层次关系又可分为全局型元数据、通用型元数据、本地元数据等[3]20-21。可见,元数据的种类和划分具有多样性、多用途的特点,根据用户使用环境的不同,采取的策略和方法也不同,笔者制定或设计元数据的关键之处就在于通过元数据设计或创建,实现其对信息对象的组织管理、重复利用、检索利用、重新情景化等。
二、国内外主要文化艺术产业元数据标准
(一)国外主要文化艺术产业元数据标准
为定义的目的开发的一组元数据元素通常称为元数据格式或元数据结构标准。国外在文化艺术资源领域的元数据标准起步早,发展比较成熟,有些已成功应用在多个工程项目,其中较有代表性的包括:VRA core4.0,由美国视觉资源协会制定,包括19个核心元素等资源;CDWA由盖蒂艺术研究所制定,包括32个核心元素;由Dublin Core美国OCLC发起制定,包括15个核心元素。关于以上三种元数据,冯项云等(2001)曾作过详细的对比介绍[9],本文不再赘述。
近年来,随着数字文化资源、数字遗产合作共建,出现了一些跨国、跨地区、跨行业的新的合作,其中较有代表性的项目及其元数据包括:欧洲数字遗产合作项目Europeana及其元数据EDM(Europena Data Model)(当前最新版本为5.2.8),其元数据适用于文学、历史、艺术、电影和音乐等多种资源,元数据结构包括:类、属性、定义。其中类包括:代理者、集合、对象、事件、信息資源、非信息资源、实物、地点、被提供的文化遗产对象、时间范围、网页资源;属性包括:集合的文化遗产对象、开始时间、集合名称、国家、当前地点、数据集名称、数据提供者、结束日期、中间提供者、代理、事件发生地点、“遇到”、资源类型、视图、合并、注释、派生、顺序、相关、代表、展示地点、展示者、相似、继承者、登录页面、语言、对象、事件发生时间、预览、提供者、认识、版权说明、资源类型、用户生成内容、未储存的、统一资源定位器、用户标签、存在于、年代。[10] 美国数字公共图书馆项目DPLA,其核心类包括:(1)(源资源)替代标题、集合、贡献者、创建者、日期、描述、范围、格式、识别符、语言、地点、发行者、关系、替代品、代替、版权所有者、主题、子类型、时间范围、标题、类型;(2)网络资源,包括文件格式、版权声明、IIIF清单、IIIF基本URL;(3)集合,包括聚合的源资源、数据提供者、数字资源原始记录、观点、中间提供者、显示、对象、预览、提供者、版权说明;(4)版权说明,包括版权说明、定义、注释。同时,DPLA元数据实现了与EDM之间的互操作。[11]
关键词:大数据;文化艺术;元数据
中图分类号:G253 文献标识码:A 文章编号:1673-1573(2020)03-0025-06
一、国外数字文化资源元数据研究概况
(一)元数据的定义
元数据通常被解释为“关于数据的数据”,Jeffrey Pomerantz(2015)认为该定义缺乏准确性,有些模糊,[1]而Joudrey等认为这种观点将信息资源视为一种数据形式[2]226。目前,关于元数据还没有统一的定义,但国内外一些具有代表性的定义仍值得参考,如:Greenberg(2003)将元数据定义为“关于支持指定对象相关的功能的对象的结构化数据” [3]5;Caplan则将元数据定义为“用来表示关于任何媒体类型或格式的信息资源的结构化信息”。Lorcan Dempsey将元数据视为一种可以从用户中删除的数据,他们在潜在利益的环境中需要对事物的存在或特征有充分的了解;Muriel·Foulonneau和Jenn·Riley则认为元数据是关于数字资源及其属性的结构化信息[4];Jeffrey Pomeratz将元数据定义为“对某个潜在性信息对象做出的陈述。”[5] 肖珑等(2001)认为元数据是“描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。”[6]
由此可以看出,元数据的基本作用就是通过一套信息结构来描述一个具体的信息对象,但正如Taylor所说“重要的是要记住,元数据一词对于不同的团体可能意味着不同的东西。”[2]227因此,河北文化艺术产业大数据平台(以下简称“平台”)元数据的设计首先要从平台的信息对象着手,并适用于河北省本地文化艺术管理机构,这就需要对信息对象的类型、主题加以区分。
按照Anne J.Gilliland的分析,所有信息对象都可以而且应该通过元数据反映其内容、上下文和结构三个特征。因此,笔者在设计河北文化艺术大数据平台元数据框架时,采用了Anne J.Gilliland关于信息对象三个特征的论述[7]:(1)内容指信息对象包括对象本身的内容,以及与对象相关的内容。(2)上下文指与信息对象创建过程中的人、内容、原因、地点、创建方式,而非信息对象本身。(3)结构指的是单个信息对象内部或信息对象之间的正式联系的集合。
(二)元数据的种类和作用
Mutha·Baca(2008)将元数据分为管理型、描述型、保存型、技术型、使用型,并提出其属性包括:元数据来源、创建方法、性质、状态、结构、语义、级别,其产生方式包括创建者设计、数字化加工系统生成以及计算机自动生成。[7]15-17根据不同的使用目的或元数据功能,其种类也有多种划分,如专家与非专家元数据、静态与动态元数据、长期与短期元数据、结构化与非结构化元数据、集合型元数据、项目型元数据等。2010年,图书馆员Jenn Riley发表了一份元数据标准的世界地图。该地图包含超过100种元数据标准,涵盖图书馆、档案馆、博物馆、信息产业、文化对象、音乐、地理信息、视觉资源等多个领域,功能涵盖管理型元数据、技术性元数据、结构性元数据、版权型元数据、内容标准、可控词表、标记语言等。[8] 此外,根据元数据的层次关系又可分为全局型元数据、通用型元数据、本地元数据等[3]20-21。可见,元数据的种类和划分具有多样性、多用途的特点,根据用户使用环境的不同,采取的策略和方法也不同,笔者制定或设计元数据的关键之处就在于通过元数据设计或创建,实现其对信息对象的组织管理、重复利用、检索利用、重新情景化等。
二、国内外主要文化艺术产业元数据标准
(一)国外主要文化艺术产业元数据标准
为定义的目的开发的一组元数据元素通常称为元数据格式或元数据结构标准。国外在文化艺术资源领域的元数据标准起步早,发展比较成熟,有些已成功应用在多个工程项目,其中较有代表性的包括:VRA core4.0,由美国视觉资源协会制定,包括19个核心元素等资源;CDWA由盖蒂艺术研究所制定,包括32个核心元素;由Dublin Core美国OCLC发起制定,包括15个核心元素。关于以上三种元数据,冯项云等(2001)曾作过详细的对比介绍[9],本文不再赘述。
近年来,随着数字文化资源、数字遗产合作共建,出现了一些跨国、跨地区、跨行业的新的合作,其中较有代表性的项目及其元数据包括:欧洲数字遗产合作项目Europeana及其元数据EDM(Europena Data Model)(当前最新版本为5.2.8),其元数据适用于文学、历史、艺术、电影和音乐等多种资源,元数据结构包括:类、属性、定义。其中类包括:代理者、集合、对象、事件、信息資源、非信息资源、实物、地点、被提供的文化遗产对象、时间范围、网页资源;属性包括:集合的文化遗产对象、开始时间、集合名称、国家、当前地点、数据集名称、数据提供者、结束日期、中间提供者、代理、事件发生地点、“遇到”、资源类型、视图、合并、注释、派生、顺序、相关、代表、展示地点、展示者、相似、继承者、登录页面、语言、对象、事件发生时间、预览、提供者、认识、版权说明、资源类型、用户生成内容、未储存的、统一资源定位器、用户标签、存在于、年代。[10] 美国数字公共图书馆项目DPLA,其核心类包括:(1)(源资源)替代标题、集合、贡献者、创建者、日期、描述、范围、格式、识别符、语言、地点、发行者、关系、替代品、代替、版权所有者、主题、子类型、时间范围、标题、类型;(2)网络资源,包括文件格式、版权声明、IIIF清单、IIIF基本URL;(3)集合,包括聚合的源资源、数据提供者、数字资源原始记录、观点、中间提供者、显示、对象、预览、提供者、版权说明;(4)版权说明,包括版权说明、定义、注释。同时,DPLA元数据实现了与EDM之间的互操作。[11]