论文部分内容阅读
随着信息技术和计算机网络技术的不断发展,XML(Extensible Markup Language,可扩展标记语言)元语言特性及结构化的特点使其成为了互联网异构环境中不同类型和不同领域数据交换的开放标准.XML文档通过定义标记描述文档的结构与意义,它处理的数据具有结构化特点,同时容易阅读和编写,因此成为交换语言的首选.XML文件具有强大的可延展性和自我描述性,为实现Web文件在网络间数据交换,处理和存储,信息搜索提供最方便的载体.Schema由于在2001年5月2号日发展为W3C推荐标准,也成为描述XML数据结构最通用的模式语言.但是,直接通过XML Schema维护交换数据标准确有自身的难以克服的缺点,如存在数据冗余,维护成本高以及无法对已有数据信息进行有效利用等.XML Schema更适合用来发布标准.该文介绍了数据元的概念,提出用数据元自底向上维护数据标准,对XML词汇集进行管理.针对中小规模注册机构的对数据交换标准描述的需求,设计了数据元的元数据属性及相关的方案.解决了交换数据标准的创建及维护,为基于数据元的信息抽取提供了完备的元数据集合.另外,该文还建立了数据元到XML Schema的映射模型,定义了它们之间的映射规则,完成了基于数据元的XML Schema辅助生成技术研究.结合数据元在专利申请中具体需求,介绍了需求驱动的信息抽取,即RTF模板和ACD模板的基于数据元的生成技术.给出基于数据元的RTF模板的生成方法,设计了模板格式描述语言MFDL(Model Format Description Language)语言.同时定义了数据元到XML文档和CAD模板的映射规则.设计了对数据元进行维护和信息抽取的原型系统的总体结构和功能结构.设计了各类信息抽取的详细算法.最后介绍了数据元及信息抽取算法的设计在专利申请项目中的应用.