数据元元数据设计与基于数据元的信息抽取技术研究

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:a8058058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和计算机网络技术的不断发展,XML(Extensible Markup Language,可扩展标记语言)元语言特性及结构化的特点使其成为了互联网异构环境中不同类型和不同领域数据交换的开放标准.XML文档通过定义标记描述文档的结构与意义,它处理的数据具有结构化特点,同时容易阅读和编写,因此成为交换语言的首选.XML文件具有强大的可延展性和自我描述性,为实现Web文件在网络间数据交换,处理和存储,信息搜索提供最方便的载体.Schema由于在2001年5月2号日发展为W3C推荐标准,也成为描述XML数据结构最通用的模式语言.但是,直接通过XML Schema维护交换数据标准确有自身的难以克服的缺点,如存在数据冗余,维护成本高以及无法对已有数据信息进行有效利用等.XML Schema更适合用来发布标准.该文介绍了数据元的概念,提出用数据元自底向上维护数据标准,对XML词汇集进行管理.针对中小规模注册机构的对数据交换标准描述的需求,设计了数据元的元数据属性及相关的方案.解决了交换数据标准的创建及维护,为基于数据元的信息抽取提供了完备的元数据集合.另外,该文还建立了数据元到XML Schema的映射模型,定义了它们之间的映射规则,完成了基于数据元的XML Schema辅助生成技术研究.结合数据元在专利申请中具体需求,介绍了需求驱动的信息抽取,即RTF模板和ACD模板的基于数据元的生成技术.给出基于数据元的RTF模板的生成方法,设计了模板格式描述语言MFDL(Model Format Description Language)语言.同时定义了数据元到XML文档和CAD模板的映射规则.设计了对数据元进行维护和信息抽取的原型系统的总体结构和功能结构.设计了各类信息抽取的详细算法.最后介绍了数据元及信息抽取算法的设计在专利申请项目中的应用.
其他文献
ASP软件平台所整合的多种应用系统出于安全性考虑,具有相对独立的身份认证和授权机制,这使得ASP软件平台和用户必须面对安全机制的多样性和异构性,从而导致用户重复登录,系统
移动互联网增值服务是一种新兴产业,随着移动通信网络带宽的不断提升,移动信息终端的不断成熟,信息内容日渐丰富,其潜在的巨大的市场价值必渐渐显现,并被挖掘.然而,大多的短
随着网络视频应用的发展,视频在Internet传输时的服务质量控制(Quality of Service,QoS)成为目前的一个研究热点.对于常用的基于终端系统的视频服务质量控制,可伸缩性视频编
学位
学位
本文采用NURBS曲线曲面方法实现手袋基本形体的曲面造型.提出了一种采用离散法结合三视图投影原理进行曲面与任意平面求交的数值算法.方法简便、快速可靠,效果良好.OpenGL是
随着互联网的快速发展,互联网正在逐渐从一个信息发布共享平台演变成为大规模的分布式计算平台。服务成为互联网面向用户提供应用的主要形式。 现有的互联网中服务在实现层
本文首先给出了分布式应用系统的基本概念.对分布式结构的特点,体系结构和相关理念进行了探讨,并着重分析了构建分布式系统所用到的关键性技术.主要针对MIDAS技术、InternetE
集群系统开放性发展趋势、迅速增长的高性能事务处理应用需求以及移动计算模式的发展需求给集群文件系统提出了一些新的研究课题。本文面向Internet等大吞吐量事务性文件服务
本文提出了基于粗糙集理论的不完备信息系统的处理方法和基于沃尔什滤波的时序数据离散化的方法.粗糙集是建立在等价关系基础之上,用上下近似集合来表示一个不精确的概念.在