XML全文检索系统的设计与实现

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:Niujingniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国国家知识产权局专利局正在开发的中国专利电子申请系统作为电子政务工程,意义十分重大.鉴于国际知识产权组织将XML格式作为专利电子申请文件的描述标准,为了和国际接轨,中国专利电子申请系统也采纳XML标准.在业已实现的电子申请系统中,实现了从客户端XML文档编辑生成,打包传输,接受处理存储的一整套流程.但是,如何使已经存储为XML文档的专利文档能够发挥最大的作用,有效地提供用户检索,是一个非常重要而且必须解决的问题.该文所设计的XML专利文档全文检索系统,就是专门为国家知识产权局专利局提供的专利文档全文检索工具.XML文档相对传统文本,能够表达文档的内容和结构信息,充分应用文档结构信息可以有效地提高检索系统的查准率.该文介绍了一种将结构信息与传统向量空间模型相结合检索技术,提出的检索方式是基于无须给定数据详细结构信息的树匹配概念进行检索.采用逻辑文档的概念来确定文档的边界,检索的范围确定在逻辑文档之中,并且项权重可以动态改变.通过对于文档树子树的处理,可以完成对于检索文档的部分结构匹配.进而,该文还说明如何将传统向量空间模型和树匹配的算法应用在XML文档之中.该文设计了有效的算法来计算全部或者部分树匹配以及项权重.并且提出XML-N层向量空间模型的概念,对XML专利文档进行项权重的匹分设置,进而缩短检索时间.最后给出了XML全文检索系统的在中国国家知识产权局专利局的电子申请项目中专利全文检索系统X-Search中的应用.
其他文献
万维网通信量的分析与建模对万维网设计中制定缓存大小、重发策略和舆协议等都起到重要的指导作用.近年来的研究分析结果表明,实测万维网通信量呈现出明显的自相似性,这是经
该论文对基于短消息业务的数据挖掘系统的子系统短消息业务相关性分析系统进行了研究与实现.该论文首先分析设计了基于短消息业务的数据挖掘系统;然后对短消息业务相关性分析
该文利用模糊神经网络学习算法重点对模糊规则基进行优化.在对国内外常用的模糊神经网络学习算法进行了深入分析的基础上,对模糊规则基的优化和初始参数的设定方面进行了详尽
粗集理论是近年来发展起来的一种有效地处理不精确信息、含糊信息的数学理论方法,在机器学习、知识发现、模式识别等领域取得了很大成功.研究者从不同角度对这个理论进行研究
随着互联网规模的飞速发展,如何高效合理地使用现有的网络资源,保障网络健康良好地运行,已经成为一个研究的热点问题.网络行为学的主要目的就是将业务流量在现有的网络拓扑结
随着移动互联网的迅速发展,使用手机等移动终端进行移动上网的网民越来越多。与此同时,移动网络带宽资源变得日益紧张,而且对网络的优化也变得更加困难和复杂。如何在现有网
作为信息时代的桥梁,Internet已经渗透到社会经济的各个领域,对社会经济发展起着越来越重要的作用.为了保证Internet的运行效率和服务质量,进一步了解网络行为规律,必须通过
随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源.但因Internet所固有的开放性、动态性与异构性,又使得用户很难准
随着信息技术的发展,电子政务已经成为了当今的热门话题,围绕着电子政务系统的技术研究也成了要求迫切的课题.该文重点研究了基于数据字典的电子政务系统的应用,构建出了根据
学位