分布式Web化学数据库定向检索引擎系统的研究和实现

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户：liujmjm

【摘要】

：

Internet上的化学数据库是重要的专业资源，基于超链接分析的搜索引擎还不能索引这类资源。本论文以充分利用Internet上的化学数据库数据为目标，将“一个查询发动多个同级检索引

【作者】

：

储春梅

【机构】

：

中国科学院过程工程研究所

【出处】

：

中国科学院过程工程研究所

【发表日期】

：

2005年期

【关键词】

：

数据挖掘深层网分布式数据库化学数据库集成检索关系数据库定向检索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet上的化学数据库是重要的专业资源，基于超链接分析的搜索引擎还不能索引这类资源。本论文以充分利用Internet上的化学数据库数据为目标，将“一个查询发动多个同级检索引擎，并以结构化的方式组织信息”的方案应用于以化合物标识信息为检索入口的Web化学数据库，建立了一个基于多站点数据库的Web数据库定向检索引擎，初步实现了深层网上的数据挖掘与资源共享。本论文完成的主要工作包括： (1)系统模型与通用化数据获取和存储方案的确立：该引擎是一个包括用户交互层、中间检索层、数据提供层的三层Web模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、集成远程Web信息的服务器端代理模块、以及提供缓存和检索的关系数据库模块。模型通过JSP+Java组件方式实现，利用HTTP协议构造并发送Web化学数据库检索请求，采用XML技术对检索返回文档进行结构化数据的提取和表示，利用XML-DBMS实现XML数据的存储和检索。 (2)客户端代理模块的实现：通过JSP响应程序提供用户以化合物标识、Web数据库站点、标识匹配方式为参数的检索入口，对用户输入的化合物标识信息进行预处理；将检索请求传递给服务器端代理，以执行目标数据的提取和封装，并接受服务器端的检索结果，最终返回用户链接了显示样式表的XML结果页面；同时为了提高分子式检索的方便性和准确性，对分子式进行了归一化处理。 (3)服务器端代理模块的实现：利用JavaBean实现了访问本地缓存和远方Web站点并生成XML文档的高层API；通过修改Tidy程序包，并将其作为类库集成到Java应用程序，实现了HTML向XHTML的转换；利用集成了XSLT的数据提取器，从XHTML文档中提取包含目标数据的XML文档；在程序中集成了XML-DBMS，实现XML文档和关系数据库之间的数据转换。 (4)关系数据库模块的实现：利用XML-DBMS的MapManager工具根据各站点抽象出来的XMLDTD，创建用于缓存各站点目标挖掘数据的子数据库；建立了化合物索引库，以方便系统对化合物的识别和快速定位；创建了数据库连接池，以降低数据库系统的开销。 (5)将各模块整合在一起，初步建立了ChemDBPortal定向检索引擎系统，可利用分子式、英文名、CAS登录号实现五个分布式Web化学数据库的同时检索和统一显示。总之，本论文建立的分布式Web化学数据库定向检索引擎系统，是针对深层Web信息挖掘和集成检索的一次尝试。它可为其它领域建立类似的系统提供借鉴。

其他文献

里氏木霉xyn-2基因在毕赤酵母中的表达及应用研究

木聚糖酶（1，4-β-D-xylanxylanohydrlase，EC3.2.1.8）通过内切方式水解木聚糖分子中的β-1，4-木糖苷键，水解产物以木二糖和木三糖为主，及少量的木糖和阿拉伯糖。以木二糖、木三糖为主

学位

老年人慢性病的患病现状及其影响因素分析--基于CLHLS的检验

为进一步了解我国老年人慢性病的患病现状,促进老年人慢性病防治,提高老年人的整体健康水平,本文利用中国老年人健康状况调查(CLHLS) 2008和2011年的数据,在对老年

会议

教育对健康的影响及作用机制研究

教育,作为一项重要的人力资本,对个人生活产生了全面且深刻的影响.已有研究多关注于教育的物质性回报,而相对忽视了教育所带来的各种"非物质性收益",教育的健康回报

会议

流动人口参加城镇医疗保险的现状、面临的问题及政策选择

本文分析了流动人口在流入地参加医疗保险的现状.结果发现,虽然流动人口参保比例有所提升,但总体水平仍不高.流动人口内部参保状况受城乡因素、代际因素、行业因素

会议

灵石山常绿次生林木质残体的组成、碳储量及其分解

粗木质残体（CWD）通常包括直径大于2.5 cm的枯立木、倒地尚未分解和处于分解中的树干、大树枝及其树桩和粗根。倒木、枯立木交错横生,枯枝落叶层深厚肥沃,为腐生、兼性寄生等不

学位

木质物残体碳储量海拔分解动态养分释放规律

肺炎引起特殊心电图表现的心肌炎1例报告

心肌炎患者心电图ST、T改变虽无特异性,但出现广泛急性心肌损伤者究属少见。现将所遇的1例报道于下。患者男性,27岁,因受凉后突感畏寒、发热伴咳嗽1天入院。入院前曾咳出铁

期刊

心肌炎患者心电图改变急性心肌损伤铁锈色痰急性病容后突出血点急性心肌梗急性心肌炎急性心包炎

流动人口收入差异探析--上海市2012年流动人口调查监测数据

本文研究上海市2012年流动人口调查监测数据,从人力资本因素,制度因素,社会资本因素,结构因素四个维度去探析流动人口的收入差异,同时,将主观因素引入人力资本变量

会议

建国以来我国个体受教育年限的影响因素分析--基于多水平方法的检验

性别、户籍、家庭背景一直是影响中国人口受教育水平的重要因素,现代化理论、文化再生产理论、资源稀释假设等,在解释中国家庭微观的教育决策过程已得到了不少经验

会议

鼻咽癌免疫

鼻咽癌(Nasopharyngeal carcinoma,NPC)最常见于我国南方和东南亚的一些国家,在我国又以广东省的发病率最高,素有“广东癌”之称,海南岛系广东省的一部分,NPC发病率也占医检

期刊

原发性恶性肿瘤肿瘤病鼻咽炎鼻腔癌细胞毒试验抗体滴度临床诊断水平膜抗原抗瘤作用五年生存率

基于需求层次理论分析老年人产生自杀倾向的影响因素--以北京市为例

老年人是自杀率最高的群体之一,随着我国社会的转型,这一问题日渐突出.国内对于老年人自杀的理论探究滞后于相关实证研究.为更为准确地把握老年人自杀的原因,本研究

会议

分布式Web化学数据库定向检索引擎系统的研究和实现

其他学术论文