论文部分内容阅读
Internet上的化学数据库是重要的专业资源,基于超链接分析的搜索引擎还不能索引这类资源。本论文以充分利用Internet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标识信息为检索入口的Web化学数据库,建立了一个基于多站点数据库的Web数据库定向检索引擎,初步实现了深层网上的数据挖掘与资源共享。本论文完成的主要工作包括:
(1)系统模型与通用化数据获取和存储方案的确立:该引擎是一个包括用户交互层、中间检索层、数据提供层的三层Web模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、集成远程Web信息的服务器端代理模块、以及提供缓存和检索的关系数据库模块。模型通过JSP+Java组件方式实现,利用HTTP协议构造并发送Web化学数据库检索请求,采用XML技术对检索返回文档进行结构化数据的提取和表示,利用XML-DBMS实现XML数据的存储和检索。
(2)客户端代理模块的实现:通过JSP响应程序提供用户以化合物标识、Web数据库站点、标识匹配方式为参数的检索入口,对用户输入的化合物标识信息进行预处理;将检索请求传递给服务器端代理,以执行目标数据的提取和封装,并接受服务器端的检索结果,最终返回用户链接了显示样式表的XML结果页面;同时为了提高分子式检索的方便性和准确性,对分子式进行了归一化处理。
(3)服务器端代理模块的实现:利用JavaBean实现了访问本地缓存和远方Web站点并生成XML文档的高层API;通过修改Tidy程序包,并将其作为类库集成到Java应用程序,实现了HTML向XHTML的转换;利用集成了XSLT的数据提取器,从XHTML文档中提取包含目标数据的XML文档;在程序中集成了XML-DBMS,实现XML文档和关系数据库之间的数据转换。
(4)关系数据库模块的实现:利用XML-DBMS的MapManager工具根据各站点抽象出来的XMLDTD,创建用于缓存各站点目标挖掘数据的子数据库;建立了化合物索引库,以方便系统对化合物的识别和快速定位;创建了数据库连接池,以降低数据库系统的开销。
(5)将各模块整合在一起,初步建立了ChemDBPortal定向检索引擎系统,可利用分子式、英文名、CAS登录号实现五个分布式Web化学数据库的同时检索和统一显示。
总之,本论文建立的分布式Web化学数据库定向检索引擎系统,是针对深层Web信息挖掘和集成检索的一次尝试。它可为其它领域建立类似的系统提供借鉴。