论文部分内容阅读
互联网络的迅猛发展,促使Web页面的信息资源数量正在以惊人的速度增长,用户越来越迫切地需要一种更加精、准、专的搜索引擎来满足资源搜索的需求。随着搜索引擎技术的不断发展,垂直搜索技术受到了广大用户的欢迎。这种针对于专业领域的搜索引擎,可以快速地让用户获取到合适的结果。专业化的垂直搜索引擎,作为互联网的第三代搜索引擎,将成为今后搜索引擎发展的主流。
本论文依托中科院声学所网络与新媒体技术研究中心的“E游天下”网络新媒体综合业务平台,针对垂直搜索技术、基于模板方式的网页信息抽取技术、以及基于FFT的网页正文提取算法等网络信息处理关键技术展开研究,提出了基于垂直搜索技术的网络信息查询系统设计方案,并融合Ajax、数据库、HTTP协议等相关技术,实现了酒店信息查询系统和机票比价查询系统。
本论文具体研究的内容和成果如下:
(1)提出了酒店信息查询系统的设计框架,对系统结构进行了模块的划分,确定了此系统的技术实现方案。
(2)实现了酒店信息查询系统,包括网页抓取模块、信息抽取模块、结构化处理模块及集成存储模块等。
(3)设计了机票比价查询系统的系统框架,实现了系统的主要功能模块。
(4)提出了一种优化机票比价查询系统网络层的方案,提高系统的搜索效率,并对优化前后的查询系统进行了测试对比。
(5)参与了网页库级信息抽取技术的研究项目。完成了相关的实验研究和结果分析工作。