事件垂直搜索引擎的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:shenkui1945
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息膨胀的Web2.0狂潮之下,Google、Baidu等针对所有用户以及所有主题的通用搜索引擎越来越力不从心,原因如下:通用搜索引擎只根据用户输入的关键字搜索难以准确理解用户的需求,从而导致搜索的结果往往不是用户所需要的;通用搜索引擎面向的是互联网上所有主题的网页,不可能做到面面俱到;通用搜索引擎面向的最小单位是网页,搜索结果对某些特定需求的用户来说往往不是最贴切的。 在这种情况下,垂直搜索应运而生。垂直搜索针对某些行业搜索需求的用户,提供专业化的搜索服务。概括地说,垂直搜索提供的是对某一个特定行业的搜索。它只抓取某一主题的领域网站,并且把网站的信息分类、去重、分词并结构化成所谓的元数据,经过深度的加工处理、优化,并在返回用户查询结果时提供良好的用户体验。 以往的垂直搜索往往只针对静态的物体进行搜索,如租房,餐饮等,但当今社会是不断变化的社会,用户往往很想知道周边的资讯事件。这种领域的搜索本身是符合用户需求和富有创新的。本文的垂直搜索主要是为用户提供对事件的关于空间和时间两个维度的搜索。本文在深入研究垂直搜索引擎技术的同时,对架构进行了精细的设计,设计并实现了一个分布式爬虫的事件垂直搜索系统,并提出了一种基于规则和图路径的地址分词算法。在对事件对象的排序研究上,提出了一种基于PageRank和PopRank的HotRank的排序算法,它对对象间不同的同类引用赋予不同的权重。实验表明,HotRank模型能够有效地提高PopRank的排序准确率。
其他文献
发布/订阅系统技术能够使得信息交互的双方在时间、空间和控制流三个方面都完全解耦,所以越来越受到人们的关注。而目前各研究者对发布/订阅技术的研究主要集中在匹配算法和
总拖期问题(Total Tardiness Problem,TTP)是调度问题中的经典难题。单机总拖期问题(Single Machine Total Tardiness Problem,1//T)和并行多机总拖期问题(Parallel Identical
最近几年来P2P文件共享己成为Internet中最为流行的应用,出现了一系列优秀的基于P2P技术的文件共享应用软件,而BitTorrent系统则是这一个领域的典型应用。本文在查阅了大量关于
人们大部分的时间是在诸如办公楼、商贸中心、车站机场等室内空间中度过,与此同时,随着城市化进程的加快,室内空间变得越发的庞大和复杂,随之产生了越来越多的室内位置服务需
网络规模和复杂度的日益增大和提高,使得网络资源和业务之间的关系也日益复杂,为了尽量避免业务质量下降,保证业务可用,必须迅速定位并解决网络故障。事件关联性分析可以从大
随着计算机、互联网以及移动通信技术的迅猛发展,手机、笔记本电脑、掌上电脑等移动通信设备得到了广泛应用。互联网正逐步走出其原有的军事、科研、教育领域,深入到人们的日
Burrows-Wheeler变换(BWT)在数据压缩领域有较成功的应用。该算法将源文本字符进行了重排列,排列的结果与原文相比,相同字符排列在一起的概率通常能得到很大的提高。因此,排列结
近几年,网络攻击日益频繁,攻击方法层出不穷,对安全防御技术也提出了更高的要求。现有的安全技术:防火墙和入侵检测系统在面向攻击防御上存在着很大缺陷,入侵防御系统(Intrus
机翼是飞机产生阻力与升力的主要部件,对飞机的性能有着重大影响。翼型的气动外形与飞机的巡航速度、起飞与着陆稳定性、失速可控性和操纵反馈品质等都有着重要的联系。因此
基于属性的访问控制模型ABAC在信息安全领域正吸引着越来越多的关注。对比于其它常用的访问控制模型,ABAC在访问粒度、灵活性与可扩展性方面更有优势,这使得其策略表达力更强