垂直搜索引擎关键技术研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:yinfeiyangfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上的信息愈来愈大,获取更加准确,详细,深层的专业信息,成为通用搜索引擎在信息采集方面的严峻挑战。垂直搜索引擎的出现,使得问题迎刃而解。垂直搜索引擎的网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,只检索出Web中与特定主题领域内的相关网页信息。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。同时,因为网页数目的剧减,垂直搜索引擎系统维护的代价也远远低于通用搜索引擎。本文首先论述了垂直搜索引擎的研究意义,然后基于全文检索Lucene框架介绍了搜索引擎的三大核心技术:索引,搜索和中文分词技术。通过与通用的搜索引擎进行比较,深入研究了垂直搜索引擎关键技术。本文的主要研究内容包括以下几点:(1)指出了搜索策略中的HITS算法容易产生漂移和隧道现象的不足,并对其算法做了改进,使得一定程度上避免了主题漂移问题,引入超链接的预测权值参数,使得对隧道链接的判别具有了更高的准确性。(2)应用在主题相关度判别中的向量空间模型算法,此算法在应用前,假设文档中的词条相互独立的,与实际不符,从而造成不能很准确地判断其主题相关度的缺点,本文对此算法进行了改进,即将文档中各个层次中的词条重要性赋予不同的权值,然后将此因素也加入到主题相关性判别算法中,从而使得其算法更加准确。(3)同时提出了一种新的网页消重策略,经过大量实验表明取得了较好的效果。应用Java+Lucene开源框架为基础,利用改进后的算法成功构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。最后,为了验证改进算法具有更高的性能,文中进行了相关实验测试,通过实验数据验证了改进后算法的合理性和可行性。
其他文献
目的探讨微课教学在《基础护理学》教学中的应用效果。方法将2016级四年制本科护理1班43名学生作为试验组,2班48名学生作为对照组。以人民教育出版社出版的《基础护理学》作
<正>2009年7月1日,中国人民银行联合财政部、商务部、海关总署、税务总局、中国银行业监督委员会一起制定《跨境贸易人民币结算试点管理办法》,其中第十四条规定"境内结算银
文章提出了定位误差定义几何法的基本步骤,结合实例展示了定义几何法的计算过程,从而揭示了定义几何法计算V型块定位误差的直观性。当工件以外圆面为定位基准用V形块定位时,工序
高压监控系统能提供完善的电网运行数据信息,保证10k V配电系统安全可靠供电,具有非常重要的现实的意义。本文对一炼轧厂的供电系统进行了分析和探讨。
儒学从孔子创立以来,历经汉、唐、宋、明、清几代的发展,逐步完善,有了较完备的思辨哲学体系和较深的理论思维。同时儒学也适应了中国自给自足的自然经济和各个时代的政治需
微合金化理论被誉为20世纪物理冶金学领域所取得的最重要进展,极大地推动了微合金化钢的研究、生产与应用,钢中最常用的微合金化元素是铌、钒和钛等,其主要作用是细化晶粒与
这篇论文为分离时间的 Takagi-Sugeno (T-S ) 论述延期依赖者稳定性分析和控制器合成方法有时间延期的模糊系统。T-S 模糊系统被转变到一个相等的切换的模糊系统。因而,延期依
这篇论文建议一个延期依赖者为引擎保证费用得到了控制计划有 induction-to-torque 延期和外部负担骚乱的闲散速度控制(ISC ) 。以操作模式的闲散速度的引擎的一个扩充 linea
研究ICP-OES法测定石灰石中Fe2O3及Al2O3含量的分析方法,对样品分解条件、分析谱线进行优化,探讨主要干扰因素及消除方法,并进行检出限、精密度及准确度试验。结果表明,该分
新课程提倡互动培育式的教学取向,国家试验区教师教学观念的现状证明新课程的实施,或者说新课程背景下的教师培训有利于教师形成与新课程相适应的教学取向.同时在研究中还发