基于SSH和Lucene垂直搜索引擎研究

来源 :长沙理工大学 | 被引量 : 9次 | 上传用户:fengliguo1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,现在中国网民居世界首位。网络上信息量的剧增使得通用搜索引擎显得有点力不从心,垂直搜索引擎的出现,就是为了解决这类问题。开源垂直搜索引擎中Lucene的分词模块使用简单分词机制,存在分词精度不高的缺点。因此本文引入了一种基于位图数据结构与条件随机场模型的中文分词词典机制,在一定程度上提高了分词的精度,降低了词典机制的空间复杂度。实验表明:分词词典所占用的内存减少的同时,垂直搜索精度有一定的提高。具体工作如下:(1)论述了垂直搜索引擎的研究价值跟背景,并且深入分析了垂直搜索引擎的两大核心技术:中文分词技术,以及Lucene排序技术。(2)主要对Lucene源码包进行了必要的学习与研究,分析其中两种中文分词算法,双字切分算法和正向最大匹配算法,但是存在分词精度不高的缺点,因而可以改进既有的Lucene分词包来提高中文分词的精度,并将它应用于垂直搜索引擎当中。(3)设计了一个垂直搜索引擎系统,使用了一些开源的框架:Spring、Struts2和Hibernate。整个系统包括了网页抓取模块、蜘蛛模块、信息提取模块、以及索引与检索模块。采用HtmlParser提取网页信息,引入了改进的基于位图与条件随机场中文分词模块来对中文进行分词,提高了中文分词的精度。
其他文献
针对舰船雷达装备远海维修保障需求,基于装备状态编码、故障编码、故障模式分析技术以及北斗导航卫星系统信息传输通道,构建了舰船雷达装备远海维修支援系统。实现了舰船雷达
【正】 单杠练习,特别是高级运动员的单杠练习,多半由回环动作组成.所以衡量一个运动员这一项的训练程度高或低,可以看他是否会用各种不同的做法和连接方法来完成基本的回环
也许从他们对家族企业代际传承的理解中,我们可以勾画出未来中国商业的发展脉络。经过几十年的商业化进程,借助改革开放的政策红利成长起来的创一代企业家,开始为他们的商业
本文以黑龙江紫金铜业电解车间使用的短接开关监控系统为例,详细的介绍了基于S7-1200控制的短接开关监控系统的系统结构、网络组态以及功能的实现。分析了整个系统的通讯结构
<庄子>哲学以自然主义著称,其心性论正是建立在自然主义基础上.<庄子>认为万事万物都应保持和顺应天然之性,因而理想的人格应该是不起"心机",弃绝是非善恶之争,泯灭分别对待
随着TD-LTE试验网规模的不断扩大,网络、终端的不断完善,4G正在一步步地走近我们。然而,作为目前承载主要移动数据业务的3G网络,在很长时间内仍将扮演移动通信网络的中流砥柱
当前农村基层组织存在党组织的地位弱化、党员模范作用退化、村组干部依法治村意识淡化,少数干部变质蜕化和群团组织工作虚化等问题,因此,需要加深对策研究,进一步理顺村党支
随着我国经济建设取得迅猛发展,人民生活质量得到极大改善,人们对出行要求也显著提高。但目前公路建设依旧存在众多质量上的问题,迫切要求找到质量问题进行分析解决。不负责