基于Clucene的个人数据检索支撑系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:zy15400444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和计算机的普及,人们越来越多的产生了大量的个人信息,包括短信息,照片,视频,email,联系人,blog,文档等。人们迫切的需要有一个方便易用的系统来管理和检索这些个人数据。我们的日常生活中能产生这些数据信息大多是依赖于生活中的事件,超级照片链接系统就是一个基于生活中的事件为检索单元的个人数据管理和检索系统,其检索系统是以clucene为基础架构。他能够让用户以一张照片为切入点获得照片所在事件的其他个人数据。论文首先分析人们日常数据的产生与事件的关系,论证系统以事件作为检索单元的可行性;然后给出了系统的需求分析,并介绍了相应的软硬件环境;接着从功能的角度描述系统总体设计,包括照片时空聚类和存储,个人数据获取,个人数据检索支撑子系统,界面显示,其中重点描述了个人数据检索子系统各个模块的设计;最后着重描述了基于clucene的个人数据检索支撑系统各个模块的实现,包括clucene的架构,clucene的索引与检索,同义词索引的构建,clucene中的同义词扩展和相似度计算的改进,检索结果的高亮显示,同义词索引的在线升级。基于clucene的个人数据检索支撑系统描述中首先介绍了信息检索系统的基本概念,包括查询扩展方法,相似度计算方法,clucene模块及架构,wordnet同义词典介绍;然后描述了clucene的索引与检索;接着描述了同义词索引构建模块的设计与实现;然后描述了clucene的检索模块的实现以及相似度算法及在clucene中添加同义词扩展的设计与实现;然后描述了高亮显示模块的设计与实现,最后描述了同义词索引的在线升级模块的设计与实现。系统测试部分首先展示了同义词索引的测试结果,然后展示了同义词扩展后的文本检索和排序结果,然后展示了同义词索引升级的测试结果;最后展示了在超级照片链接系统中的测试结果。论文最后对全文做出了总结,并描述了系统存在的不足和进一步工作,总结了本人在硕士研究生期间的工作和成果。
其他文献
近些年来,各行各业对数据管理系统的需求与日俱增,开发出了大量基于C/S和B/S的数据管理系统,并被应用到实际工作中。随着系统数量不断地增多,系统规模越来越大,系统中的逻辑
关系数据库是企业信息系统的核心,大量的关键性商业数据都需要由关系数据库来管理。然而随着XML成为数据交换技术的非正式标准,企业在实际应用中对XML数据管理的需求越来越多。
交通大数据作为大数据一个重要分支,与人们的生活息息相关,目前对于路网交通流数据的研究尚浅,而且大多集中在高速路网。由于环境更复杂,影响因素更多,城市路网交通流具有更加复杂
Windows操作系统在桌面领域处于垄断地位,基于Linux的国产操作系统与之相比应用软件较为匮乏,严重影响了国产操作系统的使用和推广。为国产操作系统专门编写应用软件要耗费极大
近年来,随着网络技术的发展与增值业务需求的不断增长,传统PSTN的电话业务已经不能满足网络应用的需求。下一代网络(NGN)在带宽提高的基础上,为视频、流媒体等多媒体资讯业务的
知识在经济增长的地位日趋重要,知识经济是在当今经济飞速发展的情况下,科学技术与其他因素相互作用最终发展的结果。知识经济带来的诸多知识管理问题,这些问题的解决产生了知识
居住健康是近几年来建设住宅小区的核心理念,在满足住区用户心理健康和生理健康基础上,提高住户生活质量,大力建设健康住宅是国家住宅建筑业发展的趋势。随着数据挖掘技术的日趋
随着我国城市规模不断扩大,城市人口日益激增,公共交通信息化建设越来越受到重视。发达国家普遍采用各种信息技术高效管理城市公交系统的业务运营,而我国公交公司管理信息化程度
高层体系结构HLA是美国建模与仿真办公室为了满足大规模复杂仿真系统的需求,提出的一种新型的仿真框架。该框架具有开放性、扩展性、交互性、分布性和可重用性的优点。在2000
海洋船舶在生产活动中产生了大量的时空轨迹数据,海量的船载AIS系统时空轨迹数据集合中蕴含着大量的船舶交通行为特征,在进行轨迹信息挖掘时存在诸如海量数据、数据缺失、数据