基于TOP API和LIRE的分布式Web图像检索系统的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:ciper618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过分析研究基于LIRE架构的图像搜索引擎的关键技术难题,结合TOP API(Taobao Open Platform API,淘宝开放平台API)接口及Web爬虫技术,重点改进现有LIRE(Lucene Image REtrieval,Lucene图像检索)框架算法和模型,采用分布式索引技术,完成了一个互联网电子商务Web图像检索系统的原型,并分析本课题研究在互联网上所产生的价值与商业应用效益。   本文的研究涉及了计算机应用领域中的两个重要方面:电子商务和基于内容的图像搜索引擎。   对于基于TOPAPI的分布式索引数据的采集,相关研究不仅涉及到TOP API的调用及商品图片数据的获取,同时考虑到传统数据获取的方法和策略,依靠Heritrix网络爬虫,对其进行定制和算法的改进,以此来获取特定网页图片数据信息,并最终通过建立分布式索引库,提供给检索系统进行搜索。   对基于LIRE的检索系统,除了改进LIRE的框架系统,同时也提出了图像均方差相似度的计算公式,改善了LIRE检索的准确度问题。   本课题的研究内容主要包括以下方面:   (1)TOP API采集不同类目商品的图片数据   (2)Heritrix爬取商品图片数据的模块设计   (3)分布式索引策略   (4)LIRE图像搜索Web架构模型   (5)图像搜索准确度算法改进   根据研究内容,课题解决的关键问题主要有:(1)商品图片数据采集,通过TOP API与网络爬虫Heritrix采集一定数量级的图片数据,作为图片索引的基础,为检索系统提供搜索接口和数据支持;(2)分布式索引的建立,将图片库按一定的策略归类整理,做成分布式的检索索引;(3)实现LIRE图像搜索的Web架构改造,推出改造模型,并改进搜索结果的准确度计算方法。   最终,通过相关的开源技术支持和前期的技术预演,本课题实现了一个Web图像检索系统(Web Image Retrieval System,WIRS)原型,证实了以上问题的技术可行性,并分析了该系统的优劣与应用场景,提出了对系统进一步改进和研究的工作方向。
其他文献
将概率图模型和一阶逻辑理论结合在一起,并用单一的简单形式表述是人工智能长久以来的一个目标,我们可以使用概率图模型来高效的处理不确定事务,还可以用一阶逻辑简洁的表示整个
文字在人类思想情感以及文化传承中是十分重要的符号工具,在社会生产生活的各个方面都体现出了文字的重要性与不可替代性。在现代城市环境中,文字是普遍存在的元素,如海报、
在语音信号处理领域,声源定位技术是一个重要课题。它广泛应用于多媒体系统、智能机器人系统、视频会议系统和普适计算等方面。声源定位技术是通过麦克风对声音信号进行采集,然
随着网络的普及和数字压缩技术的不断改进,越来越多的数字内容在网络上传输,在便利于人们日常生活的同时,也带来了非授权获取数字内容的危害,也就是通常所说的盗版。据三大运
氧气在化工、能源、冶金、机械、国防工业和医疗等部门得十分广泛的应用,氧气生产已经成为国民经济中不可缺少的一个重要环节。制氧生产过程实时信息系统针对气体厂地域分布比
计算机在医学中的广泛应用及数字图像处理技术与显微技术的紧密结合,产生了现代图像处理的重要分支之一显微医学图像处理。该技术已应用于血球分类、细胞诊断、染色体核型分
目前无线传感器网络协议性能评估多采用基于网络协议仿真系统或者定制开发的网络模拟程序,而网络被动监测系统大多仅用于网络数据抓包和协议解析,协议性能分析功能较弱。本文
在过去的十年里,计算机视觉有了长足发展。针对运动人体和车辆的视频检测几乎是所有视觉系统的基础。这一步骤中结果的精确度对接下来的程序影响较大。然而,由于在自然背景中运
生物信息学是集生物、数学和计算机等领域的综合学科,主要研究内容是生物信息的处理。生物信息学通过研究生物数据中蕴藏的生物学意义来揭示其对生物体活动的影响。生物体基
目标追踪,是监测非法入侵的最基本要素,是物联网中最重要的感知信息之一,与人们的日常生活息息相关。近年来,各种各样的室内目标追踪技术层出不穷,从基于人力到基于视觉,从基