论文部分内容阅读
海量数据库(VLDB),是数据量非常大的数据库,它既不是一种独立的数据库体系,目前国际上也并未对它作进一步分类。为了研究的方便,本文主要把它分为记录海量型数据库和海量记录型数据库两类。海量数据库系统在远程教育、远程会议、远程医疗、电子商务、文献情报、预定系统、交通管理等多媒体信息系统中有着广阔的应用前景。但只有数据,即便是海量数据,其用处并不大;只有当数据找到关联性时,才变得有用。对VLDB的支持,不仅指的是数据库系统的数据量达到几百GB或TB,VLDB的性能更多地体现在对数据库系统的管理能力,包括日常管理、数据加载、索引建立、运行性能等,同时还需要支持大量的用户连接和大的工作负荷。只有在此基础上保持良好运行性能的系统才能构成海量数据库应用系统。
该研究以数字航测相机所拍摄的特大图像为研究背景,致力于特大图像更广泛更深层次的应用。数字航测相机是国家863信息获取主题“十五”期间支持项目“863-13大面阵彩色CCD数字航测相机系统研制”的研究成果,它在国土资源调查、森林防火、防灾减灾、城市规划、特大工程设计(如三峡工程、南水北调、西气东送)等方面的应用很广泛。它拍摄的图像是9216x9216约8500万像素,单幅图像的数据量达162MB,若一次飞行拍摄2000多幅图像,三次飞行后的数据量将达TB。要使海量的图像数据成为有用的数字产品并有着更广泛更深入的应用前景,急待要解决下面四个问题:
1)对单幅图像快速浏览,挑出有用的图像,减少冗余数据,方便存储管理;
2)对海量图像数据进行安全、快速的存储管理;
3)对海量图像快速检索,包括基于文本的检索和基于内容的检索;
4)构建具有强大管理能力和良好运行性能的海量图像数据库管理系统。
本论文对海量数据库数据存储及快速检索技术进行了研究,特别是对上述四个问题进行了深入分析并分别编程进行了实践。探讨了不同存储对象的海量数据库构建方式。对于记录海量型数据库,利用关系型数据库结构就能实现对数据的高效管理和检索,并保持良好的运行性能。文中用SQLServer2000关系型数据库作了实践。
文中对主要存储对象为文本和图像的这两种海量数据库作了深入研究。对于特大图像,把基于结构化属性的SQL检索、基于内容的文本检索和基于内容的图像检索三者相结合,采用金字塔数据结构和分离存储技术,实现了对海量数据库安全、方便和快速的存储管理与快速检索。
基于结构化属性的方法,文中用数据库SQLServer2000设计了一个图像管理系统,它不仅具有基于文本的图像检索功能,还具有文件与数据库的双向传输与管理能力。把数据库管理与文件管理有机结合起来,实现了对数据的双重维护。
为了实现特大图像的快速预览和显示,文中综合应用多种算法构建并实现了一个自适应、全自动、任意比例、通用格式、平滑和连续进行的图像批处理系统。
用内存映射文件方法实现虚拟存储管理,进而实现了基于内容的文本检索。它不仅使文本型海量数据库很容易实现基于内容的快速检索,同时为用文本检索方法实现基于内容的图像检索这一新构想奠定了基础。设计了一个基于内容的文本检索系统,它能对成批的文件进行基于内容的快速检索,并在检索出的文件中以任意关键词匹配再次检索。
构建了一个综合实例系统—图像处理及基于内容的图像检索系统IPCBIR,它不但具有软件ACDSee和PHOTOSHOP的大部分功能,而且实现了基于内容的图像检索。对实现方法进行了深入研究,以该实例的主要功能模块为主线,介绍了各自的实现算法,如缩略图的自动提取、图像局部的快速查看、图像的快速浏览及基于内容的图像检索等。对图像进行规范化处理,如这里用抽点法把任意大小的图像缩小为256x256,用分块法将图像的颜色信息与空间位置信息有机的结合起来,再用亮度化将RGB三颜色转化为亮度,这就从计算数据的源头上至少减少了三分之二的计算量。这些方法的综合应用,加快了图像的检索进程。多线程和递归搜索技术的运用是基于内容的图像检索系统的关键技术之一。多种算法组合使该检索系统具有一定的自适应能力,即使图像很大、数量很多,也能在该系统中得到快速检索与同步显示。实验表明,该软件系统具有较大的实用价值。实现了文本与图像的相互转换,使图像的分割、加密、再曝光、基于内容的图像检索等处理更容易通过文本方式实现。把数字图像处理转化为文本处理,可以利用现有文本处理的许多工具,使图像处理更加灵活方便。提出了用文本检索方法实现基于内容的图像检索这一新的构想,阐明了实现的可能性、必要性和重要性,也指出了尚存在的问题。
最后对全文的工作进行了总结并对该领域的技术进行了展望,概括了主要技术成果和进一步工作的方向。