论文部分内容阅读
图像分类技术是模式识别领域的一个重要研究方向。而毒品图像过滤则可以看作一种特殊的图像分类技术。通用的图像分类技术对建立快速有效的信息检索和管理系统有着重要的意义,而毒品图像过滤技术则可以自动地过滤互联网上的毒品信息,净化互联网环境,保证互联网的信息安全。
通用的图像分类技术是毒品图像识别与过滤技术的基础,而专用的毒品图像过滤技术的研究又可以给通用的图像分类技术提供很好的借鉴和参考。二者之间具有十分紧密的联系。因此,本文主要围绕图像分类技术及毒品图像过滤技术展开研究,主要工作包括:
①提出了一种基于比例的直方图距离测度。传统的直方图距离测度都是基于直方图bin与bin之间的差值进行计算的。我们认为,描述同一个物体的两个直方图在不同bin的比例关系上具有较高的相似度,可以对部分匹配有较好的鲁棒性。因此,该算法利用了直方图内部的共生比例信息,通过衡量不同直方图内部的比例信息来计算直方图相似度。算法对图像分类中的部分匹配问题较为鲁棒,适用于图像分类中背景噪声较大的情况。
②提出了一种显著性驱动(Saliency-driven)的非线性扩散滤波(Non-linear Diffusion Filtering)。算法将显著性检测技术与非线性扩散滤波技术结合,产生图像的非线性尺度空间。在这个尺度空间中,非线性扩散可以保留甚至增强某些较为显著的图像结构,例如线条、边缘等。而显著性技术可以估计前景图像和背景图像区域。我们将图像的显著性作为图像中梯度的权重,据此可以把非线性扩散滤波和显著性结合起来。在非线性扩散滤波过程中,显著性区域的图像梯度将会被增强,而不显著区域的图像梯度将会减弱。由此,当尺度增加时,不显著区域信息将会逐步的淡出而显著区域的信息将会被保留,甚至一些重要图像结构,例如线条,边缘等将会被增强。接下来,一幅图像就可以被表达为它的尺度空间中不同尺度的图像集合。进而通过多尺度信息融合框架,可以较为有效地提升图像分类的性能。
③针对三类大麻图像的不同特点,分别提出了三种大麻毒品图像过滤算法。对于大麻植物图像,我们在Adaboost分类框架下提出了一种新的基于自相似性的弱分类器;对于大麻烟叶图像,我们采用SIFT特征及改进的词包模型进行识别;针对吸毒工具图像的特点,我们采用金字塔梯度直方图特征与SVM分类器,取得了较好的效果。
④提出了一种图像集分类方法并用于大麻网站的识别与过滤。将网站看作图像的集合,我们将大麻网站过滤问题抽象为图像集分类问题。由于网站中存在的大量的图像样本,我们采用集合核(Set Kernel)对不同的图像集之间计算相似度,可以大大简化计算复杂度。接着,我们从两方面进一步提高了此核:第一,考虑到不同的视觉单词的区分能力是不同的,我们以不同视觉单词单独的分类错误率为依据给每个视觉单词一个权重。第二,通过指数核与此核的结合使得最终的核具有分类非线性样本的能力。我们将我们提出的方法应用于毒品网站分类任务中。在这个任务中,我们搜集了一个包含600个网站共计200,000图像的图像集数据库。在实验中,我们将我们提出的方法与不同的最新方法进行了比较,相比于其它方法,我们的方法取得了令人满意的实验结果。
⑤提出了一种基于多模态多示例学习的毒品网页在线学习与过滤算法。我们的方法融合了图像内容信息与图像周围的文本信息来提升网页过滤算法的性能。除此之外,我们的过滤算法还具有自动更新的能力,即可以通过新检索到的网页进行系统的在线学习与自动更新。实验验证了我们的方法是行之有效的。
总的说来,本文对图像分类技术、毒品图像过滤技术等方面作了有益的探索。