论文部分内容阅读
跨媒体语义检索是文本、图像等检索领域中的一个前沿研究方向。由于文本、图像等不同媒体底层特征是异构的,并且与高层语义存在语义鸿沟,媒体检索时无法有效地实现从内容到用户查询语义的映射。而跨媒体语义检索旨在研究利用机器学习多种媒体的语义,实现从一种媒体向另一种媒体跨越式的语义检索。 本文的研究以概率潜在语义分析为出发点,以图像与文本为研究对象,围绕图像的语义理解与概念语义关系获取这两个问题展开研究。使用生成式模型实现图像的语义分析,并结合多标记分类等机器学习技术,提出一些图像标注与显著区域检测的方法。取得了如下研究成果: 1.提出一种视觉与文本特征依赖的层次化主题模型。该模型使用视觉词袋实现图像视觉特征的量化与表示,假设视觉特征与标注词分别位于模型的不同层次,并通过潜在的语义主题进行关联,从而建立从底层特征到标注词的语义映射。本文按照最大联合似然的学习准则,使用期望最大化的方法推导模型中的参数。由于建立了语义主题下的视觉特征分布以及语义主题与视觉特征下标注词的分布,因而该模型可以有效地实现图像标注。 2.提出一种相邻标注词关联的链式分类器方法。该方法将隐含概率主题模型训练得到的隐主题分布表示为隐主题和标注词为节点组成的完全二部图,并使用图上带重启的随机游走计算两个标注词的条件相关度。本方法使用贪心算法,从初始标注词出发逐步选择条件关联度最大的标注词,从而保证生成的标注词链中词之间语义关联实现最大化,并得到对应的分类器链。在根据标注词链依次使用标注词的元分类器时,考虑它在链之前所有的分类结果。实验结果表明这种链式分类器上得到的元分类器性能比其它方法更高,从而能更准确地对未知图像进行标注。 3.提出一种考虑像素空间关系的图像显著区域检测方法。该方法根据像素间的空间关系、颜色关系与显著性关系提出了四个假设,将图像的显著性检测看作为一个层次聚类过程,假设具有“显著”与“非显著”两个隐主题,并分别表示为像素颜色的分布,根据显著区域趋于图像中心的特点判断显著主题,并以此定义图像中每个像素的显著性值。本方法通过为每幅图像学习一个颜色表实现其像素颜色的离散化以实现快速运算,对图像采样子区域可以很好地模拟人类的视觉感受野,并得到大量的样本,因而可以很好地学习隐主题的分布。在基准数据集上的实验结果表明本方法的性能超过了几种主流方法。 4.提出一种语义检索中全称简称的获取方法。该方法借助Web上的海量语料来实现实体全称简称关系的抽取,对给定的中文实体,根据正向和反向两种模式构造查询项,根据搜索引擎获取相应的检索结果快照,结合启发式规则与模式匹配的方法提取全称或简称的候选词,并使用多种高效的过滤及排序规则验证结果。本方法对于实体不限定领域,同时可发现新的全称简称对,从而以迭代的方式实现循环验证,因而有很强的通用性。实验结果表明算法具有很好的召回率与精度。 5.在本文提出的图像理解与概念关系获取方法基础上,结合实验室现有本体知识管理系统KMSphere,实现了跨媒体语义智能检索系统。该系统实现了本文提出的图像标注算法,同时构造了一个标注词本体,以支持图像标注词语义的知识管理与更直观的可视化。本系统不仅支持传统的基于内容的图像检索与基于标注词的图像检索两种查询方式;而且支持基于本体概念的语义检索,以及根据图像的语义标注结果查询对应本体中的概念,因而实现文本到图像、图像到文本的跨模态检索。