论文部分内容阅读
随着互联网的兴起和发展,即时交流系统因为其便捷特性,一直在人们的网络活动中扮演着重要的角色。虽然目前传统的即时交流系统已经广泛流行,但它们基本上都是基于单模态或者单媒体来进行交流。无论是早期的基于纯文本的交流形式,还是后来引入的基于语音或者视频的交流形式,其中的信息均是以单模态或者单媒体的形式进行传播,不同模态或者不同媒体之间的信息不能进行相互的传递或者互补。这种信息的传播方式,在应对具有不同语种用户或者具有不同语言形式的用户时,因其无法对不同媒体形式表达的语义进行关联,往往无法使这类用户正常的进行交流。例如,使用不同语种的两个用户往往会因为无法理解对方的文本信息而无法交流,而一个使用手语的听力障碍用户与一个正常人用户之间也会因为无法理解对方的语义表达而无法交流。 但是,如果能够对不同媒体信息之间进行跨媒体语义关联,则可以很好的弥补单媒体交流的缺陷。例如,针对使用不同语种的用户,可以将文本信息翻译成双方都可以理解的图像信息,而针对使用手语表达的用户,则可以将手语视频翻译成对方可以理解的文本信息。这种跨媒体的翻译的基础就是跨媒体语义关联技术。因此,如何针对交流系统中的不同模态或者不同媒体的信息进行跨媒体语义关联,从而满足具有不同语种或者不同语言形式的用户的需求,则成为了一项必要的研究内容。 跨媒体语义关联是跨媒体交流系统的最核心的技术,其中包含了图像与文本的语义关联、视频与文本的语义关联、语音与文本的语义关联等不同部分。在本文中,我们重点关注其中的两种类型的语义关联技术,即图像与文本的语义关联,和手语视频与文本的语义关联。针对跨媒体交流系统中的这两种类型的语义关联技术,本文主要进行了以下几个方面的研究工作: 1.基于非负层级图嵌入的动词宾语概念的图像分类。我们利用基于“动词-宾语”结构图片中所包含的层级结构信息,提出了一种层级非负图嵌入的方法,对“动词-宾语”结构图片进行了有效的特征提取和编码,使基于“动词-宾语”结构图片的分类取得了良好的效果。 2.基于贝叶斯模型的动词宾语概念的图像重标注。针对传统图片标注技术在“动词-宾语”结构图片标注上的问题和缺陷,利用“动词-宾语”结构图片中的人体与物体的交互动作所包含的语义,提出了一种基于贝叶斯网络的重标注方法,该方法能在“动词-宾语”结构图片不准确的标签的基础上,正确的重标注出图片所应有的“动词-宾语”结构的标签。 3.基于判别样本编码的手语识别。我们利用手语视频中某些帧比其它帧具有更高判别性的特性,采用基于判别样本的分类器和多示例学习的方法对手语识别进行编码,然后对手语视频进行有效的分类和识别。该方法不仅能有效的对手语视频进行分类和识别,同时还能准确的学习出手语视频中最具有判别力的帧。 4.基于隐支持向量机的手语识别。在手语视频关键帧的基础上,利用隐变量对具有判别力的帧进行标注,然后采用隐支持向量机训练基于手语视频的分类器,分别对单词级别的手语和语句级别的手语进行识别。该基于隐支持向量机的识别模型不仅能有效的对单词级别和语句级别的手语视频进行分类和识别,同时还能对手语视频中的帧进行其判别能力的估计。