跨媒体交流系统中的语义关联关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:good_loloo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起和发展,即时交流系统因为其便捷特性,一直在人们的网络活动中扮演着重要的角色。虽然目前传统的即时交流系统已经广泛流行,但它们基本上都是基于单模态或者单媒体来进行交流。无论是早期的基于纯文本的交流形式,还是后来引入的基于语音或者视频的交流形式,其中的信息均是以单模态或者单媒体的形式进行传播,不同模态或者不同媒体之间的信息不能进行相互的传递或者互补。这种信息的传播方式,在应对具有不同语种用户或者具有不同语言形式的用户时,因其无法对不同媒体形式表达的语义进行关联,往往无法使这类用户正常的进行交流。例如,使用不同语种的两个用户往往会因为无法理解对方的文本信息而无法交流,而一个使用手语的听力障碍用户与一个正常人用户之间也会因为无法理解对方的语义表达而无法交流。  但是,如果能够对不同媒体信息之间进行跨媒体语义关联,则可以很好的弥补单媒体交流的缺陷。例如,针对使用不同语种的用户,可以将文本信息翻译成双方都可以理解的图像信息,而针对使用手语表达的用户,则可以将手语视频翻译成对方可以理解的文本信息。这种跨媒体的翻译的基础就是跨媒体语义关联技术。因此,如何针对交流系统中的不同模态或者不同媒体的信息进行跨媒体语义关联,从而满足具有不同语种或者不同语言形式的用户的需求,则成为了一项必要的研究内容。  跨媒体语义关联是跨媒体交流系统的最核心的技术,其中包含了图像与文本的语义关联、视频与文本的语义关联、语音与文本的语义关联等不同部分。在本文中,我们重点关注其中的两种类型的语义关联技术,即图像与文本的语义关联,和手语视频与文本的语义关联。针对跨媒体交流系统中的这两种类型的语义关联技术,本文主要进行了以下几个方面的研究工作:  1.基于非负层级图嵌入的动词宾语概念的图像分类。我们利用基于“动词-宾语”结构图片中所包含的层级结构信息,提出了一种层级非负图嵌入的方法,对“动词-宾语”结构图片进行了有效的特征提取和编码,使基于“动词-宾语”结构图片的分类取得了良好的效果。  2.基于贝叶斯模型的动词宾语概念的图像重标注。针对传统图片标注技术在“动词-宾语”结构图片标注上的问题和缺陷,利用“动词-宾语”结构图片中的人体与物体的交互动作所包含的语义,提出了一种基于贝叶斯网络的重标注方法,该方法能在“动词-宾语”结构图片不准确的标签的基础上,正确的重标注出图片所应有的“动词-宾语”结构的标签。  3.基于判别样本编码的手语识别。我们利用手语视频中某些帧比其它帧具有更高判别性的特性,采用基于判别样本的分类器和多示例学习的方法对手语识别进行编码,然后对手语视频进行有效的分类和识别。该方法不仅能有效的对手语视频进行分类和识别,同时还能准确的学习出手语视频中最具有判别力的帧。  4.基于隐支持向量机的手语识别。在手语视频关键帧的基础上,利用隐变量对具有判别力的帧进行标注,然后采用隐支持向量机训练基于手语视频的分类器,分别对单词级别的手语和语句级别的手语进行识别。该基于隐支持向量机的识别模型不仅能有效的对单词级别和语句级别的手语视频进行分类和识别,同时还能对手语视频中的帧进行其判别能力的估计。
其他文献
应用管理信息系统(MIS)作为企业生产和经营管理的工具已成为企业发展的必然趋势,许多钢铁联合企业都十分迫切地要求开发应用计算机管理信息系统.由于大型钢铁企业业务和管理
统计参数语音合成,特别是其中的基于隐马尔科夫模型(Hidden MarkovModel,HMM)的语音合成,近年来经过了一个快速而蓬勃的发展期,展示出一系列优点,包括输出语音平稳、流畅,可以快速
随着Web2.0技术的迅速发展和GPS手持移动智能设备的广泛应用,人们在使用各种社会媒体的同时以各种各样的形式分享自己的地理位置,产生了大量地理数据。例如用户在Flickr上分享
该文以马钢中板厂管理信息系统的研制课题为背景,结合结构化分析与设计理论,详尽地阐述了马钢中板厂管理信息系统的开发过程.在系统分析部分,该文从生产工艺流程角度详细地分
可视语音合成技术是人机交互领域和语音技术研究中一个重要的方向。人的语音由发音器官产生,因此人在进行语音表达时,必然会伴随着面部和发音器官运动的信息,这些视觉信息在人的
社交媒体时代,网络数据呈爆炸式增长,一方面用户陷入了信息灾难,难以快速发现和获取感兴趣的信息;另一方面,用户逐渐转变成了信息的创造者和传播者,参与到多个社会媒体网络平台,并
该文以马钢MIS生产管理子系统的开发为出发点,首先介绍了钢铁企业的特点及目前国内外管理信息系统的发展状况,结合MIS系统本身的功能与优点,提出现行使用的马钢生产管理子系
该文以石油历史生产数据为依据,以石油产品为指标,研究对比了以下几种预测方法在油田产量预测中的应用效果:基于Weng旋回模型的非线性回归方法和线性回归方法,基于ARMA模型和
随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉特征的选择是这些技术中的关
虚拟实现是由客观需求所驱动而迅速发展起来的一项高新技术,是一项集先进的计算机技术、传感与测量技术、仿真技术、微电子技术等为一体的综合集成技术.从狭义上讲,虚拟现实