【摘 要】
:
认知科学的研究表明,视觉、听觉、触觉等感知信息在人类语言习得的过程中起到了重要的辅助作用,其中以视觉信息的作用尤为突出。为了使计算机在处理语言信息时可以利用相关的
论文部分内容阅读
认知科学的研究表明,视觉、听觉、触觉等感知信息在人类语言习得的过程中起到了重要的辅助作用,其中以视觉信息的作用尤为突出。为了使计算机在处理语言信息时可以利用相关的视觉信息,便出现了基于感知信息的Grounded词汇语义习得研究。ViMac (Visual Information based Meaning Acquisition of Chinese Words)系统是一个基于视觉信息的自然语言描述生成系统,系统习得基于视觉信息的词汇语义,可以为简单几何图形生成自然语言描述。但是该系统的性能受制于初始训练语料的规模,若希望提高系统性能,需要继续增加训练语料。而大规模语料标注费时费力,本文在系统训练过程中引入主动学习技术,通过从无标语料中筛选最有价值样本进行标注,从而在不影响模型性能提升的前提下,最大程度减少样本标注的规模。本文对基于不确定度的主动学习框架提出两点改进:第一,针对训练样本中各类别样本分布严重不均衡的情况,利用后验概率加权熵来改善样本分布不均衡的状态;第二,针对需要一次性选择多个样本时,利用聚类、加权等方法综合考虑样本的不确定度、影响度和冗余度。进而将主动学习机制引入ViMac系统中指导系统逐步添加对模型性能提升有积极影响的少量新样本,最后搭建了具有在线主动学习能力的系统ViMac-Online。
其他文献
目标物体位姿参数估计是航天器对接、机器人以及无人驾驶等领域无法回避的技术难点之一。在单目视觉领域中,该问题可以被分解为两个子问题:建立三维模型到图像之间的3D-2D特征
车道检测是计算机辅助驾驶系统最重要的组成部分,计算机辅助驾驶系统需要在车道检测的基础上,才能对驾驶行为、车辆偏离、防碰撞等问题进行分析判断。车道检测的研究在过去几十
随着Linux应用的普及,Linux系统的安全问题也逐渐暴露出来,由于Linux是UNIX系统的一种,多采用的是任意访问控制(DAC,DiscretionaryAccess Control)。因此,存在一些先天的缺点,例如
近年来,伴随信息产业的蓬勃发展业务数据量急剧增长,并行计算技术在实际需求产生的应用中日渐成熟。与此同时,企业需要加大对数据中心的各项投入,以解决数据量激增带来的处理能力
网络化操作系统(云平台)能够为应用的开发、部署、管理、运营提供支持。分布式存储是云平台中的重要组成,为应用提供可扩展的数据存储。其中,非关系型(NoSQL)数据库在分布式存
据全国残疾人抽样调查显示,残疾人数量超过8000万,其中大量残疾人有康复需求,但是现有的服务并不能很好满足。随着互联网技术的发展,在线音视频交互技术为残疾人康复服务提供了一
现有网络实时视频监控系统一期根据其最初设计的整体网络拓扑图,已可达到网络实时视频监控的效果。但伴随着该系统在测试过程中存在的问题和新需求的不断提出,本文首先列举并
Web服务在迅猛发展的过程中也存在着严重的安全问题。目前Web服务在应用层普遍存在SQL注入、跨站脚本攻击、缓冲区溢出、爬虫、木马、目录遍历等各类攻击,由于这些攻击主要隐