面向行为识别的无监督表征学习及领域自适应

来源 :浙江大学 | 被引量 : 0次 | 上传用户:caoyongtao1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别的目的在于确定序列行为数据中任意时刻的行为模式,在智能感知、医疗健康、生物神经解码和人机交互等领域具有广泛应用价值。随着传感器及物联网等技术的发展、普及,行为数据体量越来越大、类别逐渐丰富、分布特性日益复杂,在有限成本内获得的人工标注数据相对于数据整体而言则越来越稀少、单一,因而基于经典监督学习的行为识别模型越来越容易过拟合。同时,随着传感技术的快速迭代更新和行为个体及应用需求的不断改变,行为识别的应用场景已从传统的平稳环境,即训练数据和测试数据独立同分布,转变为动态非平稳环境,即测试数据的分布与训练数据不同甚至可能未知。这种数据分布的不一致,也叫域漂移,普遍造成学习模型的性能严重受损。如何基于稀少的标注数据学习性能良好且具有跨域泛化能力的鲁棒学习模型是人工智能领域的一大研究热点。
  本文围绕这个难点,从无监督学习角度切入,进行两个方向的方法探索,即:1)研究无监督表征学习方法,充分挖掘近乎无限且免费的无标注数据,降低对标注数据的依赖;和2)研究无监督领域自适应方法,提高行为识别模型的跨域泛化能力。同时,针对动物行为分析中普遍存在的标注数据获取困难的问题,基于本文提出的无监督学习算法,构建具有跨成像条件自适应能力的无监督行为分析算法框架。
  具体来说,本文的研究内容和主要贡献可以总结为如下几点:
  1.针对行为识别模型对标注训练数据的严重依赖问题,基于人体骨架关键点序列,提出一种以行为序列条件修复为引导的无监督表征学习方法,通过设计行为序列腐蚀策略学习人体各部位的精细结构依赖性,采用序列修复误差优化表征学习模型,实现对输入序列中骨架关键点的长时程时序依赖性的建模。在多个公开的人体骨架行为识别数据集的实验表明,该方法获得的行为表征能够显著减小序列修复误差,并对不同行为模式具有较强的判别力,从而降低对标注训练数据的依赖。
  2.针对行为表征的跨域泛化问题,提出一种基于局部模式迁移的无监督领域自适应算法,学习比全局表征更原始、更具迁移性的局部模式桥接源域和目标域,独立地匹配每个局部模式的局部表征分布并结合层次化表征对齐,在保持表征的类别判别力的条件下,提高行为表征的跨域泛化能力。在多个骨架行为序列和RGB视频行为数据集及典型的图像分类任务上的实验表明,该方法获得的域不变表征不仅在目标域取得了对前沿领域自适应算法的性能优势,还能有效泛化至未知的新数据域。
  3.针对由行为表征和分类器构成的整个行为识别模型的跨域泛化问题,提出一种基于贝叶斯不确定性匹配的无监督领域自适应算法,采用贝叶斯神经网络作为分类器以建模预测不确定性,利用源域和目标域样本的预测不确定性差异近似度量分类器的域漂移,通过匹配表征和分类器预测不确定性的联合分布,增强整个行为识别模型的跨域泛化能力。基于多个骨架行为序列和RGB视频行为数据集,在经典的一对一领域自适应、部分域适配和域不可知学习三个迁移任务上进行评测,该方法取得了对典型无监督领域自适应算法的一致性能优势。
  4.针对动物行为分析中普遍存在的标注数据稀少或无法获取的问题,以经典模式动物果蝇幼虫的蠕动行为为例,构建具有跨成像条件自适应能力的无监督行为分析算法框架。采用关键点检测算法获取果蝇体节的精细姿态、运动描述,设计基于蠕动行为预测的无监督表征学习方法并通过引入先验分布和时序平滑性约束强化其对不同行为模式的判别力,最后根据模型预测误差的大小变化,采用阈值法实现对行为序列的自动分割,并获得具有生物可解释性的行为模式。该算法框架对果蝇的运动神经环路解码研究具有重要实用价值。
其他文献
近三十年来,布料仿真一直是计算机图形学领域最热门的研究方向之一。针对布料仿真的各个阶段(布料模型、时间积分、拉伸限制、碰撞处理等)出现的不足,研究者做了大量研究,并取得了很好的成果。目前,基于物理的布料仿真已经可以生成高真实感的布料形态,并广泛应用于服装设计、电影、游戏等领域。其中,以虚拟试衣镜为代表的实时虚拟试衣应用一直吸引着科研界和工业界的目光,数款虚拟试衣系统被相继推出,但大多缺乏动态性和真
数字化口腔诊疗技术的发展,使得患者信息采集、治疗方案设计、治疗效果评估等诊疗环节更加全面、准确且安全。使用光学成像设备和锥形束计算机断层扫描成像(Cone beam CT,CBCT)设备可以快速获取患者的三维网格数据和CBCT图像数据。通过观察患者医学数据中的相关组织结构,医生可以实施更为有效和个性化的治疗。如何从患者的医学数据中抽取得到有助于临床诊疗的组织结构信息,是数字口腔技术应用发展的关键。
学位
作为机器学习的一个重要分支,强化学习是一类在线学习的方法,其目的是最大化与环境交互所获得的长远回报。近年来,强化学习领域的研究取得了长足的进展,在机器人控制、游戏与博弈、仿真模拟、调度与优化等领域取得了广泛的应用。然而,现有强化学习方法仍面临着一些挑战。相比于其他类型的机器学习方法,强化学习的样本数据利用率往往较为低下,针对一些高维空间问题时探索效率不高,以及算法健壮性差等。本文从强化学习的样本数
学位
近年来,随着传感器技术的发展和智能设备的普及,各行各业收集获取了海量的时空数据,它们通常记录了数据对象的时间、空间和其他各类多元属性信息和特征。以数据挖掘、人工智能技术为基础的时空数据分析技术迅速成为科研、应用领域的热门课题,并被广泛地应用于诸如城市规划决策,交通监督管理,人群行为模式分析等应用场景中。然而,由于时空数据的多源异构性和分析任务的复杂多样性,使得现阶段的数据的管理和分析面临了诸多挑战
学位
随着信息技术的不断发展和人们通信需求的不断增加,催生出各式各样的网络系统和服务。一方面,用户数量的增长使得有线IP网络的规模变得越来越庞大,多跳连接成为了地理位置分布广泛的主机间正常通信的基本前提。另一方面,物联网技术和应用的成熟使得物联网设备的数量经历着快速的增长。截至2019年,全球物联网设备数量达到110亿。为了实现资源受限物联网设备的互联互通,涌现出多种无线多跳数据传输技术。面对这些普遍存
学位
随着互联网技术的飞速发展和便携式数字媒体设备的普及,图像与视频等多媒体视觉数据正呈现出爆炸式增长。因此,如何快速有效地发现并提取海量视觉数据中的语义目标,并进一步对目标主体进行细粒度的语义内容理解与分析,是人工智能和计算机视觉领域中一项具有重要意义和应用价值的研究课题。  本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、
物理模拟是科学研究与工业制造中的一种重要技术。它以物理定律为基础,通过合适的离散化方法在计算机中对真实的物理过程进行仿真重现。在实际应用中,复杂的模拟对象通常会使计算效率十分低下,严重影响了模拟算法的实用性。  在经典的有限元方法中,计算效率会受到多种因素的制约,例如网格的采样密度、单元的质量和本构方程的函数形式等。从数值指标上看,这些因素分别影响着系统的规模、频谱条件和非线性程度,而这些方面则直
学位
随着信息技术的快速发展,人们对信息的获取和处理逐渐从单一模态转换成多种模态。近年来,人工智能在传统的计算机视觉和自然语言处理等单模态任务上取得了很多激动人心的进展,但是目前的机器智能离通用人工智能仍有很长的路要走。为了理解多模态相互交融的真实环境,人工智能需要同时处理声音、文字和图像等多模态数据,实现多种模态信息的融合和互补。然而,数据的多模态性使得数据表征、信息检索、知识发现和语义推理等应用面临
学位
图是计算机解决问题时采用的一种重要数据结构,它广泛应用于各种场景,在真实世界、社会关系和网络空间中随处可见。一方面,随着互联网的普及以及传感器和通信技术的进步,越来越多的数据以图的形式呈现出来;另一方面,人们越来越关注由对象与对象之间的关联性产生的复杂结构,而图正是研究和利用这些结构信息的重要工具。在这样的背景下,作为图中结构和语义信息的载体,图节点属性可扮演标签或特征的角色,赋能面向图的机器学习
知识图谱是一种简单有效的存储知识的方式,近年来许多开放域和垂直域的大型知识图谱被构建起来并得到了广泛的应用。知识表示和推理是人工智能研究中的重要课题,随着大数据时代的到来和计算能力的提升,原本符号化的知识表示和推理在逐渐向向量空间迁移,可以通过将知识元素映射到低维的向量空间中并基于向量空间的计算完成推理,这种基于向量空间计算的推理称为可微的推理,本文围绕可微的知识图谱推理及其应用展开研究。  可微
学位