面向场景理解的细粒度图像分割算法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:hlxcun3e5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的蓬勃发展,无人驾驶汽车等一系列新兴产品开始问世,相关应用对图像分析及场景理解的需求也日益增加。图像分割相关研究在各个领域起着重要作用,其分割结果有助于后续的场景理解与分析,相关研究具有重要的研究意义和广泛的应用场景。本文研究的细粒度图像分割算法不仅要为图片中每一实例生成掩模,而且需要区分图片中各实例的细粒度类别信息。这就需要算法在完成细粒度分类的基础上对其进行有效分割,以辅助后续场景理解与分析,例如可以作为场景分析的注意力引入相关端到端模型。相关研究相较于传统图像分割更具挑战性。本文主要工作包括:
  (1)研究及对比分析了四种基于深度学习的主流分割算法:FCN、SegNet、FCIS和Mask R-CNN。其中FCN首次将全卷积网络结构应用到语义分割任务中,是一个端到端、像素到像素的分割方法;SegNet网络类似于FCN网络,其编码和解码的网络与FCN不同;FCIS采用了物体和背景位置敏感的特征提取方法,物体特征用于分割,背景特征用于分类;Mask R-CNN则在同一网络中同时完成目标检测和实例分割两个任务。复现结果表明,Mask R-CNN网络的图像分割结果较好,因此本文后续的相关研究以其作为骨架网络模型。
  (2)提出了一种基于特征金字塔注意力(Feature Pyramid Attention,FPA)的图像分割算法。由第二章的研究分析可知,目前的分割方法对像素位置信息的学习能力不足。本文所提算法通过金字塔结构使网络将注意力集中于Mask,直接对Mask学习,而非对特征图进行学习,最大程度地保留像素级的位置信息,从而充分利用学习到的上下文信息,提高生成Mask的质量。实验结果表明,本文所提基于特征金字塔注意力机制的算法对于图像中小尺度目标的分割结果较好。
  (3)提出了一种基于全局特征金字塔注意力(Global Feature Pyramid Attention,GFPA)的细粒度图像分割算法。传统图像分割算法只能对粗粒度实例类别加以区分并生成Mask,而对于同一大类的细粒度类别信息不能加以区分。为了实现细粒度图像分割,我们改进了第三章所提的FPA注意力模型,通过在FPA模型中增加全局池化模块,构建了全局特征金字塔注意力。基于偏监督学习训练模式,我们采用Open Images V4数据集对所提网络的分类分支单独训练,以得到细粒度的类别信息。而Open Images V4数据集只对物体的类别和边界框进行了标注,所以在训练Mask分支时我们仍采用COCO数据集对网络进行训练,最后通过两路网络的协同和知识迁移,实现细粒度的像素级分割。实验结果表明,与Mask R-CNN相比,本文所提算法可在实现细粒度分类的同时对其进行像素级分割。
其他文献
哈氏噬纤维菌(Cytophaga hutchinsonii)属于拟杆菌门(Bacteroidetes),是一种好氧的革兰氏阴性菌。该菌能够通过外膜上的纤维素吸附蛋白与纤维素结合,进而高效地降解纤维素结晶区。C.hutchinsonii不分泌游离的纤维素酶,也无纤维小体结构,研究证实这是一种全新且尚不清楚的纤维素降解策略,揭示C.hutchinsonii的纤维素降解策略对纤维素生物质资源的转化及利用
全球海洋中有丰富的藻类。海藻多糖可以为海洋中的异养细菌提供碳源。海洋藻类多糖种类丰富,包括红藻中的琼胶、卡拉胶,褐藻中的褐藻胶及绿藻中的石莼多糖和阿拉伯半乳聚糖。褐藻酸是由β-D-甘露糖醛酸(M)和α-L-古罗糖醛酸(G)两种单体通过β-1,4糖苷键连接而成的褐藻多糖。根据褐藻酸分子中单体的排列顺序分为聚甘露糖醛酸片段(PM)、聚古罗糖醛酸片段(PG)和甘露糖醛酸-古罗糖醛酸杂合片段(PMG)。褐
学位
气孔是由两个高度特化的保卫细胞合围而成的孔隙。渗透压的改变引起保卫细胞收缩或膨胀进而导致气孔发生运动,这对于植物进行光合作用和蒸腾作用过程中的气体和水分交换至关重要。在经典的植物生理学中,关于调控气孔运动的机理存在两种假说:离子泵假说和淀粉-糖假说。随着分子生物学的不断深入研究,越来越多的实验数据支持离子泵假说,而对于淀粉-糖假说的实验证据却比较少。  淀粉是植物体中碳水化合物的主要储存形式。为适
氮氧化物是煤粉燃烧过程中释放的主要大气污染物之一.降低氮氧化物的排放需要从氮氧化物的生产和破坏机理出发,目前国内外对氮氧化物生成破坏机理并不是完全明确统一.针对这一情况,本文对煤热解和燃烧过程中氮氧化物的生成规律和控制进行了基础性研究.首先,在固定石英床中对十种不同煤种(包括4种无烟煤、3种烟煤和2种水煤浆及它们的制浆原煤)的煤进行热解实验,研究不同热解温度、不同停留时间、煤质、以及水蒸汽气氛对煤
学位
人在说谎时,由于环境压力所引起的心理变化会导致生理参数的变化,如皮电、脑电、血压、声带系统等,通常这些参数只受植物神经制约而很难受意识控制。基于这些生理参数对说话人言语真实度进行评测的方法称为言语置信度评测,通俗而言即谎言检测。早期的言语置信度评测指标主要以多道生理参数为主。然而,该方法需要佩戴各种专业设备来检测生理参数的变化,要求测试对象的高度配合,因此很难在实际应用中推广。因此,近来有学者基于
学位
为了适应呈指数增长的移动业务需求,未来通信网络需要从多方面深度挖掘数据特性以提升网络性能。基站侧缓存方案针对视频文件的需求特性,通过在非高峰时刻将流行文件存储在基站缓存,可以大大降低高峰时刻回程链路的负载和时延,被认为是未来超密集网络极具潜力的研究方向。其中,随机缓存(RC,random caching)方案通过在不同基站的缓存中存储不同的文件集合,使得在网络中所有基站缓存中所存储的文件数目超过单
以用户为中心(User-Centric)的非蜂窝网络,是指由若干个中央处理器控制分布在各处的接入节点(AP)形成的移动通信网络覆盖架构,由于这种架构并无传统的蜂窝结构,而是以每个用户为中心激活若干个AP为之服务,因此称为以用户为中心的非蜂窝网络,本文也简称为非蜂窝UC网络。研究表明,由于非蜂窝UC网络拉近了移动用户与AP的平均距离,增加了频谱在空间上的复用度,所以能极大提升网络的频谱效率和能量效率
学位
克劳德·香农在1948年发表的划时代论文“A Mathematical Theory of Communica-tion”,标志着信息论的诞生。时至今日,信息论已经从单一的理论论文发展到具有广泛研究领域的重要学科。一个毋庸置疑的重要贡献便是推动了通信理论的高速发展,从最初的信道容量定理衍生出包括网络信息论、网络编码、错误指数、强逆定理等重要的研究分支和研究方向,贡献了大量令人印象深刻的开创性结论。
学位
支持D2D传输(D2D-underlay)的蜂窝通信技术,允许蜂窝系统中距离较近的用户在基站的控制下进行数据直传,从而可以极大节省系统功率和频谱资源,因此成为5G及B5G系统的关键技术之一。对于D2D-underlay蜂窝通信系统,如何合理规划D2D用户和蜂窝用户的链路参数,降低D2D用户和蜂窝用户之间的干扰是实现D2D-underlay系统高效运行的关键。本文围绕该问题,以D2D-underla
学位
随着计算能力的提升,尤其是量子计算的发展,传统的密码方案遭受着越来越多的挑战。为了应对这些潜在的安全威胁,人们迫切希望找到一些更加安全(如抗量子攻击)的新型密码方案。格密码因其高效、可证明安全和支持同态加密的特性,获得了越来越多的关注。其中,如何通过格密码获取与传统密码方案相同或类似安全需求的格密码方案是一个重要的研究方向,比如基于格的公钥密码方案和基于格的代理重加密方案等。  本文以格密码和格困