面向嵌入式通用GPU的跟踪算法映射与优化

来源 :东南大学 | 被引量 : 0次 | 上传用户:gf_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GPU技术的发展,利用GPU的计算资源来提高计算效率已经成为一个必然的趋势。目标跟踪是计算机视觉领域的重要研究课题之一,其算法大都采用CPU串行计算,并没有考虑GPU的计算资源,执行效率有待提升。本文针对应用最广泛的均值漂移(Mean Shift)目标跟踪算法,通过开放式计算语言(Open Computing Language, OpenCL)将其映射到嵌入式通用GPU上并进行优化,提升算法性能,同时为其他同类算法优化课题研究提供参考依据。  本文对经典的目标跟踪算法Mean Shift进行了深入分析,研究了Mean Shift算法在目标跟踪上的应用。接着利用OpenCL实现了并行Mean Shift目标跟踪算法,主要编写了6个内核用来完成Mean Shift目标跟踪算法各个部分,包括判断每个像素属于哪个直方图区间、计算目标模型、衡量目标模型与候选目标模型相似性和估计目标中心位置等。本文使用的是Mali-T604 GPU,为了充分发掘Mali-T604 GPU的性能,本文对并行Mean Shift目标跟踪算法进行了优化,来提升其性能。包括三部分优化,分别是:代码优化、内存优化和工作组优化。代码优化把内核中的算法矢量化,以便充分利用Mali-T604 GPU硬件资源;内存优化使用内存映射,可以让CPU和Mali-T604 GPU不经拷贝就能访问数据;工作组优化合理设置工作组数目,在Mali-T604 GPU上可以获得更高效率。  论文在基于Exynos5250应用处理器的Arndale开发板平台上进行了功能测试和对比测试。测试分析结果表明:经过代码优化后的并行算法相比CPU上的算法,获得了最低1.37倍加速;经过内存优化后的并行算法相比CPU上的算法,获得了最低1.55倍加速;经过工作组优化后的并行算法相比CPU上的算法,获得了最低1.23倍加速;经过三种优化后的并行算法相比CPU上的算法,获得了最少2.34倍加速。
其他文献
本论文主要研究了VLSI中微米特征尺寸Al互连线在电热条件、互连线制备和随后的热循环过程中的应力分布;得出了互连线应力状态随电流密度、温度、钝化层材料、热循环过程等的变
随着信息技术的发展,管理信息系统已成为当今社会各个领域不可或缺的管理工具,它可以提供便捷、准确和全方位的服务,帮助管理人员对各类信息数据进行有机的系统管理。体育信息化
本文结合教育教学实践,在调查研究的基础上,对影响中职学生幸福感的因素进行了分析,并对中职学校的教育工作者如何让学生幸福成长进行了阐述。
目的:构建MCL1基因(myeloid cell leukemia-1)沉默表达载体,稳定转染含双微体(double minutes,DMs)的卵巢癌细胞系UACC-1598和不含双微体的卵巢癌细胞系SKOV3中,探讨MCL1基因在这
求解两个大素数的乘积在计算上非常容易,而要分解两个大素数的积求出它的因子则是世界上公认的数学难题。RSA算法正是一种基于大数因子分解的算法。RSA算法在数据加密和数字签
学位
本文在对超高频电子标签的相关理论和技术进行深入分析的基础上,根据ISO/IEC18000-6TypeA型协议,对工作在915MHz频段的电子标签的模拟前端电路进行了研究和设计。 首先对整
目的:研究遗传性因素对房颤的影响。利用β-受体激动剂可以诱导心肌损伤,使心肌细胞出现凋亡与坏死,但其作用机制一直不是很清楚。MiRNA作为心血管疾病潜在的诊断生物学标志和新
最近几年来,无线通信技术逐渐走向成熟,随之无线通信系统也被广范的应用在军事、民用等各个方面。射频电路是无线通信系统的前端装置,随着小型化设备需求增加,对射频电路的要求也
随着智能手机与平板电脑等移动智能终端设备的迅猛发展,交互式应用逐渐替代传统计算密集型应用,成为决定用户体验的关键因素。交互式应用,如高清视频,高保真音频,高分辨率3D动画,动