自然场景视频文字检测与在线跟踪方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：ade4444

【摘要】

：

【作者】

：

梅锦鹏

【出处】

：

华中科技大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字是人类最伟大的发明之一,它承载着丰富的语义信息,在人们的生活中扮演着举足轻重的角色。随着移动互联网技术的快速发展与电子设备的普及,人们进入了一个大数据时代,互联网上充斥着海量的视频数据。视频中的文字信息往往能够更加准确的表达视频的关键内容,文字对于图像处理和视频分析起着至关重要的作用,因此如何准确、高效的从视频数据中提取和分析文字信息成为了近年来人们关注的焦点。自然场景文本相对扫描文档更具有挑战性,其背景复杂多样,多种语言混合排列,文字区域可能会产生变形、残缺、模糊等现象,视频中的场景文本则更具有运动模糊、失焦等问题。现有的文字检测与跟踪算法通常是将其分为两个部分:首先建立文本检测器,检测视频中的文本,然后搭建跟踪框架,将检测的结果利用跟踪算法进行前后帧的数据关联。这些方法使得整个系统增加额外的计算成本,而且将检测与跟踪两个任务相分离,没有运用到彼此的监督信息。基于此,本文通过结合卷积神经网络和匈牙利匹配、卡尔曼滤波相关联的方法对视频中的文字检测与在线跟踪进行深入研究,本文的主要工作如下:（1）针对场景视频文字检测设计了一种高效的多方向文本检测网络。该网络以特征金字塔结构产生不同分辨率的特征图并进行特征融合,通过神经网络学习的方式获得带旋转角度的锚框,然后以这些经过神经网络优化后的锚框为基准,在特征图上匹配可能存在的文本框。通过级联的方式直接预测每个像素点的类别与相对于锚框的偏移量,设计了特征精炼模块,将第一级的输出框与特征点对齐。实验证明,该检测器能够检测水平方向和多方向的文本,能够以近实时的效率运行,在ICDAR2015数据集上取得了81.6的F分数,优于现有的一阶段文本检测器。（2）场景文本的视频往往具有模糊、失焦、遮挡等现象,本文将前序帧的特征图输入到设计的特征调整网络中得到前序帧向当前帧调整的特征图,然后计算调整后的特征图与当前帧的特征图之间相关性权重并进行归一化,最后该权重对每个前序的特征图进行空间位置加权,以加强视频文字检测的特征。（3）提出了端到端可训练的视频文字检测与在线跟踪框架。跟踪模型与检测网络共享特征提取网络的权重,直接在检测网络的基础之上添加了跟踪的表征模型分支,并且将训练的表征模型与检测的结果相融合,此外结合文本的特点,将文本实例的特征表示与文本的语义信息相结合,以此作为文本数据关联的比对依据,使用在线跟踪的方式,利用匈牙利算法对前后帧的文本进行数据关联。端到端的检测与跟踪框架减少了跟踪分支的特征提取,并且充分利用彼此的监督信息,整个系统在速度与精度上达到了良好的权衡。

其他文献

移动设备室内定位系统的设计与实现

精确地确定行人在室内环境下的位置信息在当今生活中越来越重要。随着智能移动手机和无线网络环境的普及,如何利用智能手机与部署在室内环境中的无线接入点对行人进行定位具有重要的研究意义,可用于广告推送、人员监控等领域。目前大多数的室内定位方法在实际的应用场景中还存在一些便捷性和精度上的问题。为了设计并实现定位精确的室内定位系统,实现了基于行人航位推算和无线接入点的两种定位方法。行人航位推算方法通过获取智能

学位

车流特征对车联网路由协议性能的影响研究

车联自组织网络,即车联网,作为物联网的子集和重要组成部分,其相关研究是未来智慧交通、智慧城市的重要一环,也是无人驾驶技术的可靠性保障。车联网通信技术主要指配备通信设备的车辆与车辆之间的通信技术,而车联网的通信节点——车辆具有高移动性、海量性等一些特性,使得车联网与传统的移动自组织网络不同,具备独特的网络特性和通信要求,因此车联网路由协议研究一直是车联网研究的重中之重。目前关于车联网,尤其是车联网中

学位

行星轮式无人平台非结构地形通过性仿真研究

人类长久的生活在地球上,对地球上各个领域进行了探索,随着科技的进步,更多追求的是对野外地域的探索,而这些地貌呈现的都是非结构化的形式,对这种复杂环境下的探索,需要无人平台来完成。目前人类研发出了普通轮式、履带式、摆臂式等无人平台,这些无人平台能够帮助人类完成人类自己难以完成的任务,如极地探险、现场排爆、火场救援等。然而这些无人平台也存在很多缺陷,如在野外非结构地形下普通轮式无人平台的通过性能差,履

学位

基于多时相图像的打击效果评估技术研究

打击效果评估在现代化战争中应用广泛且具有至关重要的作用。在现代化战争中,精确地获得战场打击信息对于军方打击目标选择、战场态势监测、惯导制导乃至战略决策具有重要作用;打击效果评估结果已经成为了军方制定各类军事决策的重要参考基础。本文对国内外打击效果评估技术进行了相关研究,并提出了一种基于多时相图像的打击效果评估技术的流程以及流程中的各相关算法。论文主要内容如下:采用了一套图像预处理相关方法,包括基于

学位

航发薄壁叶片数控铣削变形误差补偿技术研究

叶片作为航空发动机中的核心零件,其加工质量直接影响着发动机的气动性能。近年来,为了提高发动机的推重比,叶片的设计逐渐趋向薄壁化。在数控铣削加工过程中,薄壁叶片由于其造型复杂,曲率变化大,刚度低等特点,容易产生弯曲、扭转变形以及局部欠切等问题,使得加工质量难以保证。本文基于叶片测量点集数据,提出针对弯曲、扭转变形和让刀误差的补偿方案。根据变形产生的大小和方向,对叶片各区域的误差进行差异化补偿。主要研

学位

基于WIFI协议测试系统的Portal模拟认证系统及上位机的开发实现

随着移动互联网技术的飞速发展和智能终端设备的更新迭代,WIFI的应用与日常生活紧密相连,公共场合需要通过网络认证的方式保证用户连接的私密性和安全性,而在现行的网络认证方案中,Portal认证方案因搭建快捷、维护成本低,应用最为普遍,但其对无线终端设备的要求高,因而在无线终端设备的测试和开发过程中,需要一套Portal认证模拟系统还原Portal认证的基本场景以及一些特殊场景。本文以横向合作项目“基

学位

基于指令序列的数据预处理及语义提取

分析程序是否存在恶意行为是保护用户信息安全的有效措施之一。基于指令序列的恶意行为分析技术作为目前主流的恶意行为检测手段,它通过收集程序运行时的指令控制流信息,还原程序真实的运行轨迹,识别程序的行为特征。然而,指令流采集和还原执行轨迹仍存在以下主要问题:一方面,高性能开销的指令流采集系统与真实用户环境中程序运行存在巨大的时长差,易被恶意程序发现并产生逃逸行为;另一方面,记录过程采集的无效数据给还原过

学位

基于立体视觉的目标识别与姿态估计

随着人工智能和计算机视觉技术的发展,工业生产的自动化程度也逐步提高。非接触式的自动化测量技术是工业生产中的重要内容,利用计算机视觉技术可以解决自动化测量中的关键问题:目标识别和姿态估计。近年来,基于深度学习的方法不断发展,逐渐取代了人工提取特征的方法。点云数据是三维数据的重要表示方式之一,相比于二维图像,点云数据包含了物体深度等更多信息,它的表达方式也相对简单,可以作为深度学习模型的输入。本论文基

学位

基于区块链的网上投票系统的设计与实现

自古以来,投票就是一种体现民主公正的存在形式。随着当代社会的发展和技术的进步,投票采用的形式也从举手计数转变为线上投票计数。然而,当今线上投票系统大多依赖于一个中心化的服务器,普通用户无法得知自己所投出的票是否被后台管理员或利益相关者恶意篡改,即无法验证票据信息的真伪,做不到信息的公正公开。随着区块链技术逐渐进入人们的视野,人们意识到区块链技术具有不可篡改、去中心化、可追溯等优点,数据一旦存入账本

学位

球囊霉素相关土壤蛋白的分离纯化及性质分析

球囊霉素相关土壤蛋白（GRSP）是丛枝菌根真菌产生的一种糖蛋白物质,其性质稳定,不溶于水且耐高温。GRSP在土壤团聚体形成中起重要作用,可以提高土壤团聚体的水稳定性;GRSP作为一种有机质可以为土壤提供大量碳源;同时也能够吸附固定土壤中的重金属元素,对重金属污染土壤生物修复有重要作用。然而,基于目前的提取纯化方法得到的球囊霉素纯度不高,难以用于其结构及性质的分析。本研究采用柠檬酸钠提取法分别从土壤

学位

自然场景视频文字检测与在线跟踪方法研究

其他学术论文