论文部分内容阅读
时序动作定位任务需要识别出一段长视频中的动作类别以及动作的起止时间,候选区域的选择是影响到识别效果和效率的重要因素。提出一种基于时空特征融合的候选区域提取网络,充分利用视频分割段的时间特征和空间特征来判断是否为候选区域。接着将候选区域输入到训练的CDC网络中进行帧级粒度上的动作分类。最后训练动作状态检测网络,对得到的候选区域进行修补,从而可以得到更为精确的动作发生的时间区域。在THUMOS14数据集上进行实验,结果证明该方法可以有效地进行未剪辑视频的时序动作定位,相对现有方法达到了较高的精度。