论文部分内容阅读
信息时代来临,信息在社会发展中的地位尤为重要。多媒体数据作为一种综合的信息载体,日益成为信息传播的主要媒介。新闻视频在多媒体数据中具有真实性、时效性与准确性。对新闻节目内容的自动解析成为当下的重要需求。传统视频检索多基于整个视频的文本信息,如题目、日期、简介等,缺乏基于内容的自动标注及索引,具有很差的用户体验。通过新闻内容解析,将新闻节目视频分割成主题独立的故事单元,并对故事单元做内容分析,自动提取有价值的信息。这样可以建立针对主题内容的新闻故事索引,并且提升用户浏览体验。因此,本文重点研究了新闻节目内容的解析方法。与传统方法比,本文的创新工作及成果如下:
设计并实现了一种基于多特征、人脸聚类的新闻节目主持人检测的方法。在对新闻视频进行镜头分割、关键帧提取、人脸检测的基础上,对人脸图像提取多中图像特征,并进行特征融合,人脸差异度计算,通过图聚类检出主持人脸类,最后加入有效的后处理手段提高了方法的准确率和鲁棒性。其中多特征的探索与融合是本研究的创新与重点。
基于主持人将新闻视频分割为若干段落场景,进行相似场景的融合,使得新闻视频分割为语义层次的新闻故事单元。以主持人为分割的相似场景多出现在新闻访谈节目中,因此本文提出了一种线性聚类的方法合并相邻的访谈场景。继而对新闻访谈单元进行了主人物分析,提取出主人物,以方便浏览与检索。这是研究的又一个创新。
本文的研究方法在来自法国6个电视台的43个新闻节目视频上做了测试,取得了良好的效果。其中,主持人检测的综合F-Score达到了92.26,尤其在M6和TF1电视台的新闻节目中分别得到了96.97和96.54的F-Score;而新闻访谈场景融合在测试集上的F-Score取得97.00以上,其中准确率达到了接近100%的精度。