论文部分内容阅读
随着装配有GPS接收器的摄像机与移动电话的普及,一些带有GPS标签的视频被上传到了网络视频分享平台上。这些反映视频拍摄地点的GPS标签触发了众多基于地理位置的网络视频应用,包括基于地理位置的网络视频检索、基于地理位置的网络视频广告投放和基于地理位置的网络视频舆情监控等。但是由于绝大部分网络视频仍然没有GPS标签,从而阻碍了这些应用的进一步发展。因此,迫切的需要提供高效、准确的网络视频地理定位方法。
本文的目标是让计算机自动的确定网络视频的拍摄地点。对于没有GPS标签的视频,现有的基于内容的网络视频地理定位方法都尝试从视频的文本和视觉内容中发现明显的地理线索(文本信息中的地名或者视觉信息中的地标场景)来确定视频的拍摄地点。但是大量的网络视频都没有明显的地理线索,造成了现有的基于内容的网络视频地理定位方法所能定位的视频范围有限,不具有普适性。而在Web2.0环境下,视频除了传统的视觉和文本信息外,还具备丰富的社会信息,这些多模态信息为网络视频地理定位带来了新的机遇。对这些多模态的信息加以有效的利用,可能会突破现有方法的不足,进而提高网络视频地理定位的普适性。因此,如何对网络视频环境中的社会信息与传统的视觉与文本信息进行有效的地理建模与挖掘,实现融合多模态信息的网络视频地理定位,进而提高网络视频地理定位的普适性成为一个重要的研究问题。
本文旨在对网络视频环境下视频的多模态信息进行地理建模,挖掘其中具有丰富地理信息的特征,以这些特征为基础,研究基于多模态信息的网络视频地理定位方法。本文取得的研究成果如下:
1.多模态信息的地理一致性度量方法
从纷繁复杂的多模态信息中寻找那些具有丰富地理信息的特征是网络视频地理定位的基础。通过对一个包含650万带GPS标签的真实网络视频数据集进行统计分析,本文提出了一种地理一致性度量方法来计算每种特征所包含的地理信息。基于该度量方法,分别对网络视频中各特征所包含的地理信息进行量化,从中发现了具有地理一致性的文本特征,视觉特征与社会特征。以这些特征为基础,本文开展了网络视频地理定位研究。
2.基于社会特征的网络视频地理定位方法
针对两种具有地理一致性的社会特征(相关视频关系与同作者视频关系),本文提出了基于社会特征的网络视频地理定位方法。该方法首先根据具有地理一致性的相关视频与同作者视频两种社会关系构建了视频社会网络,以此为传播网络,提出了一种基于贝叶斯模型的标签传播方法对地理标签进行传播。本文第一次提出了根据社会特征来实现网络视频的地理定位,该方法不仅能定位那些具有明显地理线索的视频,对于不具有明显地理线索的视频也可以取得较好的定位结果。实验表明该方法比现有的基于内容的网络视频地理定位方法的定位准确率提高达到了117%。此外,为了进一步验证该方法的有效性,本文实现了一个在线的网络视频地理定位系统,可以对用户输入的网络视频进行在线地理定位。
3.融合社会、视觉和文本特征的网络视频地理定位方法
除了社会特征外,本文也提出了具有地理一致性的视觉和文本特征。这些特征从不同角度描述了视频社会网络中各节点的地理一致性。因此,本文尝试对多模态加以有效的融合和利用,提出了融合社会,视觉和文本特征的网络视频地理定位方法,试图进一步提高网络视频地理定位的准确率。本文将网络视频地理定位问题建模成一个寻找多模态特征地理一致性最大化的优化问题,并提出了一个迭代过程求解优化目标。实验表明该方法与前面提出的基于社会特征的网络视频地理定位方法相比,定位准确率再次提高了61%。最后,为了进一步验证该方法的有效性,本文提出了两种基于地理位置的网络视频应用来对视频地理定位的结果进行可视化验证。