基于地理信息的多媒体语义挖掘及跨媒体检索技术

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lgx9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理定位设备的普及和地理信息技术的发展使得地理标注服务日渐流行。另一方面,随着新媒体时代社交分享观念的不断渗透,用户们越来越乐于将所创作的图片、视频、文字等内容通过互联网社交媒体平台进行共享。以上两者的共同作用促成了互联网地理标注媒体数量的飞速增长。  地理标注媒体具有地理聚焦、多模态、非结构化、特征多样化、快速更新等特点,其所含的位置信息或反映了媒体对象的产生地点,或反映了对象内容的主题地点,为人们进行地理相关的信息检索与知识发现提供了丰富的数据基础。此外,地理标注媒体通常还包含社会化标签、时间、作者等元数据以及内容特征。利用地理信息和其他特征间的潜在联系对挖掘研究大数据背景下的地理-视觉、地理-语义模式,研究大众行为和地理位置间的潜在关系,满足用户的多样化地理信息需求有着十分重要的意义。  本文的主要研究对象是地理标注图片与文本,也是地理标注媒体的常见形式。海量地理标注图片与文档的出现在多媒体、信息检索、计算机视觉等领域掀起了地理感知的热潮,同时也给多媒体数据挖掘和检索领域带来了全新的挑战。本文从用户对信息获取的需求出发,分析了现有方法在地理标注媒体语义挖掘和检索上的不足,研究基于地理信息的多媒体语义挖掘及跨媒体检索技术。  首先,现有的地理标注图片集组织方法未能重视图片的地理语义鸿沟问题,因而难以有效地辨别地理歧义,消除错误标注信息的噪音干扰。为解决这一问题,我们提出了可辨别歧义的地理标注图片集组织方法,利用图片的地理坐标和增强后的语义标注进行双层聚类。在地理聚类中,我们提出了密度可调节的聚类方法对地理标注图片集进行快速分割。为解决用户标注不完整和同义词比较问题,我们利用搜索引擎和外部词语数据库对图片进行语义增强,并提出了一种语义相似度计算方法以突出具有高地理代表度的标签的影响。最后,我们运用谱聚类算法进行二次语义聚类,并提出一种自动估计参数的方法。在大规模Panoramio图片数据集上的实验显示我们的方法能够生成物理和语义地理属性都更为一致的聚类,从而有效地辨别地理歧义。  其次,已有的游记地理信息挖掘方法只注重对游记内容的理解,却忽略了对游记文本结构的探索,因而所产生的摘要是平行式的,无法展现游记内容的层次结构,摘要具有不同地理分辨率的地点的特征。此外,这种方式产生的知识表达其各概念间缺乏联系,导致出现语义完整性问题,且描述力欠佳。为此,本文提出了一种层次化的游记地点知识挖掘方法。我们首先提出了一种地理实体消歧方法,用于消除地名歧义,鉴别出与主题相关的核心地理实体。基于所识别出的核心地理实体,我们提出了游记的内容分割方法,将它们与游记中的描述片段相对应。最后,我们基于词间的依赖关系和图模型提出了一种为不同粒度的地理实体构建地点概念网络的方法。在TravelPod游记数据集上的实验证明了本文方法的有效性。  再次,我们研究了地理标注图片和文本的跨媒体检索问题。目前研究界还没有专门针对地理标注数据的跨媒体检索方法,但在地理相关的跨媒体推荐中已经出现该类需求。传统的跨媒体检索方法未能突出各模态数据在地理上的联系,因而并不能直接适用。本文提出的面向地理标注图片和文本的跨媒体表示模型,通过将不同模态的地理标注数据嵌入公共的地理语义空间,生成复合的数据转换表示。与传统跨媒体方法借由人工定义公共表示空间不同,我们提出自动构建复合媒介空间、自动对训练集进行语义标注的方法。我们基于支持向量机的排序学习方法训练地理语义嵌入模型。在检索阶段,我们提出了基于地理语义复合度量的融合检索模型。在TravelBlog游记数据集和Flickr图片数据集上的实验验证了本文所提模型的有效性。
其他文献
无线传感器网络因其多学科的交叉性和广泛的应用前景得到了越来越多的关注。安全机制的研究是传感器网络广泛应用的基础,但传感器网络的资源受限、无线通信的易毁性以及物理安
汉语隐喻处理是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的中心地位,从计算语言学和自然语言处理的角度来考虑,隐喻问题若不能得到
三维人脸网格模型器官分割是颅面重构研究的子课题,颅面重构研究是依据颅骨的特征,复原出人脸的面貌。研究三维人脸器官分割,可以为颅面重构的结果提供器官模型,使复原结果更加真
由于具有良好的可扩展性、可用性、高性价比,机群结构已经成为高性能计算机的主流结构。使用机群系统进行复杂科学计算的需求日益增长。由于科学计算应用规模越来越大,复杂度越
随着互联网和信息技术的发展,网络上信息资源越来越丰富,信息的格式也多种多样,包括了文本、声音、图像、视频等媒介。信息的安全传输和展示成为一个需要解决的问题,信息的识别是
光照是影响成像的关键因素之一。当光照条件变化时,同一物体的不同成像之间的差异极大,有时甚至大于不同物体的成像之间的差异。在很多目标识别应用场景中,光照又常常不受人为控
数字化技术和网络的发展推动了海量数据的产生、共享与应用,使得科学与工程研究日益成为数据密集型的工作。包括大气科学在内的部分学科领域的数据密集型分析过程是由若干相关
学位
数据挖掘可以发现采用传统分析方法所无法发现的有用信息,因此具有重要的理论和应用价值。但是传统的数据挖掘算法的研究大多是在一些理想数据集基础上进行的。在现实世界中,数
随着超大规模集成电路的发展,处理器性能不断提高,访存系统的性能与处理器运算能力的差距越来越大。现代多核处理器设计成为主流,对内存访问带宽提出了更高的要求。为此,提高内存
随着网络带宽的快速增加和E-Science中对大量科学数据传输的需要,很多长距离高速网络相继出现,并在诸多领域发挥着重要的作用。但现有的TCP协议作为广泛使用的传输控制协议也面
学位