体育视频中音频分类技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:owennb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着视频压缩技术,硬件存储设备和网络传输技术的快速发展,视频、音频、图像等多媒体数据作为一种动态、直观和形象的数字媒体,承载了大量丰富的语义信息,广泛应用于各类信息服务和应用场合。   音频是多媒体信息的重要组成部分,是多媒体内容分析和理解的有效线索。鉴于原始音频数据本身是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的处理和分析带来很大困难,因此如何自动而高效地从海量音频数据中提取音频中的结构化信息和高层语义是音频信息深度处理、基于内容的检索和辅助视频分析等工作的关键问题。基于内容的音频分类技术是解决这一问题的关键技术,是音视频内容分析、理解和检索的基础。   本文的工作围绕着基于内容的音频分类技术而展开,并针对体育视频中的音频分类问题,即音频关键字检测问题进行关键技术研究。研究工作涵盖了音频的层次化结构分析、底层音频特征的分析和提取以及基于统计理论的分类器设计。本文取得的研究成果如下:   1.提出了基于AdaBoost模型的音频分类方法。其主要思想是通过自适应地组合弱分类器以得到增强分类器。与其它统计学习方法相比,这种方法准确有效、计算复杂度小,具有很好的泛化能力,并且可以在训练过程中自动选择分类效果更为有效的特征。   2.针对类别不均衡的情况,提出了一种集成的自提升欠采样策略。其核心思想是对训练集中的大类样本进行多次欠采样,在相对均衡的样本集上训练弱分类器,最后合并多个弱分类器,得到总体分类器。采样的过程是有监督的,借鉴AdaBoost的思想指导采样的过程。通过这种方式,可以降低类不均衡问题所带来的不利影响,同时最大程度得保留大类样本中的有用信息。   3.针对跨领域音频分类问题和同领域多类别分类问题,研究了多任务学习方法以及在音频分类中的应用。此方法的核心思想是从源域的未标注数据集中学习到最富有预测能力的低维映射特征向量,再将其应用于目标域的分类问题。这种方法的优点在于可以深度挖掘大量未标注数据的有用信息,并且可以解决跨领域的音频分类问题,具有一定的通用性。   综上所述,本文研究了音频分类的核心问题,并针对体育视频自身的特点,提出了有效的音频关键字检测算法。
其他文献
随着信息技术和多媒体技术的快速发展,视频监控的应用场景愈加广泛。传统的本地视频监控已经不能满足人们的监控需求,人们对于远程视频监控的需求日益强烈。但是视频数据量较
随着科学技术的进步和社会物质的富足,人类社会的分工合作趋于精细化和网络化。当前人们处于形形色色的复杂网络中,如以互联网为载体的各种社交网络、出行中所形成的交通网络、
互联网的出现从本质上改变了整个社会的办公、管理、经营模式,国内各大企业从20世纪90年代开始,就有了通过网络进行办公、管理、经营的想法。并随着互联网技术的发展,基于客户机
本研究课题来源于广东省自然科学基金项目“NSCLC生物适形调强放疗靶区智能识别及自适应控制”,作者主要负责医学图像的配准融合部分的工作。 医学图像配准融合是医学影像
SIP协议(Session Initiation Protocol , RFC 3261)已经成为IP通信的主流信令标准,无论NGN还是FMC、源自3GPP的IMS,均以SIP信令为核心;另一方面,一些专有协议的IP通信应用已
Internet的迅速普及使得网络新闻成为民众掌握时事与获取各类最新信息的重要途径,但是在海量信息中找到自己关注的新闻及新闻话题也绝非易事。为了让人们能够快速地从新闻中获
学位
当今社会中,随着信息技术的发展,数字电视、计算机和通信三大传统产业的互相渗透和融合,使得视频信息的传递日益成为人们通信的重要内容之一。但是由于视频信息本身就非常庞大的
软件在航空航天应用中所占的比重越来越大,软件质量对于航空航天系统的可靠性也变得越来越重要。为了引进更先进的计算机技术,缩短研制周期,降低研制成本,航空航天领域中的嵌
学位
语义桌面是语义Web研究的重要分支,它将语义Web技术应用到桌面管理系统,用知识本体对桌面资源进行描述,改变现有的以文件夹组织文件的管理方式,提供精确查询,用户无需关心文件的存
学位
Ad Hoc网络由于其具有不需要基础设施、多跳、分布式控制、节点低能耗和移动性等特点,使得基于有线网络的协议和规范并不适合于Ad Hoc网络,因此必须重新设计新的协议来满足Ad H