【摘 要】
:
机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音频检索。其中,语音信号处理与识别是一个传统的研究热点,随着音频数据的海量增长以及语音识
论文部分内容阅读
机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音频检索。其中,语音信号处理与识别是一个传统的研究热点,随着音频数据的海量增长以及语音识别技术的相对稳定和成熟,音频检索逐渐成为了信息检索领域内的一个新的研究热点。音频检索研究如何从大量音频信息中快速准确地检索满足要求的音频数据。与语音识别技术相比,音频检索处理的数据是更一般的波形声音信号(包括语音和音乐),其研究成果可广泛地应用于远程教学、卫生医疗、数字图书馆、环境监测、新闻和娱乐节目的索引与标记等领域。本学位论文研究了利用图像配准方法的音频数据快速检索算法,简称FAR(Fast Audio Retrieval)。首先,采用音频处理中的短时分析技术将音频数据划分成一个个短时帧,并提取其MFCC特征参数;其次,将音频短时帧的特征参数MFCC转换为二值图像;最后,采用图像配准的方法对测试模板和参考模板的MFCC特征参数进行模板匹配,计算两个模板之间的匹配程度,并将该结果作为两个模板间的相似性测度输出。实验表明,利用图像配准方法的音频数据快速检索算法与基于DTW算法的音频检索算法相比,在检索的召回率、准确率以及F-指标等方面都有较大的改善,而且采用了图像配准的方法,算法的执行效率也优越于DTW方法。因此,本学位论文提出的FAR算法可用于基于内容和语义的音频检索技术中。
其他文献
智能文档技术是政府和企业办公自动化中安全电子文档技术的最新研究课题和未来发展趋势。它的出现使得数据从静态孤立的点变成了动态连续的流。本文分析了Adobe公司和微软提
随着计算机技术、通信技术以及自动化技术的长足发展,办公自动化(OfficeAutomation简称OA)的应用逐渐为人们所重视。 本文首先对工作流技术进行了探讨。从工作流管理技术出
随着国内外市场的日渐扩大,国内软件产业近年来取得了持续高速发展,占国内软件企业大多数的中小型软件企业,在良好的发展环境下,技术水平和管理水平上都有了较大的提高。但是,中小
为了应对蜂窝网络服务提供商(CSP)面临的严重的蜂窝网络流量不足的问题,将部分蜂窝网络流量通过已有的代替无线网络,例如微蜂窝和WiFi网络,是一种很有前景的方案。现有的大多
流媒体是指多媒体数据流在网络上一边传输一边播放的一种多媒体通信服务。它涉及计算技术、多媒体压缩技术、存储技术和高速网络技术等。广泛用于远程教育、远程医疗、视频点
论文首先综述了基于移动代理的入侵检测系统;然后在总结入侵检测系统的形式化开发技术相关研究工作的基础上提出了一种新的系统形式化开发技术;最后说明了在基于移动代理的IDS
随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。互联网上的信息呈爆炸性指数级增长,同时
地理信息系统充分利用人类在拓扑学方面的成就处理点线、线线、线面这些空间要素之间的逻辑关系,并且根据人们日常生活中的需要,利用这些要素及其关系构建起更加复杂的空间对象
由于传统博弈表示方法存在的效率低、结构模糊等方面的问题,新的博弈表示方法,即结构化图形博弈模型相继出现。其中,多-Agent影响图(MAIDs)及建立在其基础之上的影响图网络(NIDs
本文主要以MPEG-2视频素材为研究对象,研究将其转码成MPEG-4视频数据的转码系统。本转码系统以从MPEG-2视频码流中获取的运动向量为基准运动向量,缩小搜索窗的范围,减少MPEG-4编