End-to-End Mobile Phone Recognition Based on Deep Representation Learning

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：chinababay

【摘要】

：

【作者】

：

刘义

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2021年01期

【关键词】

：

LSTM CNN 注意力机制基于音频的移动手机识别

【基金项目】

：

National Natural Science Foundation of China（No.61901165,61501199）； Science and Technology Research Project of Hubei Education Department（No.Q20191406）； Hubei Nat

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数字媒体取证主要判断数字媒体文件的真实性、完整性和来源性,能够协助解决新闻、司法、军事等领域的安全问题。由于数字媒体编辑软件的便捷化和简单化的发展,其较低的使用门槛使得作为当下主流的数字媒体软件能够轻易直接的投入社会。这些无法直观辨别真伪的数字媒体文件若被不法分子利用,则会给人类生活造成严重影响。这使得数字媒体取证在近二十年里逐渐成为热点话题。相较于数字图像取证的蓬勃发展,数字音频取证作为一个新兴的类别受到越来越多的重视。其在新闻、司法、军事等领域能够发挥巨大作用,能够有效规避风险,对司法判决和社会秩序稳定有着重要的意义。基于音频的移动手机识别是数字音频取证中的一个分支,其旨在不借助嵌入水印或签名等辅助信息,通过提取同一手机录制音频存在的内在共性识别记录待测音频的手机。其内在共性表示不同手机之间由于内在结构和软硬件的不同的共同作用使得所录制音频存在某种差异。理论上,认为这种误差为独一无二的,称为手机的机械指纹。目前基于音频的移动手机识别方法主要由两个方面构成,一是特征提取,二是模型表征。特征提取旨在通过音频处理技术,从数字音频中提取出能够表征录制音频的源设备的内在特征。表征模型则是基于特征提取步骤提取的能够表征源移动手机的内在特征,构建合适的模型进行分类操作。传统的手机识别方案是提取音频时域,频域或倒谱域的信息特征作为移动手机的内在特征,再通过合适的表征模型识别手机。然而不同的传统方法具有不同的优缺点,难以统一进行比较。而在深度学习方面,由于该研究领域较为小众且仅有一个开源数据集,因此,该领域所提出的深度学习方法的性能和泛化性仍需考证。在本文中,选择成熟的通用背景模型-高斯混合模型（UBM-GMM）移动手机识别方法和基于CNN的深度学习移动手机识别方法作为基线。在UBM-GMM方案中,首先使用一个由若干不同品牌不同型号的移动手机记录的音频文件数据集训练一个大型的高斯混合模型（称为通用背景模型）,其作用是表征音频信息中移动手机的共通的特点。再使用另一个数据集将通用背景模型中的参数通过自适应算法调整得到新的GMM模型以表征各不同型号的手机（每个GMM模型只表征一类型号的手机）。最后使用极大似然估计算法进行手机识别的预测。而UBM-GMM移动手机识别方法主要存在以下三点不足:1.人为操作问题UBM-GMM是一个非端到端的移动手机识别方法。在不同的数据集下,该方法需要重新设置参数,即每次使用方案都需要重新实验。这对该方法的使用造成极大的不便。因此设计一个只需要输入数据,等待模型结构输出的端到端的移动手机识别方法对该领域的发展有十分重要的作用。2.运算成本问题UBM-GMM存在运算成本的问题。其问题主要包含两个部分。其一,GMM的实质是多个高斯函数叠加后对事物的精确表征。高斯函数越多,事物表征越精确。但是随着高斯函数数量的增加,其运算成本也会增加。其二,每类手机使用一个单一的高斯混合模型进行模拟。因此当数据库中手机的类别越多时,所需的高斯混合模型的数量也越多。因此,方法的运算成本将会随着数据集中手机类别的增加而指数性增加。3.特征提取问题UBM-GMM方法中,将MFCC方法用于提取手机的内部指纹。由于MFCC是一种对人声包络曲线精确表征的方法,虽然在数字媒体取证领域具有较好的性能,但是将其作为手机的内部特征并不合适。选择一个合适的方法表征手机的内部特征是该领域的需要重点解决的问题。在UBM-GMM中,TIMIT语料库被用于训练通用背景模型,而MOBIPHONE语料库则用于进行训练并检测方案的性能。通过实验,调整结构中高斯概率密度函数的数量,得到实验性能最优的方案,其精确度达到93.45%。而在CNN方案中,由于该方案作为多数深度学习方法的基线方案,因而其性能和泛化性被许多的研究所验证。在本文中,CNN特征基于MFCC特征提取,经过调整CNN模型中的相应参数,通过实验测试,该方案的最优精确度为93.45%。而该方法存在的问题是,音频识别领域通常存在音频的长依赖问题,但对于该问题许多其他的算法效果优于CNN。本论文针对基线方法中的缺点,提出了三种基于深度神经网络的端到端的移动手机识别方案表征其有效性。三项方案简略描述如下:1.基于表示学习的端到端移动手机识别基于表示学习的端到端移动手机识别方法的构建是为了解决所提出的基线方法中缺点。该方案基于基本的移动手机的识别方案的构架,通过提取语音文件中的能够表征手机的内在特征,构建合适的表征模型用于移动手机的识别。其实现流程是将语音文件分成若干个等长段后分别提取MFCC特征。再将各个MFCC特征CNN提取其深度特征,将同一音频文件中的各片段的深度特征按照时间序列的顺序拼接成表征移动手机的内在特征矩阵。然后将该特征矩阵输入双向长短时记忆网络（Bi-LSTM）中进行分类处理得到最终的手机识别结果。在实验阶段,本文中对方法中的所涉及的各项超参数基于控制变量法进行了一系列实验,选择其中性能最优的表征参数,完成最优方案的构建。本方案在MOBIPHONE语料库下的最优结果为93.50%。将此方法与基线方法对比,实验结果显示,构建的方案性能略强于基线方案。2.基于深度特征融合的端到端移动手机识别根据基于表示学习的移动手机识别的实验结果显示,其存在以下缺点:（1）语音片段的数量划分对方案的性能影响有很强的不确定性。（2）实验结果显示,所提出的方案性能仅略强于基线方案,即该方案的性能仍需增强。因此,本文提出了基于时空特征融合的端到端移动手机识别方案以解决第一个方案中的问题。为了增强移动手机识别性能,设计了一个精确表征手机特征的方案。本方法使用深度残缺神经网络（ResNet）和Bi-LSTM分别提取两种不同的深度特征。然后采用注意力机制将两个不同的深度特征进行特征融合用以表征移动手机的内在特征。最后采用softmax算法对本方案的识别结果进行预测。在实验阶段,首先分别构建了基于ResNet的深度特征提取模型和基于LSTM的深度特征提取模型。通过优化两者的结构和调整两者的超参数,分别得到最优的Bi-LSTM和ResNet模型。在Bi-LSTM模型中,其最优结构的精确度为94.00%。而对于ResNet模型,首先测试了标准ResNet结构下的模型性能。由于实验的结果不够理想,因而对ResNet的结构进行改造,构建了若干个ResNet改进模型,以寻求找到合适的适用于手机识别领域的ResNet模型。在调整完相应参数后,获得基于空间特征提取的最优ResNet模型,其精确度为93.90%。然后结合两个结构参数的最优结果,构建深度特征融合的端到端移动手机识别方案的结构,在优化相应结构和调整相应超参数后。实验结果在MOBIPHONE语料库中的精确度可达94.51%。最后将本方法和基线方法和基于表征学习的手机识别方法比较,比较各个方案的测试精确度,深度特征融合方案的性能较基线性能和表征学习方案的性能有较为明显的提升。3.结合注意力机制的堆叠LSTM的端到端移动手机识别基于深度特征融合移动手机识别方案是融合两个不同的深度特征表达的特征以表征记录手机的内在特征。因为所使用数据集的限制,ResNet算法并没有凸显出其性能的优势。而ResNet的模型结构较为复杂,因而考虑简化模型结构。在观察到LSTM方案对于手机识别领域有较强的表征能力和LSTM结构良好的可塑性后。提出了结合注意力机制的堆叠Bi-LSTM的端到端移动手机识别方案。本方案使用堆叠的Bi-LSTM模型提取深度的手机表征特征。然后采用注意力机制,对表征的移动手机的机械特征进行权重分配。最后采用softmax算法以预测移动手机的识别结果。在实验过程中,经过调整LSTM的结构和相应的超参数,本方案在MOBIPHONE语料库中的准确率达到了 95.88%。最后,将本方案与基线方案和前文介绍的两种方案进行比较。实验结果的测试精确度显示结合注意力机制的堆叠LSTM的端到端移动手机识别方案的性能最优。

其他文献

多智能体系统分布式事件触发平均一致协调控制

近年来,随着科技的不断进步,多智能体系统的协调控制已经成为研究人员关注的热点问题。一致性问题是多智能体中的基础问题,也是最重要的问题。本文将多智能体系统状态分解出不一致向量状态,在此基础上本文章对多智能体系统分布式事件触发一致性控制进行了相关问题研究。其中,主要包括以下几个方面:一方面,我们对一阶分布式事件触发多智能体系统平均一致性进行了研究。将系统状态分离成平均一致状态与不一致状态向量矢量和的形

学位

多智能体系统一致性分布式事件触发控制奇诺现象不一致向量状态

两种赤眼蜂对非鳞翅目靶标农药的抗药性筛选及P450基因的表达

目前利用赤眼防治鳞翅目害虫已经在全国推广,应用赤眼蜂进行害虫防治具有安全、环保和使用方便等优点,在减轻害虫危害和农业可持续发展中起着重要作用。水稻生长的后期病虫害（如:稻瘟病、稻曲病、纹枯病和稻飞虱等）总是混合发生,且化学农药是主要的防治措施,此时释放赤眼蜂难免会与农药直接或间接接触。农药不仅对赤眼蜂有毒杀作用,还会降低赤眼蜂的羽化率、寄生力、雌性比例、寿命和搜寻能力,严重降低防治效果。生物防治与

学位

稻螟赤眼蜂螟黄赤眼蜂抗药性内参基因抗性基因

基于DNA分子编码功能纳米探针的构建及生物传感研究

研究表明,恶性疾病密切相关的生物活性分子主要通过表观遗传或转录等层面调控致病基因的表达。临床液体样品（尿样、血浆或细胞裂解液）中与恶性疾病相关的生物活性分子（微小RNA和DNA修复酶活性）的灵敏检测,对于研究疾病的发生机理、预防及药效监控有重要意义。然而这些物质在临床液体样品中丰度极低,经典探针检测灵敏度不够,如何开发高灵敏和高特异性的功能探针,是生物活性分子检测面临的瓶颈问题。DNA纳米编码技术

学位

DNA分子编码信号放大技术双链特异性核酸酶G-四链体T4多聚核苷酸激酶表面增强拉曼散射

贵州克氏原螯虾养殖群体种质评价及利用研究

克氏原螯虾（Procambarus Clarkii）隶属于节肢动物门、甲壳纲、十足目、螯虾科、原螯虾属。在中国分布较广,是目前淡水养殖业中具有较好养殖前景的品种之一。自1970年起,我国克氏原螯虾开始进行人工养殖,但近年来,克氏原螯虾种质出现了退化,包括性早熟、规格变小、商品率低、抗病能力下降等极大的影响了克氏原螯虾养殖业的效益。要实现克氏原螯虾养殖业的可持续发展,迫切需要对克氏原螯虾进行资源保护

学位

克氏原螯虾养殖群体形态特征COI基因ITS1遗传多样性种质

基于间苯二甲胺单体的聚酰亚胺的合成与性能

间苯二甲胺分别与4，4’-氧双邻苯二甲酸酐、3，3’，4，4’-二苯甲酮四甲酸二酐、3，3’，4，4’-联苯四羧酸二酐、4，4’-（六氟异丙烯）二酞酸酐和4，4’-（4，4’-异亚丙基二苯氧基）双（邻苯二甲酸酐）在间甲酚中通过一步法合成了5种聚酰亚胺（PI）。采用FTIR、1HNMR、DSC、TGA、UV-Vis对聚合物进行了表征。结果表明，所制备的PI特性黏数在0.36～1.44 dL/g，在酚

期刊

聚酰亚胺间苯二甲胺（MXDA）透明性一步法功能材料

氢氧化镍复合材料的制备及电容性能

本文分别采用水热法和恒电位电沉积法制备了钴酸镍/氢氧化镍复合材料和石墨烯/氢氧化镍/氢氧化钴复合材料。利用红外光谱（FT-IR）、X射线粉末衍射（XRD）和X射线光电子能谱（XPS）技术对复合材料的结构进行了表征,采用扫描电子显微镜（SEM）观察了复合材料的形貌,并利用循环伏安（CV）、恒电流充放电（CP）、交流阻抗技术（EIS）研究了钴酸镍/氢氧化镍和石墨烯/氢氧化镍/氢氧化钴复合材料的电容性能

学位

氢氧化镍钴酸镍氢氧化钴石墨烯比电容

自组装多价功能核酸纳米探针的构建及其生物传感应用

肿瘤标志物的灵敏检测对癌症的早期预警诊断、监测复发及判断预后均有重要临床意义。然而肿瘤标志物在临床液体样品（尿样、血浆或肿瘤细胞）中含量极少,如何开发具有高效输出信号强度的探针是肿瘤标志物检测面临的瓶颈问题。功能核酸纳米材料作为一种新兴的生物纳米材料,具有可编程性和携带多种功能单元分子的优势,在生物分析领域引起越来越多的重视。其中,基于“多价结合”策略构筑的功能核酸探针,可借助多倍单体重组的“整体

学位

p53 DNA多价信号输出Y型探针“网簇型FRET”探针

基于事件触发的多逆变器跟踪协同控制研究

随着经济的快速发展和传统能源日益枯竭,光伏、风能等分布式清洁能源发电受到人们的广泛关注,而作为分布式发电主要载体的微电网成为主要研究方向。三相电压源型逆变器常作为微电网中衔接分布式发电单元重要组成部分,需要发展合适的控制方法对其调控以保证微电网的稳定可靠运行。在低压微电网孤岛运行模式下,电压、频率缺少大电网的支撑。因此,如何设计有效的控制方法保证分布式发电单元功率均衡分配,同时消除电压、频率偏差引

学位

多逆变器跟踪协同控制事件触发输入延时功率均衡

Research and Implementation of Movie Recommendation System Based on Spark

近年来,激增的互联网用户群体促进了网络应用与内容创作的高速发展。然而,庞杂的网络信息也带来了新的问题——“信息过载”。针对“信息过载”的问题,学者们提出了推荐系统的概念,它可以学习人们的偏好并将其与相关的信息实体建立潜在的兴趣关联,从而推荐他们可能感兴趣的信息。目前,推荐系统在众多互联网平台上都已得到了部署并产生了积极的效果。根据在Amazon网站的数据,该网站35%的订单来自推荐系统;在YouT

学位

协同过滤电影推荐Spark交替最小二乘法隐语义模型

基于多特征融合的多级分类和DBN的语音情感识别技术研究

语音作为人类日常生活中最重要的交流方式之一,其中蕴含着丰富的情感信息。语音情感识别技术的研究对于提高计算机的智能化和人性化、开发新的人机环境和促进心理学等学科的发展具有重要的现实意义。论文的主要解决问题及难点分析如下:（1）某一情感特征难以精确表达某种情感状态。情感易受说话人的语调、语速、音量、内容等各因素影响,目前大部分情感特征未能充分考虑情感信息的完整体现,何种情感特征能充分表达何种情感状态尚

学位

情感识别多特征融合多级分类深度置信网络多模态融合

End-to-End Mobile Phone Recognition Based on Deep Representation Learning

其他学术论文