论文部分内容阅读
数字媒体取证主要判断数字媒体文件的真实性、完整性和来源性,能够协助解决新闻、司法、军事等领域的安全问题。由于数字媒体编辑软件的便捷化和简单化的发展,其较低的使用门槛使得作为当下主流的数字媒体软件能够轻易直接的投入社会。这些无法直观辨别真伪的数字媒体文件若被不法分子利用,则会给人类生活造成严重影响。这使得数字媒体取证在近二十年里逐渐成为热点话题。相较于数字图像取证的蓬勃发展,数字音频取证作为一个新兴的类别受到越来越多的重视。其在新闻、司法、军事等领域能够发挥巨大作用,能够有效规避风险,对司法判决和社会秩序稳定有着重要的意义。基于音频的移动手机识别是数字音频取证中的一个分支,其旨在不借助嵌入水印或签名等辅助信息,通过提取同一手机录制音频存在的内在共性识别记录待测音频的手机。其内在共性表示不同手机之间由于内在结构和软硬件的不同的共同作用使得所录制音频存在某种差异。理论上,认为这种误差为独一无二的,称为手机的机械指纹。目前基于音频的移动手机识别方法主要由两个方面构成,一是特征提取,二是模型表征。特征提取旨在通过音频处理技术,从数字音频中提取出能够表征录制音频的源设备的内在特征。表征模型则是基于特征提取步骤提取的能够表征源移动手机的内在特征,构建合适的模型进行分类操作。传统的手机识别方案是提取音频时域,频域或倒谱域的信息特征作为移动手机的内在特征,再通过合适的表征模型识别手机。然而不同的传统方法具有不同的优缺点,难以统一进行比较。而在深度学习方面,由于该研究领域较为小众且仅有一个开源数据集,因此,该领域所提出的深度学习方法的性能和泛化性仍需考证。在本文中,选择成熟的通用背景模型-高斯混合模型(UBM-GMM)移动手机识别方法和基于CNN的深度学习移动手机识别方法作为基线。在UBM-GMM方案中,首先使用一个由若干不同品牌不同型号的移动手机记录的音频文件数据集训练一个大型的高斯混合模型(称为通用背景模型),其作用是表征音频信息中移动手机的共通的特点。再使用另一个数据集将通用背景模型中的参数通过自适应算法调整得到新的GMM模型以表征各不同型号的手机(每个GMM模型只表征一类型号的手机)。最后使用极大似然估计算法进行手机识别的预测。而UBM-GMM移动手机识别方法主要存在以下三点不足:1.人为操作问题UBM-GMM是一个非端到端的移动手机识别方法。在不同的数据集下,该方法需要重新设置参数,即每次使用方案都需要重新实验。这对该方法的使用造成极大的不便。因此设计一个只需要输入数据,等待模型结构输出的端到端的移动手机识别方法对该领域的发展有十分重要的作用。2.运算成本问题UBM-GMM存在运算成本的问题。其问题主要包含两个部分。其一,GMM的实质是多个高斯函数叠加后对事物的精确表征。高斯函数越多,事物表征越精确。但是随着高斯函数数量的增加,其运算成本也会增加。其二,每类手机使用一个单一的高斯混合模型进行模拟。因此当数据库中手机的类别越多时,所需的高斯混合模型的数量也越多。因此,方法的运算成本将会随着数据集中手机类别的增加而指数性增加。3.特征提取问题UBM-GMM方法中,将MFCC方法用于提取手机的内部指纹。由于MFCC是一种对人声包络曲线精确表征的方法,虽然在数字媒体取证领域具有较好的性能,但是将其作为手机的内部特征并不合适。选择一个合适的方法表征手机的内部特征是该领域的需要重点解决的问题。在UBM-GMM中,TIMIT语料库被用于训练通用背景模型,而MOBIPHONE语料库则用于进行训练并检测方案的性能。通过实验,调整结构中高斯概率密度函数的数量,得到实验性能最优的方案,其精确度达到93.45%。而在CNN方案中,由于该方案作为多数深度学习方法的基线方案,因而其性能和泛化性被许多的研究所验证。在本文中,CNN特征基于MFCC特征提取,经过调整CNN模型中的相应参数,通过实验测试,该方案的最优精确度为93.45%。而该方法存在的问题是,音频识别领域通常存在音频的长依赖问题,但对于该问题许多其他的算法效果优于CNN。本论文针对基线方法中的缺点,提出了三种基于深度神经网络的端到端的移动手机识别方案表征其有效性。三项方案简略描述如下:1.基于表示学习的端到端移动手机识别基于表示学习的端到端移动手机识别方法的构建是为了解决所提出的基线方法中缺点。该方案基于基本的移动手机的识别方案的构架,通过提取语音文件中的能够表征手机的内在特征,构建合适的表征模型用于移动手机的识别。其实现流程是将语音文件分成若干个等长段后分别提取MFCC特征。再将各个MFCC特征CNN提取其深度特征,将同一音频文件中的各片段的深度特征按照时间序列的顺序拼接成表征移动手机的内在特征矩阵。然后将该特征矩阵输入双向长短时记忆网络(Bi-LSTM)中进行分类处理得到最终的手机识别结果。在实验阶段,本文中对方法中的所涉及的各项超参数基于控制变量法进行了一系列实验,选择其中性能最优的表征参数,完成最优方案的构建。本方案在MOBIPHONE语料库下的最优结果为93.50%。将此方法与基线方法对比,实验结果显示,构建的方案性能略强于基线方案。2.基于深度特征融合的端到端移动手机识别根据基于表示学习的移动手机识别的实验结果显示,其存在以下缺点:(1)语音片段的数量划分对方案的性能影响有很强的不确定性。(2)实验结果显示,所提出的方案性能仅略强于基线方案,即该方案的性能仍需增强。因此,本文提出了基于时空特征融合的端到端移动手机识别方案以解决第一个方案中的问题。为了增强移动手机识别性能,设计了一个精确表征手机特征的方案。本方法使用深度残缺神经网络(ResNet)和Bi-LSTM分别提取两种不同的深度特征。然后采用注意力机制将两个不同的深度特征进行特征融合用以表征移动手机的内在特征。最后采用softmax算法对本方案的识别结果进行预测。在实验阶段,首先分别构建了基于ResNet的深度特征提取模型和基于LSTM的深度特征提取模型。通过优化两者的结构和调整两者的超参数,分别得到最优的Bi-LSTM和ResNet模型。在Bi-LSTM模型中,其最优结构的精确度为94.00%。而对于ResNet模型,首先测试了标准ResNet结构下的模型性能。由于实验的结果不够理想,因而对ResNet的结构进行改造,构建了若干个ResNet改进模型,以寻求找到合适的适用于手机识别领域的ResNet模型。在调整完相应参数后,获得基于空间特征提取的最优ResNet模型,其精确度为93.90%。然后结合两个结构参数的最优结果,构建深度特征融合的端到端移动手机识别方案的结构,在优化相应结构和调整相应超参数后。实验结果在MOBIPHONE语料库中的精确度可达94.51%。最后将本方法和基线方法和基于表征学习的手机识别方法比较,比较各个方案的测试精确度,深度特征融合方案的性能较基线性能和表征学习方案的性能有较为明显的提升。3.结合注意力机制的堆叠LSTM的端到端移动手机识别基于深度特征融合移动手机识别方案是融合两个不同的深度特征表达的特征以表征记录手机的内在特征。因为所使用数据集的限制,ResNet算法并没有凸显出其性能的优势。而ResNet的模型结构较为复杂,因而考虑简化模型结构。在观察到LSTM方案对于手机识别领域有较强的表征能力和LSTM结构良好的可塑性后。提出了结合注意力机制的堆叠Bi-LSTM的端到端移动手机识别方案。本方案使用堆叠的Bi-LSTM模型提取深度的手机表征特征。然后采用注意力机制,对表征的移动手机的机械特征进行权重分配。最后采用softmax算法以预测移动手机的识别结果。在实验过程中,经过调整LSTM的结构和相应的超参数,本方案在MOBIPHONE语料库中的准确率达到了 95.88%。最后,将本方案与基线方案和前文介绍的两种方案进行比较。实验结果的测试精确度显示结合注意力机制的堆叠LSTM的端到端移动手机识别方案的性能最优。