论文部分内容阅读
数字化已经渗透到我们生活的每一个角落。在数字世界中,保护不同形式内容版权和验证其真实性是非常重要的。本文研究的保护对象是我们日常工作和学习中经常接触的打印文档。由于打印文档相关的违法犯罪活动逐年增多,司法部门和情报机关迫切需要打印文档取证技术。近年来只利用扫描仪和计算机的数字被动无损取证技术应运而生,成为国际上备受关注的多媒体信息安全前沿领域。设备来源取证是数字被动无损取证技术中的一个主要问题,不依赖于专业设备和人员的打印文档来源取证(打印机识别)方法可以提高取证效率、降低取证成本且对原始文档不会造成破坏。针对目前打印文档来源取证领域存在的技术难题,本文重点研究对墨粉浓度和噪声变化鲁棒的文档检测方法,提出的方法不需要人工通过OCR软件恢复待测文档的理想图像,并且对于局部打印文档也具有较高取证准确率、可以识别相同品牌、相同型号、不同个体打印机。针对打印文本的分析,提出页面文本行几何失真特征。理想文档中文本行是平行的,但由于打印机存在机械装置缺陷,导致打印文档存在页面几何失真。通过实验发现在一个打印文档中,每个文本行存在一个微小的倾斜角度,各文本行间不再平行。页面文本行斜率沿着打印方向以特定模式变化,这种变化模式是独特的,随着打印机品牌、型号和打印机个体不同而变化,因而提出页面文本行几何失真特征。这是一种在打印中不可避免地被引入的特征,所以可作为打印机的固有特征。针对特定局部区域打印文档的取证,提出页面文本行斜率序列(PTLS)和页面文本行间隔序列(PTLI)以描述页面水平方向和垂直方向几何失真特征;针对任意局部区域打印文档的取证,提出虚拟页面文本行间隔序列(VPTLI)特征。然后根据提出的序列匹配距离分别度量两个长度不同的序列的相似度,最后提出相应的打印文档来源取证算法来判定文档页面来源。本文的取证算法对来自3个品牌,8个型号的10台打印机(其中3台为同一型号)的打印文档进行了满页和非满页文档的取证,表现最好的算法的平均准确率在92.82%到94.51%之间。提出的方法不仅克服取证中对墨粉浓度和噪声的敏感,同时避免了已有几何失真取证中必须获得理想样本的局限性,能够识别个体打印机,并且在非满页局部打印的情况下也获得了较高准确率。