论文部分内容阅读
近年来,随着智能手机的出现以及移动互联网的高速发展,手机逐渐由通讯工具转变为人们生活中必不可缺的设备。然而随着手机变得越来越重要,与之俱来的还有利用手机进行违法犯罪活动。面对手机中庞大的数据资源,如何对其进行快速取证成为了重中之重。同时由于手机信息中存储的多为短文本,传统文本分类方法在短文本分类应用上性能不佳。尤其随着即时通讯软件的完善,大量犯罪分子选择利用即时通讯软件进行沟通协调。为了躲避公安机关的监督和追查,犯罪分子多使用回避关键字的方法进行通讯,如使用同义词、插入空格、拼音代替等方法。为此如何对于这类的回避手法进行追查,也成为手机取证工作者的研究目标。为了解决此问题,本论文主要进行了以下工作:本论文首先针对手机取证进行了相关研究,了解了手机取证的概念,分析了其数据来源。随后对Android系统的存储机制进行分析,进而对手机通讯录、通话记录、短信息及即时通讯应用程序使用的SQLite数据库进行分析,解析了数据库的数据文件结构,为数据提取提供了保障。然后对相关数据库文件进行了读取与分析,并将读取出来的数据进行了格式规范化,以便于下一步的文本分类工作。随后本论文对文本分类技术进行了研究,分析了文本分类的相关流程,并对手机取证中证据的特点进行分析。由于其短文本的特性,在对其进行文本分类时存在特征稀疏的问题,为此引入特征扩展的概念来解决手机取证中短文本分类的问题。基于现有的维基百科特征扩展,发现其存在歧义项问题,会对文本分类引入噪声,故提出TF-ITF算法对其进行噪声消除,以提高文本分类算法的准确率。又在此基础上,针对手机取证中规避词语在维基百科中未收录造成无法特征扩展的问题,提出对规避词语基于百度搜索进行特征扩展,以提高算法的召回率。最终结合改进的维基百科特征扩展和百度搜索特征扩展提出了新的特征扩展算法WBFE,并根据WBFE进行了文本分类。