论文部分内容阅读
随着智能终端的不断普及,越来越多的设备每天采集海量的笔迹数据,笔迹数据的智能化分析已经成为一种趋势。其中笔迹识别作为笔迹智能化分析的一个热点,在信息安全、刑事鉴定、文物鉴定中有着广泛应用,因此得到了学术界和工业界的关注。 本文在学习国内外研究笔迹识别的基础上,重点研究了基于无监督学习字典的多文种文本无关笔迹识别。基于边缘概率分布的笔迹识别是一种传统人工设计特征的图像识别方法,本文首先使用该方法进行实验,然后研究了基于独立成分分析(IndependentComponent Analysis,ICA)字典模型的笔迹识别,并提出了基于稀疏自编码(SparseAutoencoder)字典模型的笔迹识别算法。基于边缘概率分布的笔迹识别首先使用边缘概率分布描述子对窗口块中笔迹图像提取特征,然后将所有窗口块的特征统一形成图像的特征长向量,最终使用KNN最近邻算法进行识别。基于独立成分分析字典模型的笔迹识别首先使用原始笔迹图像对ICA模型进行无监督训练,然后利用训练好的ICA模型结合词袋模型训练出字典,最后结合ICA模型和字典得到原始笔迹的特征描述并用分类器分类。基于稀疏自编码字典模型的笔迹识别首先利用稀疏自编码模型无监督地训练出笔迹权重,再结合所提出的词带模型算法框架训练字典。基于稀疏自编码模型算法在笔迹图像上提取的特征表现突出,与传统方法相比,本算法具有更高的识别率。 本文在HIT-MW中文笔迹数据库、IAM英文笔迹数据库以及它们的混合数据库上使用文中的方法进行实验,通过实验结果的分析对比,证明本文所提出的基于稀疏自编码字典模型的笔迹识别算法的有效性,在HIT-MW和IAM数据库上分别达到了95.44%和96.8%的首选识别率。同时本文对算法中影响识别率的因素做了细致的实验研究,分析了包括窗口大小、窗口数量以及实验原始数据量对识别率的影响。