论文部分内容阅读
在现代社会中,越来越多来自扫描仪的文档图像将传统的纸制文档与现代化的计算机技术连接到一起,由于书本通常具有一定的厚度,使得扫描平面并不平整,这造成文档图像的畸变现象。畸变文档图像校正是解决这一问题的主要环节,它也是自动化办公的重要组成部分。目前这一领域的研究主要集中在以英文为代表的西文文档图像校正上。西文文档结构和文字形态特征具有单词内字母间排布规则,连接方式单一的特点,这给西文文档图像校正提供了很大方便。但是,汉字形态特征复杂,组成方块汉字的各部首之间不具有统一的内部结构分布和连接方式,西文文档图像校正方法难以直接应用到中文文档图像上。
本文提出了一种基于方块文字行弯曲特征的中文文档图像畸变校正方法(AMethod to Restore Chinese Warped Document Images Based on Curved Features forLines of Block Words)。作为体现中文文档结构和汉字形态特征的关键处理步骤,该方法在各方向上迭代绑定汉字并用“平行线法”构建弯曲文字行,这二个步骤可以有效克服中文文档相对西文的差异难点,得到来自文字行的模型源数据;然后,方法以临近标准行数据为校正原则,用SVR拟合避免了分段参数方法的不连续局限性。采用连续性插值的方法得到校正结果。方法从拟合源数据的可靠性,模型选择的合理性,最终的实施校正连续性几个方面,共同保证实验校正结果的质量。为了检验本文提出方法的有效性,在2000多厚书页中随机选择600幅畸变文档图像搭建成二个数据库,在这二个数据库中,本文方法的正确率分别为94.0%和92.3%,方法同时适用于一些特殊文档和部分倾斜文档的畸变校正问题。实验结果显示,本方法具备准确率高,鲁棒性强的特点。