中文文档图像畸变校正算法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:smn1970
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会中,越来越多来自扫描仪的文档图像将传统的纸制文档与现代化的计算机技术连接到一起,由于书本通常具有一定的厚度,使得扫描平面并不平整,这造成文档图像的畸变现象。畸变文档图像校正是解决这一问题的主要环节,它也是自动化办公的重要组成部分。目前这一领域的研究主要集中在以英文为代表的西文文档图像校正上。西文文档结构和文字形态特征具有单词内字母间排布规则,连接方式单一的特点,这给西文文档图像校正提供了很大方便。但是,汉字形态特征复杂,组成方块汉字的各部首之间不具有统一的内部结构分布和连接方式,西文文档图像校正方法难以直接应用到中文文档图像上。   本文提出了一种基于方块文字行弯曲特征的中文文档图像畸变校正方法(AMethod to Restore Chinese Warped Document Images Based on Curved Features forLines of Block Words)。作为体现中文文档结构和汉字形态特征的关键处理步骤,该方法在各方向上迭代绑定汉字并用“平行线法”构建弯曲文字行,这二个步骤可以有效克服中文文档相对西文的差异难点,得到来自文字行的模型源数据;然后,方法以临近标准行数据为校正原则,用SVR拟合避免了分段参数方法的不连续局限性。采用连续性插值的方法得到校正结果。方法从拟合源数据的可靠性,模型选择的合理性,最终的实施校正连续性几个方面,共同保证实验校正结果的质量。为了检验本文提出方法的有效性,在2000多厚书页中随机选择600幅畸变文档图像搭建成二个数据库,在这二个数据库中,本文方法的正确率分别为94.0%和92.3%,方法同时适用于一些特殊文档和部分倾斜文档的畸变校正问题。实验结果显示,本方法具备准确率高,鲁棒性强的特点。
其他文献
近年来,随着网络融合的发展及IP电话的普及,人们具有了越来越多的通信手段,而通信手段的增加也给传统的公共交换电话网络带来了许多新的安全威胁。其中对于语音话路的恶意占
在Web2.0时代,分布式存储的数据和服务在开放的互联网平台上实现了共享和复用,从而形成了用户参与和协作的应用模式。Web2.0作为互联网应用的一次重大创新,使互联网得到了前所未
红刺悬钩子(Rubus rubrisetulosus Card.),隶属于蔷薇科悬钩子属匍匐莓组,为多年生草本植物;果实球状,红色;花期6-7月,果期9-10月。产四川、云南、甘肃,生于海拔2000-3500米的山地林缘
声纳设备通常利用声波对海底地形及水下目标图像进行获取。侧扫声纳是一种应用非常广泛的声纳设备。对侧扫声纳图像处理方法的研究是声纳研究领域一个有意义的课题。本文介绍
学位
随着通信信息技术的迅速发展和人们需求的多样化,电信网、有线电视网和计算机通信网也出现了相互渗透、相互兼容、并逐步整合成为统一的信息通信网络的趋势。基于此种趋势,手机
本文通过对荣华二采区10
期刊
大量研究表明,海马神经元突触的NMDA受体在空间记忆的信息处理过程中起着重要的分子开关的作用。长期空间记忆与其它类型的长期记忆一样,可分为获得、巩固、储存及提取四个阶段
正交频分复用(OFDM)技术由于能有效对抗多径且具有较高的频谱利用率,因而被最新的无线城域网(WirelessMAN)标准IEEE802.16e采用,并成为下一代移动通信系统的候选方案。由于IEEE802.16
以光纤陀螺为代表的光学旋转传感系统在工业、军事等领域有着广泛的应用,研究提高光纤陀螺的精度是一个极为重要的课题。本文主要研究利用色散提高光学旋转传感系统的灵敏度,内
可用带宽窄、多途干扰强、信号起伏衰落严重是在水声信道特别是浅海水声信道进行高速可靠的信息传输的主要障碍。正交频分复用(OFDM)技术是近年来迅速发展起来的一种并行传输
学位