论文部分内容阅读
随着计算机运算速度和存储能力的提高,用计算机存储和处理越来越多的纸质文档成为可能。前人已经提出了从上到下和从下到上两大类分割方法,包括游程平滑法、轮廓投影切分法、哈夫变换等方法,以及利用近代数学成果的Gabor变换和小波变换等方法。本文利用文字的线条结构和文本块的行结构特性提出了一个新的提取文档图片中文本部分的方法。该方法首先用一模板对原图片S中每一点从四个方向判断该点是否为线条上的点,这样得到一个二值化矩阵B,B中为 1 点对应S中的线条上点。由于B中比较稠密的为1的点组成了一些不同的区域,则用一个区域搜索方法找到这些区域,同时将那些分散的为1的点抹去。另外本文假设文档图片中包含一个相对较大的文本块,故接下来按照区域大小从大到小的顺序,搜索一条通过区域左右或上下边界的直线,由于各个区域都是由比较稠密的为1的点组成的,所以该直线一定在最大的文本区域中找到,得到的直线倾斜度就是文档图片的倾斜度。然后根据找出的倾斜度对矩阵B进行投影,根据投影图来判定文本区域,最后根据判断结果对各个区域进行标记即可实现分割。该分割方法对语言和文档的倾斜度不敏感,并且还可得到很精确的文档倾斜度,并在实验中取得了良好的效果。