论文部分内容阅读
摘要:首先阐述了文本定位的基本流程,然后列举了现有的主要文本定位方法,分析了基于区域、纹理、边缘、角点的文本定位方法和机器学习的文本定位方法的优缺点,详细说明了文本区域验证和文本块区域合并的方法,最后总结了各种文本定位方法。
全文查看链接
作为一种统计特征,纹理特征通常具有旋转不变性,因此基于纹理的分割方法具有一定的通用性,并且对于噪声有较强的抵抗能力。但是经常会出现文本区域与背景中的一些物体边缘相黏连的情况,这种情况就很难找出文本区域的精确边界。另外,纹理特征是在包含多个像素点的区域中进行统计计算,不是基于像素点的特征,因此当图像的分辨率发生变化时,所计算出来的纹理可能会有较大偏差。再者,原始图像有可能受多种因素的影响,比如:光照、反射因素,从二维图像中得到的纹理不一定是三维物体表面真实的纹理。
全文查看链接
潘道远等人[20]采用多方法融合的方法进行文本定位。他们首先使用金字塔分解把原始图像分解成大小不同的子图像,然后使用CROtsu算子对每一层子图提取边缘,并对子图分别进行数学形态学操作,去除孤立的背景,再使用先验知识规则去除一些非文本区,接着融合各个子图像,并使用最近邻插值法将融合图像放大为原图像的大小。将备选文本区的R、G、B三基色分别作为BP神经网络的输入参数,利用“米”字形网格结构神经网络分类为文本或非文本。这种方法通过融合基于边缘的方法和基于神经网络的学习方法,较为准确地实现自然场景文本的提取,由于备选文本区域的提取只采用了边缘信息,边缘不突出的文字常常被遗漏,因此该算法在处理边缘不明显的文本时,效果不太理想,同时将有些纹理比较复杂的背景区域错误的分类为文本区域。
全文查看链接
参考文献:
全文查看链接
[16] Qi W.Integrating Visual,Audio and Text Analysis for News Video[J].7th IEEE International Conferenee on Image Proeessing(ICIP2000),Vaneouver,British Columbia ,Canada,2008,7(3):10-13.
全文查看链接