论文部分内容阅读
盲人及视力障碍人士是我们社会的一个弱势群体,他们无法像普通人一样读书看报,然而在现实生活中,99%以上的文字信息都是以视力障碍人士无法阅读的纸制资料形式出现的,因此视觉能力的缺失使他们无法以最直观的方式获取信息。盲人阅读器正是一种将印刷品的内容转化为声音信号,供视力障碍人群获取信息的设备,使其在没有正常人帮助的情况下也能够方便地获得纸制文字信息。
本文设计了一个由文本图像预处理、字符识别、语音合成等部分组成的盲人阅读器软件实现系统。系统处理对象主要是印刷体文本图片。主要研究工作如下:
(1) 在预处理模块的设计中,结合多种图像处理技术,运用了包括二值化、倾斜校正和字符分割等在内的一系列预处理算法,取得了较好的效果,为后面字符特征的提取打下了坚实的基础。
(2)为了解决单个分类器分类效果不理想的情况,从分类器集成的角度出发,提出了基于多个互补特征,多级粗分类与细分类相结合的分类器设计方案。其中粗分类包含基于字符骨架中闭合曲线和基于字符骨架中纵向线条特征的两级分类,达到了较平均的分割待识别字符集的目的,有效地缩短了细分类的识别时间。细分类器的特征提取采用基于网格特征和投影特征的组合特征向量,很好地兼顾了字符总体特征和局部特征,大大提高了字符识别的准确度。
(3) 归纳总结了现有TTS 功能实现的三种典型解决方案,结合课题研究的实际情况最终采用了利用微软SAPI5.1提供的具有TTS 功能的语音开发包的方案,极大地缩短了语音合成应用系统的开发周期,以较高的准确率实现了对已识别文本的语音输出,并且可以调整发音语音类型、语速及音量等合成属性。
实验结果表明,将字符识别技术与语音合成技术相结合,可以很好地实现盲人阅读器的功能。