论文部分内容阅读
语言文字是一个民族的精神文明之一,文字识别技术对文字的传播和文化传承起到很好的推进作用。在我国贵州地区有一种语言文字——水书,是一种古老的类象形文字,由于传承人员稀缺,导致水书传承中断,所以迫切需要进行数字化保护。传统的文字识别技术多是采用手动提取特征,然后设计分类器进行识别的模式。手动提取特征对专业知识的要求较高,人力成本也比较高,然而识别效果却不太理想。深度学习在模式识别任务方面的表现良好,给少数文字识别相关研究人员带来了新的灵感,并尝试使用深度学习来解决文字识别问题。基于深度学习的方法实现水书识别存在着几个问题。第一,水书目前还没有用于数据科学研究的完备数据集,缺乏专业数据人员对水书文字进行整理、存储、归类;第二,深度学习模型多种多样,多数是针对某一个问题而设计的,可移植性较差,科研人员将深度学习方法在水书识别上的尝试较少;第三,深度学习模型训练时的超参数设置很大程度上影响了模型的性能,超参数优化问题是诸多研究人员致力解决的问题。针对上述问题,本文对深度神经网络模型进行研究,设计了一个用于水书识别的卷积神经网络模型,并通过一种基于种群进化的超参数优化算法进行训练,实现水书文字识别任务。具体工作如下:1.提出一种基于种群进化的超参数优化算法。本文结合网格搜索与人工调试的优点,从进化算法中获得启发,提出一种基于种群进化的超参数优化算法,其主要思想是个体进化,种群选择,异步并行迭代训练以达到种群进化的结果。实验结果表明,在超参数设置问题上此算法相较于网格搜索有更优的效果。2.设计了一个应用于水书识别的卷积神经网络模型。通过理论验证,经验积累,本文详细分析了卷积神经网络的结构组成,论证了损失函数、激活函数等选择问题,设计了一个11层卷积网络结构,并采用本文提出的基于种群进化的超参数优化算法进行训练,在水书数据集数据量较多的标注集上进行训练验证,证实了模型设计的有效性。3.本文建立了一个水书古籍文字数据集,为深度学习的研究提供了实验数据。文中详细介绍了水书特点,从数据采集、到数据预处理、再到数据标注,详细介绍了水书数据集建立过程。设计了一个水书文字识别原型系统,将数据处理和文字识别功能进行集成,为水书的学习和传播提供了方便。综上,本文提出的基于种群进化的超参数优化算法为神经网络超参数设置提供了借鉴方法,水书文字识别的研究可以作为少数民族语言保护和文字识别的一个经验案例,为文字学和深度学习工作者进行深入研究作参考。