基于运算符语义树分析的数学公式识别研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wxjffh8gf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们获取知识、传播资源的方式逐渐从翻阅书籍转换为在线图片搜索、图片传输信息等方式,在线教育成为教育领域比较热门的一种方式;同时,在大学教育中学生们越来越频繁的通过查阅文献开展研究。数学公式作为数学学科最基本的单元,存在形式固定、语言固定等特点,直接通过识别数学公式图像利用识别结果进行资源索引的方式,对在线教育普及发展有重大意义,且会极大地方便文献索引。基于数学公式图像识别结果进行资源索引的研究综合了图像处理、模式识别等多学科的知识,具有广阔应用前景及重要的研究意义。  本文以印刷体数学公式图像识别作为研究对象,分别对图像二值化、字符切分、字符识别、公式结构分析、公式语义分析等问题开展研究,具体包括以下几个方面的工作:使用自适应局部阈值的二值化算法进行图像二值化,获得二值图像;通过连通体分析、连通体合并及拆分进行符号切分;对于切分后的字符使用梯度直方图特征描述字符继而构建两级的多层神经网络进行字符识别;对于识别后的数学公式符号,通过分析运算符的优先级、结合性、运算数个数及位置等信息获得数学公式的结构信息及语义信息;最终以Latex格式输出数学公式的分析结构,并采用字符识别准确率、字符识别召回率、公式识别准确率等评价标准进行公式识别结果的评测。  在大量数学公式图像上的比对分析实验表明,本文所设计的数学公式识别系统可在大部分图像中取得满意的识别结果,同时在识别速度上也可以满足实际应用的需求,达到了预期的研究目标。利用本文工作成果,可方便地进行公式的自动索引和检索,大大减少了人工标注的工作量。
其他文献
单元回归测试是在单元模块级别进行的回归测试,具有测试粒度细、重复性高、测试工作量大的特点,这些特点导致了其测试成本在整个软件测试过程中占有很大的比重。因此,提高单
在过去的几年中,数字播放技术已经有了重大的发展,使得数字回放和显示质量达到35mm胶片发行拷贝的质量相称水平的数字影像成为可能。这些技术的发展产生了很多新的应用,包括高清
随着无线通信事业的迅速发展,无线频谱资源的需求量越来越大,不可再生的频谱资源和低效的频谱分配政策成为制约通信发展的重要因素。认知无线电通过动态频谱接入方式,使得认知用
近几年Web系统数量和网民数量都快速增长,据瑞士互联网研究公司RoyalPingdom的数据2012年全球网站数量已经达到6.34亿个,网站之间的竞争越来越激烈。同时网民数量也在快速增长,
图像质量检测技术发展迅速,在印刷质量检测中起到了非同寻常的作用。印刷过程往往会受到温度、湿度、机器精度、设备操作等各种因素干扰,使得印刷质量达不到既定要求,会产生带有
车辆自组织网络(VANET)包含车辆和路边单元(RSU)两类节点,是一种特殊的移动自组织网络(MANET)。近年来,VANET在学术界和工业界都受到了广泛的关注,成为研究的热点。   VANET中
随着信息科技的飞速发展,数据库技术被广泛应用在各个领域中。现代数据库往往由成百上千个元素所构成,同时由于相关说明文档的缺失现象严重,对于用户来说,要对一个不熟悉的数
软件是IT产业最主要的资产形式。为了防范软件盗版等侵权行为,计算机学者们投入大量的精力用于软件保护技术的研究。其中,能够表征知识产权的软件水印技术最受关注。然而,近几年
高速飞行器在大气层中飞行时,光学头罩与高速气流发生剧烈的相互作用,导致其探测窗口附近形成复杂的流场和温度场,引起气动光学效应,使得红外和可见光图像出现模糊与畸变。为了获
在GEO卫星网络与地面网络多覆盖的区域,用户选择不同网络进行切换的代价是不同的。对于低速移动用户,选择地面网络切换足以保证用户的通信质量。对于高铁等高速移动的用户,在地