Accurate document digitalization based on text recognition confidence estimation

来源 :第十二届全国信息隐藏暨多媒体信息安全学术大会 | 被引量 : 0次 | 上传用户:lj200610819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Document digitalization is one of the basic technologies in multimedia information search and retrieval research area.It has offered a powerful way to bridge the gap between massive redundant image information and retrievable text.Although optical character recognition (OCR) technology has been widely applied to document digitalization projects, character misrecognition is inevitable due to picture downgrading caused by printed error, illumination or blurring variation.In some circumstances, a compromising scheme is to detect misrecognized characters accurately and leave them as embedded character images in the final electronic document.Thus, it is crucial to evaluate the recognition confidence for recognition error detection.In this paper, we propose a novel document digitalization method by combining traditional OCR technology with Convolutional Neural Networks(CNN) based text recognition confidence analysis.Briefly, samples are first processed by traditional OCR system to generate first stage recognition result.Usually, the error rate is below 2%, and then each recognized character is given a confidence value by an independent confidence estimator based on CNN, the recognized character with low confidence value is marked as misrecognized character.Experimental results show that our method has achieved an explicit improvement compared to baseline system.
其他文献
2015年10月21日,中国科学技术信息研究所在北京举行中国科技论文统计结果新闻发布会,公布了2014年度“百种中国杰出学术期刊”名单。“百种中国杰出学术期刊”是该所从中国科
预习是学生课前的一种自主认知活动,是自觉运用所学知识和能力对课文预先进行理解、质疑、思考的求知过程。通过对当前小学语文课程预习难的现状,提成培养学生预习课文的兴趣,给
会议
据英国《曼彻斯特晚报》5月22日报道,只有7个月大的女婴爱娃·帕克虽然出生时不幸罹患心脏病,不得不进行肺动脉环束术保命。但幸运的是,医生为了让爱娃免除反复开刀手术的痛
本文探讨了在高中物理教学中实施课堂讨论常见的教学素材的种类和各自的特点,呈现和阐述了这些教学素材的准备流程,并通过实例说明了利用图片、视频、科普文献和主题资源等类
对于很多教师来说,搞教科研遇到的最大困难就是不知道从何下手,找不到合适的研究课题。实际上,小学教师要研究的课题俯拾即是。小学教师搞教科研的目的和任务就是为了提高教育教
会议
地处鄂西北山区的房县,经济比较落后,生产力水平较低,全县国民生产总值4.48亿元,农民人均纯收入458元.贫困山区的保险怎样才能较快发展,人保房县支公司作了大胆探索,在全公
首都师范大学附属中学教科研工作以"发展教师、发展学生、发展学校"为服务宗旨,围绕"以教育科研为突破口,以课题研究为载体,全面提升学校品位"这一总体思路,积极开展校本教科
通过综合实践课程资源开发与整合策略研究,对新时期教育工作的复杂性、艰巨性有了更深的体会,认识到学生的素质是有机的整体.学生的发展是资源综合利用的结果;学生生活世界里
新课标提倡以人为本,以学生发展为中心.苏霍姆林斯基也曾说,学生是教育最重要的力量.学生是学习的主体,同时也是重要教学资源.建构主义认为,高中学生不是空着脑袋走进课堂的,
新教师作为学校一股强有力的新生力量,踏入教师生涯的最初几年对于他们今后的专业化成长至关重要。2011学年下学期起,在北京石油学院附属小学肖英校长亲自组织带领下,我校开始尝