浅析汉字识别技术在档案管理工作中的应用

来源 :今日中国教研 | 被引量 : 0次 | 上传用户:djlmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  汉字识别技术,简称OCR,可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。
  
  一、汉字识别技术的应用价值
  
  汉字识别技术的应用价值主要体现在两个方面:
  一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。
  首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。
  另一方面,提供了一种新的档案目录数据的录入方式。
  应用计算机以来,汉字录入只有一种方式,即键盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如:包括档案的文件目录、图像和文本等,效果就较理想了。
  
  二、汉字识别后生成的文本数据的属性问题
  
  原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。
  知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。
  汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。
  汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性:当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。
  由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。
  
  三、汉字识别技术的应用方式
  
  汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有:
  (一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。
  这种利用方式的优点主要有:
  1、方便用户,可减少信息利用过程中的重复劳动;
  2、不给档案人员增加建库的工作负担;
  3、节省建库所需的经费开支。
  其缺点主要有:
  1、不能为全文检索提供数据,实现深层次开发档案信息资源的目的;
  2、存在对同一档案内容重复进行扫描和汉字识别的可能性。
  (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。
  (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。
  这种方式必须在已有文件目录的前提下使用。其优点主要有:
  1、具有提供原件和提高信息利用效率的双重优势;
  2、档案人员不承担汉字识别后生成的文本数据的维护工作。
  其缺点主要有:
  1、同第一种利用方式的缺点。
  2、汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2~3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识 别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低 而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言是无所谓的。
  (四)建立文本数据库。
  这种方式也应用在已有文件目录的条件下使用。其优点主要有:
  1、节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。
  2、为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。
  其缺点主要有:
  1、建立文本数据库的工作量较大。
  2、不能满足用户阅读档案原件的需求。
  3、由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。
  (五)输入目录并保存图像。
  (六)输入目录、建立文本数据库。
  (七)保存图像、建立文本件数据。
  (八)输入目录、保存图像并建立文本数据库。
  这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。
  随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应用方式,但无论使用哪一种方式,都必须符合本单位档案管理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果。
  
  (作者单位:661000云南省红河州财经学校)
其他文献
加强对数学后进生的研究及对数学后进生的转化教育,是当前数学教育所面临的一个最实际最紧迫的问题,也是当今素质教育得以实施的重大举措之一 。下面就数学后进生的转化工作谈谈个人的初步探讨。    一、了解学生,明确方向    了解和研究学生,是教师搞好教学工作的基础和前提。另外,在了解学生的基础上,注意师生之间的情感交流,使学生对老师具有认同感,愿意接受老师的一切。因此教师要严格要求自己,在学生中以身作
期刊
【摘要】本文就信息网络安全内涵发生的根本变化,阐述发展信息安全体系的重要性,论述防火墙的部署原则、防火墙的主要功能、防火墙安全技术的分类、主要技术特征及防火墙的选择。  【关键词】网络安全防火墙技术特征    1、概述    在信息技术快速发展的今天,计算机信息安全问题正面临严峻的挑战。争夺信息资源、获取对方机密、破坏、销毁对方数据等,早已成为一场看不见硝烟的全球性战争。信息安全与国家的政治稳定、
期刊
笛卡尔说过,最有价值的知识是关于方法的知识。德国莱因兰——法耳茨州教育部最近提出了“学生掌握方法比掌握知识更重要的教学观。”在科学知识呈指数性上涨的当今,我国的许多有识之士丰富了弗兰西斯培根“知识就是力量”的名言,提出了“掌握知识的知识才更有力量”之说。  学生是学习的真正主人,是教学过程的主体。教学过程是教与学双边互动的过程,是教师、学生、教材之间多层次和立体化的交流、碰撞过程。体现着学生学,教
期刊
进入完全信息化时代的今天,计算机信息化教学已深入课堂之中,网络媒体让学生更多地在多维信息空间中学习和探索。如何在现代教育中抢先以培养创新能力为中心的素质教育,是当前每个教育工作者面临的一项历史使命。本文从实践出发,阐述在小学信息技术教育教学过程中,如何利用多媒体教学培养学生的信息意识、信息素养、信息技能以及创新思维能力。通过多媒体环境中的文字、声音、影像、动画、视频等激发学生创新思维和求知欲望。教
期刊
学生是教师劳动的对象和产品,产品的优劣直接反映教育的效果,而影响教育效果的诸多因素中,厌学心理应当是罪魁祸首。耕耘在教育第一线的教师不妨剖析一下产生这种不良心理的根源,找出病因,方能对症下药,冶病救人。  一、突飞猛进、日新月异的社会变革,处处弥漫着激烈竟争的硝烟。近年来,国家一系列人事分配制度的改革,加之高科技产品的广泛使用,优化组合、优胜劣汰,人才相对过剩,导致不少大中专毕业生找工作难。到处打
期刊
从同学们的交流中,我们发现古今中外吟咏秋天的诗文确实是佳作迭出,异彩纷呈。今天,我们要学习的现代作家郁达夫的散文精品《故都的秋》更是别具一格,独领风骚。   我们说它写得好,好在哪里?讨论发言。  根据发言,归纳为三点:(一)选材独到(二)情景交融(三)形散神聚。  首先,我们来看在描写故都的秋的时候,作家选用了哪些材料。  秋院的景象、槐树的落蕊、秋蝉的残声、秋雨话秋凉和枣树的奇景。  在故都,
期刊
高中语文课程标准在规定必修课程的阅读目标时,特别强调独立阅读、个性化阅读、探究性阅读、创造性阅读等。教师要为学生的阅读实践创设良好环境,提供有利条件,充分关注学生阅读态度的主动性、阅读需求的多样性、阅读心理的独特性。尊重学生个人的见解,应鼓励学生批判质疑,发表不同意见。教师的点拨是必要的,但不能以自己的分析讲解代替学生的独立阅读。引导学生养成良好的自主阅读习惯,是语文教学的最高境界,它将为学生今后
期刊
我在从事多年的语文教学工作中,深刻体会到阅读训练是语文教学过程的关键一环。语文教学是中小学基础学科的基础,而读的训练则是最基础的,最必要的教学手段。在语文课的教学过程中,通过整体阅读训练,使课文中优秀人物的高尚品质,优美文学的思想情境,生动形象的词句段落,感人至深的抒情描写,对学生的思想、品德、意志、情操产生感染、潜移默化的陶冶和教育作用。这种作用只有对学生进行认真的、过细的、整体的、活泼的、科学
期刊
中学语文教学必须教学生具有现代语文的阅读能力、写作能力和听说能力,具有阅读浅易文言文的能力。即听说读写能力,培养有语文素养的人。这就需要一个学习过程。有人曾说,一个人的学习过程是这样的:小学教学重在“扶”,中学重在“半扶半放”,高中重在“始放”,大学重在“全放”。由此可见,这个过程明显体现出逐步加深,互相联系的关系。这就是人们常说的衔接。何谓衔接?它指事物间相连接。教学大纲也明确提到初中语文教学是
期刊
新的课程改革已在全省各地如火如荼的开展起来,为培养学生的创新意识和创造能力,在课堂教学中使用了多媒体教学的方式,使用多媒体课件能创造出一个图文并茂、有声有色、生动逼真的教学环境,为课堂教学的顺利实施提供形象的表达工具。同时能有效地减轻学生课业负担,激发学习兴趣,使“乐学”真正落到实处。然而,随之而来的负面影响显著起来,主要存在以下误区:    一、多媒体教学的“辅助”功能    多媒体技术作为一种
期刊