大型中文古籍<<四库全书>>自动版面分析系统

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：w168730018

【摘要】

：

《四库全书》是中文古籍的经典和代表。对《四库全书》的整理，可以为其它古籍的整体积累和提供经验。本系统属于《四库全书》电子版专用ＯＣＲ系统的预处理配套系统，主要功能是对《四

【作者】

：

姜哲马少平

【机构】

：

清华大学计算机科学与技术系

【出处】

：

中文信息学报

【发表日期】

：

2000年2期

【关键词】

：

四库全书版面分析汉字识别 OCR技术 Imperial Collection of FourChinese ancient booksDocument la

【基金项目】

：

国家自然科学基金,“86 3”高技术项目资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

《四库全书》是中文古籍的经典和代表。对《四库全书》的整理，可以为其它古籍的整体积累和提供经验。本系统属于《四库全书》电子版专用ＯＣＲ系统的预处理配套系统，主要功能是对《四库全书》的页面图象进行分析和理解，分离图象中的汉字用于识别和统计，获取版面结构以例于重编和出版。《四库全书》属于手写木版印刷，版面有一定规范，但形式多样，结构复杂，图象质量和字体大小有差异，版面分析的难度很大。本系统采用了自顶向下

其他文献

基于数学形态学的自适应文字版面分析方法

随着光学字符识别能力的提高 ,处理日渐复杂的版面成为文件处理系统中的关键部分。针对中文版面的特点 ,在基于组件的版面分析方法基础上 ,本文提出了一种具有自适应能力的基于数学形态学中膨胀变换的版面分析方法。该方法对基于组件版面分析的核心部分 -文字合并进行了自适应扩展 ,使其具有对不同字体大小、间距等样张更大范围的适应能力

期刊

数学形态学膨胀变换组件版面分析字符识别自适应分析自动文件处理MorphologyInflate transformComponentLayo

基于DOP的汉语句法分析技术

本文提出一种以ＤＯＰ技术作为基本框架，同时利用基于相似的概率评估技术，实现汉语句法分析的方法。其中，对于输入语句，首先需要经过词汇层与词性层两层初选。然后，基于已构建知识源，获取

期刊

DOP汉语句法分析相似性评估树库片段库Dataoriented parsingChinese parsingSimilarity estimateT

如何培养学生良好的学习习惯

学生良好的学习习惯，是学习知识、培养自学能力、提高学生素质的重要条件。良好的学习习惯不仅有利于激发学生学习的积极性和主动性；还有利于形成学习策略，提高学习效率；使学生终身受益。下面谈谈几点看法。　　一、存在的主要问题　　经过调查发现目前中学生在学习中，存在着许多不良习惯。如一些学生书写歪七扭八，字迹潦草很难让别人看懂；添字、漏字、错字，漏掉符号、点错符，也常有发生。有些学生做题粗心大意，经常出错，

期刊

学生素质学习习惯培养学习知识自学能力学习策略学习效率终身受益

质量认证效益

质量与效益并不是孤立的两个概念，企业只有提高质量才能获得长久的效益。

期刊

效益成本质量质量认证企业Benefits Cost Quality Quality certification

企业质量教育（培训）探讨

作者根据所在企业的质量教育（培训）工作实践和作者从事质量工作的体会，对质量教育的作用，质量教育的主要环节：职责、规划（计划）、教育内容（方案）、教材和教员、组织实施、成效考核等工

期刊

质量教育企业质量管理Quality education and training Duty Plan Education contents Teachin

基于分解与动态规划策略的汉语未登录词识别

未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名，中国地名和外国译名进行整体识别为目标，采用分解处理策略降低了整体处理难度，并使用动态规划方法实现了最佳路径

期刊

未登录词识别分解处理动态规划汉语自动分词路径搜索整体识别unknown word resolutionleveled strategydynam

Outline字体结构式压缩算法及其实现

针对CJKOutline字体在存储量上存在的不足 ,本文提出一种结构式压缩算法。算法对CJK字体进行集合变换 ,得到笔划集合元素 ;并利用聚类算法得到模板笔划 ;对相似数据进行统一存储与调用。同时 ,本文还提出了一种基于笔划段的笔划抽取算法 ,从图论角度实现了集合变换。结果显示 ,算法取得了较好的效果 ,而且适用于多种字体

期刊

Outline字体结构式压缩算法字体压缩笔划抽取算集合变换压缩原理CJK字符Structural Outline fontfont data c

一种词义与词的混合语言模型及其应用

本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比.这个模型比传

期刊

统计语言模型词义模型词义标注语音识别混淆度存储空间混合模型statistical language modelsemantic and word

基于参照的对词结构操作语义的归纳学习

心理语言学的认知发展过程证明在语言获得的早期经历了一个自主的归纳学习过程，本文的出发点是语言发展的规律，并将词结构形语义的获得和表示基础放在一个具有统一的语言理解和

期刊

归纳学习操作语义计算语言学词结构机器学习Inductive learningOperation semanticsComputational ling

基于ER模型和受限汉语的数据库中文查询语言研究

本文给出了一个基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL(Restrictive Chinese Query Language)及其实现方案,系统模拟人脑对语言处理的并行机制,将中

期刊

关系数据库ER模型受限汉语中文查询语言并行机制语法分析语义分析relational databasenatural language inter

大型中文古籍<<四库全书>>自动版面分析系统

其他学术论文