论文部分内容阅读
《四库全书》是中文古籍的经典和代表。对《四库全书》的整理,可以为其它古籍的整体积累和提供经验。本系统属于《四库全书》电子版专用OCR系统的预处理配套系统,主要功能是对《四库全书》的页面图象进行分析和理解,分离图象中的汉字用于识别和统计,获取版面结构以例于重编和出版。《四库全书》属于手写木版印刷,版面有一定规范,但形式多样,结构复杂,图象质量和字体大小有差异,版面分析的难度很大。本系统采用了自顶向下