论文部分内容阅读
随着信息化建设的发展,当今社会对汉字信息化的需求日益增加。汉字作为使用人数最多的语言,历史悠久、总量庞大,现存字符集标准已包含7万余字,据专家估计,汉字总量超过30万,算上异体字总量可能超过100万。即使是对于最常用的宋体,多数厂商现存字库收字数量一般是27000多字,远远不能满足全汉字和大规模字库的需求。现有的字库制作方法依赖人工、效率较低,传统字库制作方法完成一个两万多字的字库需要5人年。本文提出一种由计算机自动生成字库的方法,可以节约人力、提高造字效率。 本文使用一款宋体GBK字库人工拆分而得的部件集作为构建基本部件库的数据集,定义了部件库构建原则与参数,构建了一个冗余的基本部件库,其中包含原型部件3194个,子部件6809个,典型部件15638个。基于部件库,本文提出一种引入部件搭配统计数据的组字算法,并对部件库的数据稀疏情况进行分情况处理。随后,本文根据书法理论资料中对于书法字的美学规则定性描述,量化书法规则,对组字结果进行基于书法美学规则的优化。本文使用ISO/IEC10646 CJK扩展A区中的6092个字作为测试集进行拼字实验,采用国际标准的表意文字描述序列IDS作为字的结构化描述输入。实验结果可生成汉字5339个,根据实验者主观判定的好样例数占实验集总数的85%,取得了较好的拼字结果。实验结果的字形完全由计算机自动生成,不需要人工干预,耗时较少,大大提高了造字效率、节约了人工工作。本文方法采用文本格式的国际标准表意文字描述序列(IDS)作为输入,输入简单,特别适用于没有样字的大规模字符集的扩充,也可用于冷僻字的互联网传输和显现。