一种统计与规则结合的汉字自动生成技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:exiaodong1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化建设的发展,当今社会对汉字信息化的需求日益增加。汉字作为使用人数最多的语言,历史悠久、总量庞大,现存字符集标准已包含7万余字,据专家估计,汉字总量超过30万,算上异体字总量可能超过100万。即使是对于最常用的宋体,多数厂商现存字库收字数量一般是27000多字,远远不能满足全汉字和大规模字库的需求。现有的字库制作方法依赖人工、效率较低,传统字库制作方法完成一个两万多字的字库需要5人年。本文提出一种由计算机自动生成字库的方法,可以节约人力、提高造字效率。  本文使用一款宋体GBK字库人工拆分而得的部件集作为构建基本部件库的数据集,定义了部件库构建原则与参数,构建了一个冗余的基本部件库,其中包含原型部件3194个,子部件6809个,典型部件15638个。基于部件库,本文提出一种引入部件搭配统计数据的组字算法,并对部件库的数据稀疏情况进行分情况处理。随后,本文根据书法理论资料中对于书法字的美学规则定性描述,量化书法规则,对组字结果进行基于书法美学规则的优化。本文使用ISO/IEC10646 CJK扩展A区中的6092个字作为测试集进行拼字实验,采用国际标准的表意文字描述序列IDS作为字的结构化描述输入。实验结果可生成汉字5339个,根据实验者主观判定的好样例数占实验集总数的85%,取得了较好的拼字结果。实验结果的字形完全由计算机自动生成,不需要人工干预,耗时较少,大大提高了造字效率、节约了人工工作。本文方法采用文本格式的国际标准表意文字描述序列(IDS)作为输入,输入简单,特别适用于没有样字的大规模字符集的扩充,也可用于冷僻字的互联网传输和显现。
其他文献
立体电影的上马,譬如阿凡达的热映,引发了人们对立体电影的竞相追捧。立体电影的原理是利用人双眼的视角差和会聚功能,而产生了三维立体的效果。多视点视频技术,由于是立体电
随着现代服务业的快速发展和企业信息化的逐步推进,企业级应用开发成为了软件平台厂商和软件工程学术界关注的一大焦点。通过对主流的面向对象开发范型的分析可以发现,现有的
作为隐私保护的重要手段,匿名鉴别机制引起了各界的广泛关注,口令鉴别作为应用最广泛的鉴别方式,研究设计仅依赖于口令的匿名鉴别系统具有重要意义。在此背景下,国际标准化组织IS
Maze文件共享系统是北京大学网络实验室在2005年发布的一款软件,主要服务于教育网的用户,它是一款基于P2P的软件,同时Maze也是一个很好的研究P2P的平台。用户下载并安装Maze
当前随着因特网技术的高速发展与广泛应用,虚拟社区已经成为个人或组织间交流信息、共享知识的重要手段。在以知识共享为目的的虚拟社区中,社区成员既是知识的提供者,又是知
随着互联网的不断发展,越来越多的网页成为了历史网页,这些网页虽然很少能被查询到,但其中依旧蕴藏着丰富的知识。中文历史网页库(Web InfoMall)保存了超过50亿的中文历史网
高分辨率遥感影像目标检测是分析理解影像、自动提取和处理影像中目标信息的重要手段,是军事对抗中捕获战略打击军事目标和智能化民用系统(如灾害监测、资源勘查、海事渔业、交
近些年来,小卫星由于其体积小、成本低、研制周期短等独特的优势,受到了国内外研究者的广泛关注,并被逐渐应用于军事、科学研究等领域。随着小卫星技术的发展,投入使用的小卫星数
随着数字化文本信息在当今时代的广泛普及和应用,文本图像结构和内容的智能分析逐渐成为图像处理和计算机视觉领域的研究热点。表格,作为数字文本图像中经常出现的一种信息表
学位