论文部分内容阅读
一、“横竖撇点”四类
汉字是由单笔画组成的,了解与分析汉字的基本笔画是汉字字形编码、排序与检索研究的基础。
组成汉字的基本笔画有二十多种,如横(一)、竖(丨)、撇(丿)、点(丶)、捺(乀)、多种横折(乛乁乙)、多种竖折(亅乚)、多种撇折(く纟)等等,利用这些基本笔画就可以对汉字进行编码、排序与检索。但在汉字中,这些基本笔画的使用频度很不均衡,如横(一)竖(丨)撇(丿)点(丶)四种笔画分布很广,而十多种不同的折笔画分布很稀,这样的编码与排检方法不仅效率低而且使用困难。
对于基本笔画多而杂且分布不均匀的问题,一个合理的解决方法是把基本笔画分为几类,把每个类作为分辨单元应用于汉字的编码与排检中。
对汉字基本笔画怎样进行分类呢?最简单直观的分类是按基本笔画起笔的走向来分,分为四类:
1.起笔画是从左到右:横,横提,各种横折笔画;
2.起笔画是从上到下:竖,各种竖折;
3.起笔画是从右上到左下:撇,各种撇折;
4.起笔画是从左上到右下:点,捺,捺钩。
通过笔画“横竖撇点”的四个走向来分,分类标准明确,概括性好,容易理解,各个基本笔画的归类都没有二义性。
把汉字基本笔画分为“横竖撇点”四类,各类在汉字中的分布情况如何呢?下表是对汉字第一笔画(第一码)的类别进行统计的数据,统计对象是三个字符集:一是常用2500字,二是GB2312的6763个字,三是GBK的21003个字。

可以看到,由于类数少,每类都包含了大量的汉字,并且分布不均匀。撇类与点类中的汉字数与平均数(25%)相当,但横区、竖区与平均数都相差约9%。
二、“横竖撇点折”五类
以“横竖撇点”四类为基础,把横与横折、竖与竖折、撇与撇折分开,把分出来的横折、竖折与撇折笔画另作为一类(折类),就形成了“横竖撇点折”五类的分类方法。
这种分类方法的优点是增加了一个类别,也减少了各类中的汉字数目,也就增加了每个类别对汉字的分辨率。
缺点是失去了基本笔画分类的明确准则,既不是按笔画的走向分类,如横折(乛)与竖折(乚),横折撇(乛)与撇折点(く),收笔的走向也不同;也不是按笔画的形状来分类,因为横折(乙)与撇折(く)等形状都很不同。
把这些不同的折笔画归为一类,主要的原因应该是增加分类数,减少各类中汉字的数目,以提高字形编码和排序检索方法的效率。
同样以三个字符集为统计对象,对汉字第一笔画(第一码)的类别进行统计,“横竖撇点折”五类在汉字中的分布情况如下表所示:

可以看出,横区与折区中汉字数目与平均数相差很大(9%)。
把汉字基本笔画分为“横竖撇点折”五类,已写入1965年中华人民共和国文化部和中国文字改革委员会发布的《印刷通用汉字字形表》,以及随后的有关国家语言文字标准与规范中,并被广泛地应用于汉字字形编码与排序检索等中文信息技术处理领域。
汉字字形编码方案已申请专利的有百多种,已形成产品使用的也有十多种,这些方案都采用了汉字基本笔画分“横竖撇点折”五类的国家语言文字标准规范,实际的效果如何呢?以下以具有代表性的两种形码方案为例进行分析。
“五笔字型”汉字输入法是字根类形码输入法,其字根表排布规则是把字根按其第一笔画的“横竖撇点折”分五个区,按字根第二笔画的“横竖撇点折”在区内分五个位,形成25个码。其结果是汉字在各个码中的分布极不均匀,如第一笔画是横,第二笔画是竖的字根有:十扌土艹木等;第一笔画是撇,第二笔画是竖折的字根有冂口囗日目见贝等,这些码上集中了太多的汉字,而第一笔是横,第二笔是折的字根却很少。如果要保持字根排布的规律性,即保持字根表的易记性,那么重码就太多,使得编码的效率很低,低过拼音输入法,而没有意义。为此五笔字型对字根做了大量的跨区跨位调整,重码率降低了,但字根表的序性破坏了,难学难记了。失去了严格序性的字根表,不适合用数字做编码符号,也就不能适用于数字键盘与手机。
其它的字根码类输入法也都同样地采用了基本笔画按“横竖撇点折”分五类的规范,不同是选用的字根有所不同,字根所在的位置有所不同,方案的实际效果与“五笔字型”相似。
“二笔”汉字输入法是双笔画类输入法,即把两个笔画的组合作为输入码,字根表也按第一笔画的“横竖撇点折”分五个区,按第二笔画的“横竖撇点折”在区内分五个位,形成25个输入码,其结果同样是汉字在各个码上的分布极不均匀。二笔输入法为了克服重码的问题,把字音做为补充码。由于拼音字母与数字没有直接的对应关系,因此二笔输入法也只适用于电脑的字母键盘,而不能适用于数字键盘与手机。
20多年的汉字字形编码方案研究的实践,都遵循了汉字基本笔画分为“横竖撇点折”五类的国家标准,用它来规范形码字根表的分区排位,结果都没有做到汉字形码易学易记与快速高效的统一,都没有做到同一个方案在电脑字母大键盘、数字小键盘和手机上的统一通用。
三、“横竖撇点”四类、“横横竖撇点”五区
“和码”汉字输入法把汉字基本笔画分为“横竖撇点”四类,因横类集中了太多的汉字,在字根表分区上,将横类分为两个区,即把与其它笔画相离相接的横或横折作一个区,把与其它笔画相交的横(如扌土艹大木等)作为另一个区,在区内把字根按由简到繁的顺序排位。“和码”输入法的字根区位表如下:

和码字根表的分类分区方法,保留了基本笔画分“横竖撇点”四类的标准明确、概括性直观性好等优点,字根表有严格的顺序规则。把这个顺序用12345五个数字表示,就形成了25个数字码,数字化后的和码,不仅易学易记,还能在电脑的字母键盘与数字键盘上使用,也能在手机键盘上使用,从而实现了和码在不同的输入设备上完全的统一通用。
同样以三个字符集为统计对象,对汉字第一笔画(第一码)的区号进行统计,和码的“横横竖撇点”五区在汉字中的分布情况如下表所示:

以GB2312字符集(6763字)为统计对象,对汉字第一笔画(第一码)的类别或区号进行统计,把三种不同分类分区方法在汉字中的分布情况,按汉字分配比例数由大到小顺序排列,比较如下:

可以看到,和码的分类分区方法,使汉字在各区中的分布更为均匀,从而为汉字在25个码上的均匀分布,为减少重码提高输入速度提供了可能。从实际的编码统计数据来看,“和码”与“五笔字型”和“二笔”输入法相比,重码更少些,输入速度更快些。
四、总结
从上面的对比分析可以看出,因采用的基本笔画分类方法的不同,汉字形码编码方案的效果有着很大的差别。只有改变基本笔画的分类方法,汉字形码方案才会有突破。
把汉字基本笔画分为“横竖撇点折”五类,从分类的概念上看,有标准不明确的问题,从字形编码的应用效果上看,没有“和码”采用的分类分区效果好,把这种基本笔画分类方法作为国家语言文字标准规范,用于“对中文信息处理,特别是对汉字键盘输入方法”起规范作用,其合理性值得进一步探讨。
参考文献:
[1]GB2312-1980.信息交换用汉字编码字符集—基本集[S].1981.
[2]现代汉语常用字表[S].
[3]汉字内码扩展规范(GBK)[S].1.0版
[4]GF2001—2001.GB13000.1字符集汉字折笔规范[S].2001.
[5]王永民.规范王码汉字电脑输入法及其键盘[P].中国专利号,98100684.1.
[6]陈劲松.汉字阴阳双极声韵形码输入系统[P].中国专利号,96103095.X.
[7]欧阳贵林.和码汉字数字输入法[P].中国专利号:ZL2004 1 0017084.6.
[8]冯志伟.信息时代汉字的标准化与共通化[EB/OL].http://www.china-language.gov.cn/doc/fengzhiwei-lectures/02.pps
(欧阳贵林,软件工程师,现居住加拿大渥太华市)
汉字是由单笔画组成的,了解与分析汉字的基本笔画是汉字字形编码、排序与检索研究的基础。
组成汉字的基本笔画有二十多种,如横(一)、竖(丨)、撇(丿)、点(丶)、捺(乀)、多种横折(乛乁乙)、多种竖折(亅乚)、多种撇折(く纟)等等,利用这些基本笔画就可以对汉字进行编码、排序与检索。但在汉字中,这些基本笔画的使用频度很不均衡,如横(一)竖(丨)撇(丿)点(丶)四种笔画分布很广,而十多种不同的折笔画分布很稀,这样的编码与排检方法不仅效率低而且使用困难。
对于基本笔画多而杂且分布不均匀的问题,一个合理的解决方法是把基本笔画分为几类,把每个类作为分辨单元应用于汉字的编码与排检中。
对汉字基本笔画怎样进行分类呢?最简单直观的分类是按基本笔画起笔的走向来分,分为四类:
1.起笔画是从左到右:横,横提,各种横折笔画;
2.起笔画是从上到下:竖,各种竖折;
3.起笔画是从右上到左下:撇,各种撇折;
4.起笔画是从左上到右下:点,捺,捺钩。
通过笔画“横竖撇点”的四个走向来分,分类标准明确,概括性好,容易理解,各个基本笔画的归类都没有二义性。
把汉字基本笔画分为“横竖撇点”四类,各类在汉字中的分布情况如何呢?下表是对汉字第一笔画(第一码)的类别进行统计的数据,统计对象是三个字符集:一是常用2500字,二是GB2312的6763个字,三是GBK的21003个字。

可以看到,由于类数少,每类都包含了大量的汉字,并且分布不均匀。撇类与点类中的汉字数与平均数(25%)相当,但横区、竖区与平均数都相差约9%。
二、“横竖撇点折”五类
以“横竖撇点”四类为基础,把横与横折、竖与竖折、撇与撇折分开,把分出来的横折、竖折与撇折笔画另作为一类(折类),就形成了“横竖撇点折”五类的分类方法。
这种分类方法的优点是增加了一个类别,也减少了各类中的汉字数目,也就增加了每个类别对汉字的分辨率。
缺点是失去了基本笔画分类的明确准则,既不是按笔画的走向分类,如横折(乛)与竖折(乚),横折撇(乛)与撇折点(く),收笔的走向也不同;也不是按笔画的形状来分类,因为横折(乙)与撇折(く)等形状都很不同。
把这些不同的折笔画归为一类,主要的原因应该是增加分类数,减少各类中汉字的数目,以提高字形编码和排序检索方法的效率。
同样以三个字符集为统计对象,对汉字第一笔画(第一码)的类别进行统计,“横竖撇点折”五类在汉字中的分布情况如下表所示:

可以看出,横区与折区中汉字数目与平均数相差很大(9%)。
把汉字基本笔画分为“横竖撇点折”五类,已写入1965年中华人民共和国文化部和中国文字改革委员会发布的《印刷通用汉字字形表》,以及随后的有关国家语言文字标准与规范中,并被广泛地应用于汉字字形编码与排序检索等中文信息技术处理领域。
汉字字形编码方案已申请专利的有百多种,已形成产品使用的也有十多种,这些方案都采用了汉字基本笔画分“横竖撇点折”五类的国家语言文字标准规范,实际的效果如何呢?以下以具有代表性的两种形码方案为例进行分析。
“五笔字型”汉字输入法是字根类形码输入法,其字根表排布规则是把字根按其第一笔画的“横竖撇点折”分五个区,按字根第二笔画的“横竖撇点折”在区内分五个位,形成25个码。其结果是汉字在各个码中的分布极不均匀,如第一笔画是横,第二笔画是竖的字根有:十扌土艹木等;第一笔画是撇,第二笔画是竖折的字根有冂口囗日目见贝等,这些码上集中了太多的汉字,而第一笔是横,第二笔是折的字根却很少。如果要保持字根排布的规律性,即保持字根表的易记性,那么重码就太多,使得编码的效率很低,低过拼音输入法,而没有意义。为此五笔字型对字根做了大量的跨区跨位调整,重码率降低了,但字根表的序性破坏了,难学难记了。失去了严格序性的字根表,不适合用数字做编码符号,也就不能适用于数字键盘与手机。
其它的字根码类输入法也都同样地采用了基本笔画按“横竖撇点折”分五类的规范,不同是选用的字根有所不同,字根所在的位置有所不同,方案的实际效果与“五笔字型”相似。
“二笔”汉字输入法是双笔画类输入法,即把两个笔画的组合作为输入码,字根表也按第一笔画的“横竖撇点折”分五个区,按第二笔画的“横竖撇点折”在区内分五个位,形成25个输入码,其结果同样是汉字在各个码上的分布极不均匀。二笔输入法为了克服重码的问题,把字音做为补充码。由于拼音字母与数字没有直接的对应关系,因此二笔输入法也只适用于电脑的字母键盘,而不能适用于数字键盘与手机。
20多年的汉字字形编码方案研究的实践,都遵循了汉字基本笔画分为“横竖撇点折”五类的国家标准,用它来规范形码字根表的分区排位,结果都没有做到汉字形码易学易记与快速高效的统一,都没有做到同一个方案在电脑字母大键盘、数字小键盘和手机上的统一通用。
三、“横竖撇点”四类、“横横竖撇点”五区
“和码”汉字输入法把汉字基本笔画分为“横竖撇点”四类,因横类集中了太多的汉字,在字根表分区上,将横类分为两个区,即把与其它笔画相离相接的横或横折作一个区,把与其它笔画相交的横(如扌土艹大木等)作为另一个区,在区内把字根按由简到繁的顺序排位。“和码”输入法的字根区位表如下:

和码字根表的分类分区方法,保留了基本笔画分“横竖撇点”四类的标准明确、概括性直观性好等优点,字根表有严格的顺序规则。把这个顺序用12345五个数字表示,就形成了25个数字码,数字化后的和码,不仅易学易记,还能在电脑的字母键盘与数字键盘上使用,也能在手机键盘上使用,从而实现了和码在不同的输入设备上完全的统一通用。
同样以三个字符集为统计对象,对汉字第一笔画(第一码)的区号进行统计,和码的“横横竖撇点”五区在汉字中的分布情况如下表所示:

以GB2312字符集(6763字)为统计对象,对汉字第一笔画(第一码)的类别或区号进行统计,把三种不同分类分区方法在汉字中的分布情况,按汉字分配比例数由大到小顺序排列,比较如下:

可以看到,和码的分类分区方法,使汉字在各区中的分布更为均匀,从而为汉字在25个码上的均匀分布,为减少重码提高输入速度提供了可能。从实际的编码统计数据来看,“和码”与“五笔字型”和“二笔”输入法相比,重码更少些,输入速度更快些。
四、总结
从上面的对比分析可以看出,因采用的基本笔画分类方法的不同,汉字形码编码方案的效果有着很大的差别。只有改变基本笔画的分类方法,汉字形码方案才会有突破。
把汉字基本笔画分为“横竖撇点折”五类,从分类的概念上看,有标准不明确的问题,从字形编码的应用效果上看,没有“和码”采用的分类分区效果好,把这种基本笔画分类方法作为国家语言文字标准规范,用于“对中文信息处理,特别是对汉字键盘输入方法”起规范作用,其合理性值得进一步探讨。
参考文献:
[1]GB2312-1980.信息交换用汉字编码字符集—基本集[S].1981.
[2]现代汉语常用字表[S].
[3]汉字内码扩展规范(GBK)[S].1.0版
[4]GF2001—2001.GB13000.1字符集汉字折笔规范[S].2001.
[5]王永民.规范王码汉字电脑输入法及其键盘[P].中国专利号,98100684.1.
[6]陈劲松.汉字阴阳双极声韵形码输入系统[P].中国专利号,96103095.X.
[7]欧阳贵林.和码汉字数字输入法[P].中国专利号:ZL2004 1 0017084.6.
[8]冯志伟.信息时代汉字的标准化与共通化[EB/OL].http://www.china-language.gov.cn/doc/fengzhiwei-lectures/02.pps
(欧阳贵林,软件工程师,现居住加拿大渥太华市)