论汉字码本数据库管理技术

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:hisandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任何一种中文输入法的研究中都会遇到码本的处理问题.在不同的时期,由于应用需求的不同,使得码本呈现出不同的表现形式.本文首先提出了汉字码本数据库的概念,它是指能够实现汉字字符信息到其相应属性的对应关系的数据结构.之后,本文讨论了不同层次上的两种码本:数据库码本和二进制码本.根据实践的经验,文中将不同阶段的汉字码本数据库分成文本文件形式、数据库码本形式和二进制文件形式,并且分别讨论了对这些码本的管理技术.
其他文献
本文从直接合并汉英双语的 phoneset入手 ,对三种不同的汉英双语混合声学建模方法进行了研究。这三种方法分别是 :(1)直接合并二者的 phoneset进行声学建模 ;(2 )基于IPA映射的统一声学表示 ;(3)对汉英双语的Phone进行自动合并聚类。实验结果表明 ,方法 (1)的声学模型较为鲁棒 ,但是建模单元也最多 ,模型不够紧凑 ;方法 (2 )具有紧凑的模型 ,但是鲁棒性较差 ;方法
目的探索糖尿病肾病合并顽固性高血压联合降压的优化方案。方法对36例糖尿病肾病合并顽固性高血压患者随机分为治疗组和对照组,观察两组治疗前后降压情况、副作用和实验证据变
制造业的微笑曲线两端附加值高,中间附加值低。高的一端是产品的设计和技术专利,高的另一端是销售和品牌,中间是加工制造,而两端都属于为制造业服务的服务业。可见.制造业真正赚钱
研究了CL-5209萃淋树脂吸附钍的性能和机理,并用减压微色谱柱考察了相关离子的萃取色谱行为。选择了分离钍的最佳条件,用于矿样中微量钍的分离和测定,取得了满意结果。
对药物不良反应进行科学的监测,最大限度保证患者的用药安全和促进医疗机构合理用药,越来越受到各方重视和普遍关注.近年来我院药物不良反应(ADR)监测工作也受到了各级领导的
笔迹识别作为一种身份识别技术 ,具有自然 ,非入侵等优点 ,因此成为模式识别和机器学习领域的一个研究热点。本文提出了一种与文本无关的笔迹识别方法 ,该方法利用独立分量分析 (IndependentCompo nentAnalysis ,ICA)来提取笔迹的纹理特征 ,并利用竞争学习方法确定笔迹的特征编码。实验结果证明利用该方法进行笔迹识别具有很好的效果。
本文从中文信息面临的问题出发,阐述了中文信息处理走Internet开放变革之路的必要性.文中还介绍了Intemet上已经开展的与中文信息处理相关的部分工作,重点论述了XML在中文信
在系统分析伊犁盆地512砂岩型铀矿床成矿地质背景基础上,阐述了补给区、径流区和排泄区地下水水文地球化学特征,并由此得到矿区氧化带、矿化带地下水化学类型分别为SO4*HCO3-
考虑一类垂直断层效应反演问题,其数学模型是具有解析核的第一类积分方程.因其不适定性,获得它的稳定解非常困难.为获得其数值解,有必要先揭示它的条件稳定性. 由积分方程方
研究生成选词问题对改善机翻系统的翻译质量有重要意义,基于语义模式的选词方法是常用的选词方法,在混合选词模型也扮演了重要角色.本文针对该方法的不足,提出了语义模式自动