一种适用于机器翻译的汉语分词方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:zxf3896641
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语分词是构建汉语到其他语言机器翻译系统的一项重要工作.基于单语的分词不一定完全适合机器翻译,一个适合于机器翻译所需要的分词方法,应该考虑到机器翻译所具有的双语特点.本文提出了一种单语和双语知识相结合的适应于统计机器翻译系统的分词方法.首先利用对齐可信度的概念从双语平行语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将可信对齐分词的结果和单语分词工具的结果相结合,构建出一个新的分词训练语料,并用CRF分词模型训练出一个融合了单双语信息的分词工具.本文用该工具对机器翻译所需的训练语料、开发语料和测试语料进行分词并在基于短语的统计机器翻译系统上进行实验.实验结果表明,本文所提的方法提高了系统性能.
其他文献
国际民航组织于1983年成立了未来航行系统(FANS)特别委员会,对现行使用的陆基系统的局限性与未来星基系统进行了充分的研究与论证,并于1988年提出了以卫星技术为特征的通信、
介绍了煤矿井下用梭车的主要作用和整体结构,结合多年的维护经验,对梭车制动器的日常维护和故障排查进行了详细说明,并对梭车卷电缆装置的维护以及拆解安装过程进行了详细介
采用高压密闭微波消解仪预处理煤样,并用冷原子吸收分光光度法测定其中的汞.研究发现,选择硝酸-盐酸-氢氟酸-双氧水体系可将煤样有效消解,利用国家标准物质GBW(E)110108煤103
评价是信息检索研究长期关注的焦点,推动信息检索技术的进步.在简要分析Cranfield评价的优点和不足、基于检索日志进行检索评价的巨大潜力后,本文论述从搜索日志中获得可靠文
会议
利用计算流体力学的原理和方法,结合水力旋流器的分离机理,采用RSM湍流模型对水力旋流器湍流场进行数值模拟研究,揭示了尚不能用实验方法获得的湍流特征参数——湍动能和湍流
汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义.本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法.首先对双语语料进行词对齐训练,
通过热解将煤转化为一种清洁能源是煤清洁利用的一种重要途径.通过将煤与PVC在一定比例下热压成型后,制备成型半焦过程中PVC的添加对成型半焦性质的影响.采用扫描电镜、热值
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,本文提出了CMWEPM模型.该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽
会议
为了提高薄煤层综采工作面生产效率,降低生产一线工人的劳动强度,需要在综采工作面设计一套巡检自动化控制系统,改善液压支架自动跟机精度控制,改善采煤机跟机视频效果,提供
对GB/T 214-2007《煤中全硫的测定方法》中艾氏卡混合剂熔样-硫酸钡沉淀法测定煤中全硫测定结果的不确定度进行评定,通过对影响煤中全硫含量测定结果的不确定度分量进行分析