基于子串标注的中文分词:寻找更佳的标注单元

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户：caifei123456

【摘要】

：

由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来。基于字标注的统计学习方法引起

【作者】

：

赵海;揭春雨;

【机构】

：

香港城市大学中文翻译及语言学系,香港九龙达之路83号

【出处】

：

第九届全国计算语言学学术会议

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来。基于字标注的统计学习方法引起了广泛的关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法.该方法的有效性在Bakeoff-2005评测语料上获得了验证。

其他文献

天丝苎麻交织平纹布的染整工艺探讨

天丝/苎麻交织平纹布采用气体加热式磁棒烧毛机,织物通过与浮游的灼热磁棒进行接触将布面绒毛烧除;退煮漂采用平幅冷轧堆工艺,减少织物的折皱和擦伤,且毛效和手感好;采用半丝

会议

天丝苎麻交织平纹布染整工艺树脂整理

杨树ProWOX11启动子克隆及组织特异表达分析

作为拟南芥AtWOX11的同源基因,杨树PeWOX11a和PeWOX11b基因在不定根发生及形态建成过程中发挥重要重要.过表达的PeWOX11a和PeWOX11b转基因杨树不仅不定根数量显著增加,而且在

期刊

Promoter analysisWOX11Adventitious root developmentSpecific expression

三种文摘评测方法的比较

我们使用2005年多语摘要评测资料来比较三种文摘评测方法:ROUGE,基本要素,金字塔方法。我们发现如何辨认复述是阻碍现行技术进展的主要挑战之一。

会议

评测方法技术进展金字塔资料要素复述辨认

半结构化的基于实例的机器翻译

本文介绍了一种半结构化的基于实例的机器翻译方法。该方法将双语翻译实例表示为半结构化的树串映射,一个树串映射由三部分组成:源语言分析树、目标语词串、及它们之间互译词

会议

基于结构化句法信息的自然语言处理技术研究

结构化的句法信息在较高层次的自然语言处理研究中起着关键作用。不过哪些结构化的句法信息是有效的以及如何在具体研究中有效体现结构化的句法信息依然是悬而未决的问题。本

会议

中文自动分词的一些问题

自动分词是中文信息处理系统的基础,有着极其广泛的实际应用。为了了解自动分词当前实际应用中的情况,作者使用第三代智能分词系统3GWS对2006年3月《人民日报》的300个新闻文

会议

禾本科植物NBS-LRR型抗病基因的进化分析

运用生物信息学方法分析了禾本科植物水稻、高粱、二穗短柄草、玉米中NBS-LRR型抗病基因的进化特征,发现NBS-LRR型抗病基因在染色体上分布不均等,且大部分都位于基因簇中.NBS

期刊

Disease resistance genesTandem duplicationGene clusterPositive selection

UGC中产品评论信息的挖掘

随着web2.0的发展,Blog(博客)以及其他注重用户体验的各种新技术可以让很多普通用户(草根用户)方便快捷的通过自己的博客、社区或论坛,发布自己的心情和感想,其中包括对某企

会议

角色生活点滴

“角色的生活不是仅仅出现在舞台上,在演员自己的生活中,你的周围发生任何一件事情,你都应该尝试着以角色的身份去接触,这样角色就永远伴随着你……”库里涅夫专家在下课之

期刊

生活点滴规定情境剧作家中央戏剧学院刘燕瑾白玉山库里舞台自我感觉骤雨挑皮

分词规范亟需补充的三方面内容

本文认为,要构建高质量的健分词语料库亟需在现有的分词规范中着重补充以下三方面的内容：(1)命名实体(人名、地名、机构名)标注细则;(2)表义字串(数字、时间、日期、电子邮箱

会议

基于子串标注的中文分词:寻找更佳的标注单元

其他学术论文