分词规范亟需补充的三方面内容

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zjubaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文认为,为提高语料库的分词标注质量应在分词规范中补充三个内容:①命名实体(人名、地名、机构名)标注细则;②表义字串(日期、时间、百分数等)标注细则;③歧义字串的消解细则。因为一方面命名实体和表义字串已被不少分词语料库视为分词单位,另一方面在以往的分词规范中几乎从不谈及歧义消解问题。其实人们对歧义字串的语感往往是不同的。因此有必要在规范中对典型的歧义字串予以说明。实践表明,在规范中交待清楚以上三方面内容,就可以在很大程度上避免标注的错误和不一致性。
其他文献
翻译经济类文本,要求译者能准确客观完整再现原文内容;功能对等理论要求用最贴切自然的对等语再现源语信息,使译文读者与原文读者的反应基本一致。从经济类文本翻译实践出发,
2005年度863计划中文信息处理与智能人机接口技术评测于2005年9月20-22日举行。本次评测涉及机器翻译、语音识别、信息检索三大类技术。本文给出了此次评测的组织过程、参评
目的分析Adropin蛋白、肌钙蛋白和α-平滑肌肌动蛋白(α-smooth muscle actin,α-SMA)评估冠状动脉性心脏病(coronary heart disease,CHD)经皮冠脉介入术(PCI)患者预后的临床
<正>~~
期刊
专利法律信息是专利信息的重要组成部分,一般可分为法律状态信息、权利要求信息、专利诉讼信息和其他法律信息四种,其他法律信息包括同族专利信息等。文章从这四种专利法律信
2008年,第七届“全国口译大会暨国际研讨会”在广东外贸外贸大学召开,大会邀请到国际口译研究界两位代表人物Daniel Gile和Franz Poechhacker参会并作主旨发言。会议期间,为了让
小学高段的学生即将步入初中的学习,对其阅读感悟能力的培养为今后学习与生活提供便利。经过小学中低年级段的语文学习与积累,学生到了高年级已经有了一定的知识基础,并掌握
采用青藏高原东南部的水文气象资料,对比分析了该地区23个(区间)流域的年径流深、集中度与集中期、基流系数、退水系数等径流特征及其空间分布规律,并进一步研究了这些径流特
本文对汉语句法规则的自动构造方法进行了一些探索。通过对汉语句法规律的总结的提炼,提出了一套简单灵活的汉语句法元规则描述体系,包括结构元规则集、标记特征表和中心标记表
目的探讨小细胞肺癌(small cell lung cancer,SCLC)患者巨噬细胞炎性蛋白-3α(MIP-3α)、趋化因子C-C-基元受体6(CCR6)表达在预测胸腔镜肺癌根治术后复发转移中的临床价值。