提高汉语自动分词精度的多步处理策略

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：linlong__

【摘要】

：

汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步

【作者】

：

赵铁军吕雅娟于浩杨沐昀刘芳

【机构】

：

哈尔滨工业大学计算机科学与技术学院

【出处】

：

中文信息学报

【发表日期】

：

2001年1期

【关键词】

：

汉语自动分词多步处理消除伪岐义句子全切金部分确定性切分数词串处理重叠词处理 Chinese segmentation ambiguity mult

【基金项目】

：

国家高技术研究发展计划(863计划)，国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略，整个处理步骤包括7个部分，即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达98％以上。

其他文献

全国政策咨询工作会议在昆明召开

国务院发展研究中心主任张玉台作主题报告，提出今年政策咨询工作需要深入研究的若干重大问题

期刊

政策咨询工作国务院发展研究中心昆明主题报告张玉台主任

中国经济正步入又好又快发展的轨道

过去的五年，是中国特色社会主义事业蓬勃发展的五年。在国际环境复杂多变和国内改革发展任务艰巨繁重的情况下，中国的改革开放和现代化建设扎实推进，取得了举世瞩目的辉煌成就。

期刊

中国经济中国特色社会主义事业轨道现代化建设国内改革国际环境改革开放

民生工程资金筹集及管理机制研究——以安徽为基点

近年来，国家实施一系列重大民生工程，努力推进“学有所教、劳有所得、病有所医、老有所养、住有所居”目标的实现，取得明显成效，人民群众普遍欢迎，社会反响强烈。民生工程资金筹集

期刊

资金筹集管理机制安徽省民生工程财政收入总量基点人民群众

环境侵权的特点及其法律完善

所谓环境侵权，是指行为人损害当事人的环境权益，而应承担的一种法律责任。由于现代大工业的发展以及与之相应的人群居住越来越集中趋势，环境因素日显重要，环境侵权案件也越来越集

期刊

环境侵权法律完善可持续发展环境权益法律责任环境因素侵权案件人民群众

奥巴马时代开幕

美国，每年一月份的第三个星期一是马丁·路德·金纪念日。这也是惟一一个以人名命名的联邦节日（华盛顿纪念日和林肯纪念日自1971年起被合并为总统日）。当这位黑人民权运

期刊

林肯纪念堂黑人民权运动巴马美国总统星期一华盛顿BBC入住

确保粮食安全：一项长期而艰巨的“课题”

“2007年全球粮食价格上涨、工业品价格上涨受到百姓关注，并引起中国政府重视。今年粮食安全问题再次成为我们的重点研究课题。”1月14日，国务院发展研究中心农村部研究员崔晓

期刊

粮食安全问题国务院发展研究中心课题价格上涨中国发展政府重视工业品研究员

25例新生儿窒息血清钠及钙的变化分析

目的分析新生儿窒息血清Na+、Ca2+变化的临床意义.方法对25例窒息新生儿检测血清Na+、Ca2+与正常新生儿对照.结果窒息组较正常组新生儿Na+、Ca2+低,其值与窒息程度呈正相关.

期刊

新生儿窒息血清钠离子钙离子

颈椎前路融合器在颈椎外科中的应用（附12例分析）

目的评价颈椎前路螺纹融合器Cage用于颈椎外科的作用和价值.方法对12例神经根型或脊髓型颈椎病患者行颈前路减压、Cage椎体间融合术.结果随访6～12个月,全组病例植骨融合良好,

期刊

颈椎应用前入路融合器

妇科恶性肿瘤多药耐药基因P-gp表达

期刊

妇科恶性肿瘤多药耐药基因P-GP基因表达妇科肿瘤

性病门诊护理体会

性病是通过性接触为主要传播途径的传染病,它是一组生物-心理-社会性疾病,它的发生、传播和控制涉及社会各方面许多因素,不同于一般传染病的控制环节,具有潜伏性和扩展性强的

期刊

性病门诊护理交叉感染负性心理健康教育

提高汉语自动分词精度的多步处理策略

其他学术论文