一种中文分词后处理反馈算法

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户：wendychenwang

【摘要】

：

分词错误会对未登录词识别产生严重干扰.为解决该问题,本文提出一种对分词结果中的未登录词进行分类,获取分词结果中未登录词的可信度,并将结果反馈至分词程序的算法。分词程

【作者】

：

高嵩周强

【机构】

：

清华大学计算机系,智能技术与系统国家重点实验室,北京,100084

【出处】

：

第七届中文信息处理国际会议

【发表日期】

：

2007年期

【关键词】

：

中文分词后处理未登录词识别分词算法可信度程序整体性能结果反馈后续处理文本实验获取干扰辅助分类抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分词错误会对未登录词识别产生严重干扰.为解决该问题,本文提出一种对分词结果中的未登录词进行分类,获取分词结果中未登录词的可信度,并将结果反馈至分词程序的算法。分词程序可以据此判断是否应当重新进行分词.实验结果表明算法作为分词程序的辅助,有效的避免了分词错误对未登录词识别的影响,提高了分词算法的整体性能,同时可以从文本中抽取出大量的高可信度的未登录词进行后续处理或研究。

其他文献

抓活思想要从调查研究入手——当团支部书记一年来的点滴体会

一九六四年七月,我刚当团支部书記时,工作热情很高,但工作中不注意調查研究,有时不了解情况乱批評人。在一次文娛晚会上,张守申拉的胡琴弦断了,会后我不滿意地指責了张守申

期刊

团支部书记团支部次文琴弦弦断调查研究九六胡琴忆苦思甜毛主席

胸部薄层CT对n 99Tcn m-3PRGDn 2 SPECT/CT显像诊断肺部孤立性占位的增益价值n

期刊

2006年中南·泛珠三角11省(区)炼钢连铸年会录用论文简析

对2006年中南·泛珠三角11省(区)炼钢连铸年会录用的102篇论文,按论文主题分布、论文作者单位分类、各省(区)、市和各单位撰写论文篇数作了归纳统计；简要阐述了科技论文的写作

会议

泛珠三角炼钢连铸年会论文作者主题分布写作要求相关建议论文篇数科技论文单位统计录用基础分类

城市交叉口交通管理对策研究

利用主成分分析——聚类分析法对城市交叉口现状交通运行情况进行了研究,并在此基础上提出针对性的交通管理对策,所提方法具有良好的实践指导意义。 The status quo of traf

期刊

主成分分析聚类分析法交叉口交通管理

精炼钢包用刚玉质无碳预制块砖的研制与应用

以电熔白刚玉、板状刚玉、电熔镁砂、氧化铝微粉、富铝尖晶石微粉等为主原料,研制开发了自结合铝镁(铬)浇注料预制块砖.该预制块砖比传统的钢包浇注料具有更好的抗渣侵蚀和抗

会议

北美神经内分泌肿瘤学会和核医学与分子影像学会有关n 177Lu-DOTATATE肽受体放射性核素治疗患者选择和合理应用共识n

随着n 177Lu-1，4，7，10-四氮杂环十二烷-1，4，7，10-四乙酸-n D-苯丙氨酸1-酪氨酸3-苏氨酸8-奥曲肽(DOTATATE)肽受体放射性核素治疗(PRRT)的日益普及，有关患者合理选择的问题日

期刊

177Lu-DOTATATEn 肽受体放射性核素治疗神经内分泌肿瘤共识

《中华核医学与分子影像杂志》2020年第11期导读

期刊

动词打本义的结构描写及其同义词群建构——一种人机共享的词群-词位变体研究初探

本文认为词义自动标注是语言处理新的奋斗目标,而实现这一目标的首要任务是同义词群的建构。同义词群建构面临词义科学描写与词群构成模式两大难题。本文通过汉语动词"打"的

会议

词义自动标注汉语动词同义词群词群-词位变体构成模式人机共享

基于动态流通语料库(DCC)的中文组织名简称考察与研究

基于动态流通语料库,构建了一系列组织名简称数据库,并对其进行了校对、各项统计、用字分析和缩略规律的初步考察.

会议

动态流通语料库中文组织用字分析数据库校对统计考察规律构建

基于同义词词林的词汇褒贬计算

词汇褒贬分析是文本情感分析研究的基础。本文提出了利用同义词词林来计算词汇褒贬的方法。该方法利用同义词词林中的同义词词群,根据种子词汇扩展得到更大的褒贬义词集合.在

会议

情感分析词汇褒贬中文同义词词群同义词词林种子词汇

一种中文分词后处理反馈算法

其他学术论文