基于Multigram语言模型的主动学习中文分词

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:Dutch_deamer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型。提出了一种基于置信度的主动学习分词算法。使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
其他文献
妈祖文化具有世界性、海洋性、民俗性、区域性的特征。妈祖民俗文化承载着中华优秀传统文化的精神理念,因此,中学美术教师在美育教学中渗透妈祖民俗文化的元素,让学生认识到
基于网络的语言教学是教育和教学的新型领域,已经渗透到第二语言和外语教学中,并显示出强大的生命力。本文旨在介绍基于网络的英语写作教学的效果和优势,在今后的英语教学中应大
本文提出了一种基于关键词的中文文档图像检索方法,能在不经OCR(Optical Character Recognition)识别的情况下,直接利用中文字符的图像特征进行关键词检索。首先将文档图像分割成单个中文字符图像,接着对字符图像进行汉字笔画的特征数据提取,然后在特征数据间进行基于WMHD(Weighted Modified Hausdorff Dis-tance)的相似性测量。该方法不受字号的
简介:本书对变频器原理、构成、种类及对电动机控制方式、变频器用的元件、质量可靠性做了详细介绍;对控制速度位置、张力、流量、温度、压力、响应速度、精度、反向负载、冲击
我国失业保险制度自建立以来,经过30多年的发展,为保障我国非自愿失业的在职职工维持基本生活和促进其再就业做出了极大贡献。然而当前我国失业保险给付标准尚不完善,绝大多
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支
全球领先的工业控制制造集团丹佛斯携其最新换代升级的变频器FC300、FCD300和MCD3000系列产品亮相2006华南国际包装技术及华南国际饮料技术展。该系列产品可以帮助用户极大提
为了探讨鸡粪沼液复合微生物有机肥在樱桃番茄上的田间应用效果,在滴灌施肥的条件下,设置化肥和液体复合微生物有机肥两个处理进行对比应用,结果表明施用液体复合微生物有机
自动变速器与手动变速器相比较,它所关联的知识面更加的广泛,机械的结构也更加的复杂,控制的原理也更加的有难度,所以在自动变速器故障检测以及维修的要求也会更高。自动变速
2005年,北京的春天姗姗来迟,但对于中国的装备制造业来说,2005年的春天来得一点也不晚。