基于藏语字性标注的词性预测研究

来源 :中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标 | 被引量 : 0次 | 上传用户:fairytalezoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07.但词级标注模型难以解决词边界划分的一致性和未登录词的问题.基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果.
其他文献
Internal migration is now the most significant process influencing the pattern of human settlement,but countries differ in the way they collect informa
会议
本文综述了上转换发光材料的历史、现状以及发展前景,在此基础上采用溶胶—凝胶法首次成功地制备了YVO4:Yb3+,Er3+,SrMoO4:Yb3+,Er3+和Y2O3,:Yb3+,Er3+上转换纳米发光粉。探讨了Yb3+,Er
李克强27日在国博参观人居科学研究展时,指着中国地图上的"胡焕庸线"说,我国94%的人口居住在东部43%的土地上,但中西部如东部一样也需要城镇化.要研究如何打破这个规
会议
以Wilson J S,Mann C L,Otsuki T的测算方法为基础,构建贸易便利化的新指标体系并测度了中国2002—2014年26个省级样本的贸易便利化水平,在此基础上考察了贸易便利化对出口技
本文主要用1987年开始每10年进行1次的人口普查数据和每5年进行1次的人口抽样调查数据,考察了我国改革开放以来不同时期省际人口迁移的区域模式,发现我国省际人口迁
会议
胡焕庸线在中国人口地理分布的嬗变中表现出充分的稳定性.基于胡焕庸1935年之际的分县人口统计,叠加1953年以来的六次人口普查的县级人口数据的分析,发现:1935-1982
会议
电化学混合电容器(EHC)是一种介于超级电容器和电池之间的新型贮能元件,它具有比超级电容器更高的比容量和比能量及比电池更高的功率密度,是混合动力车、动力电源的最佳选择之一。其材料和体系的构筑是研究的重点。本课题以活性炭为正极,锂离子嵌入材料Li_4Ti_5O_(12)为负极组成AC/Li_4Ti_5O_(12)电化学混合电容器体系,对其电化学性能进行了研究,恒流充/放电、循环伏安以及交流阻抗等测试
人类8型疱疹病毒(Human herpesvirus8,HHV-8),又名卡波西肉瘤相关病毒(Kaposi’s sarcoma-associated herpesvirus,KSHV),HHV-8在宿主细胞内所存在的状态不同,可分为潜伏感染阶段
当今国际社会正处于高速发展时期,工业发展正式进入“4.0”时代。随着经济全球化和国际合作的日益加强,能源短缺和能源结构单一的问题日益突出。发展和利用可再生能源,可以有效的缓解石化能源枯竭和过度依赖石化能源的社会现状。在可再生能源中,生物质能源具有存储量大和来源广泛等特点。长链生物烷烃临氢异构脱蜡工艺提升的关键在于催化剂的设计与开发。MCM-41是孔径在1.5-10nm之间的M41S族典型代表,它具
  该文通过建立生物医学领域文献的语料库对其中所含模糊限制语的辖域标注规则进行了分析研究。模糊限制语辖域的不同主要是由于其词性的不同从而引起的句法成分的不同所导