现代蒙古语语料库加工技术的新进展--新一代蒙古语词语自动切分与标注系

来源 :第十届全国少数民族语言文字信息处理学术研讨会 | 被引量 : 0次 | 上传用户:aibang027123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于现代蒙古语语料库加工的新需要,内蒙古大学蒙古学学院和北京大学计算语言学研究所合作开发了新一代蒙古语词语自动切分标注系统.本文在对新旧系统进行比较的基础上,着重介绍了新系统的核心组成部分,及其在标注方面的特点.
其他文献
本文介绍了我们开发的针对蒙古文及相关文字在网络上的传输与显示的信息处理系统,解决了蒙古类文字在网络上传输与显示问题,制作动态网站成为可能.本技术包括蒙古文在支持Act
本文分析了Web汉英平行新闻语料获取过程中的困难,对于Web信息抽取技术做了综述,分析了Web平行双语抽取的基本方法并具体介绍了几个主要门户网站汉英平行新闻语料的获取过程,
在人类语言中存在着多种的书写系统(WritingSystem),这些书写系统大致可以分为两类:一类是水平书写,例如英语、汉语等都属于水平书写系统;另一类是垂直书写,例如古汉语、蒙古
会议
现代维吾尔语信息处理技术研究工作自20世纪90年代初开始至今,开展了基础理论研究和应用基础等方面的研究工作.现代维吾尔语语料库加工处理工作2002年开始、制定了标注标准、
会议
本文针对语言信息处理中建设藏语语料库及藏文信息词典库需要,根据藏文的语法功能及特点,借鉴汉语信息词典建设研究的成功经验,用数学分类的思想--每个个体属于而且只属于其
本文是以大型藏文语料库管理系统的开发为背景,首先说明了以Oracle为后台数据库服务器的大型藏文语料数据库管理系统建立安全性访问控制的必要性,然后详细讨论了基于C/S和B/S
本文基于蒙古文文本初步统计出了54个标点符号.在此基础上,从信息处理角度对其进行归类,并进一步探索了标点符号标记的确定和标点符号分库属性字段的设置.
本文介绍了我们通过界面设计、Unicode文本处理和数据库连接,设计完成面向各个阶层的使用方便、实用,基于汉、维电子词典的辅助翻译软件.
词法形态分析是蒙古文信息处理诸多应用系统的一个不可或缺的模块.传统蒙古语语法学在这方面取得了一定的成果.然而,面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上
会议
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题.一个重要的原因是从大规模的语料库中能够提取出所需要的知识.而语料文本的