现代维吾尔语词汇信息处理关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liyunlong1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对现代维吾尔语多策略统计、多维度动态特征数据分析、词性标注关键技术、常用词表和现代维语词语标注规范的研制等词汇一级信息处理过程中涉及的关键技术及方法进行全方位、系统的研究,形成统一地现代维吾尔语词汇信息处理研究体系,是维吾尔语进行舆情分析、语言理解的智能系统的开发奠定技术及资源基础。最终形成一定数量的现代维吾尔语词汇计量研究成果,探索现代维吾尔语计量语言学新领域,构建系统、科学地的现代维吾尔语计量语言学理论,发现维吾尔语语言系统的结构和演化规律。其研究成果也可直接应用于维吾尔语文网络舆情分析研究以及我国与中亚的跨境语言研究和舆情监测,也为“一带一路”战略提供“互联网+”语言服务。  本文面向社会媒体,结合计算语言学、语料库语言学、计量语言学等学科基础,从现代维吾尔语平衡语料库的资源建设、现代维吾尔语词汇信息处理关键技术、现代维吾尔语词汇计量研究等三个方面开展研究。以提高现代维吾尔语词汇一级信息处理技术的代表性、可靠性和权威性为目标,探索现代维吾尔语词汇信息处理研究的基本理论体系、系统地基本方法和关键技术。  (1)现代维吾尔语平衡语料库的资源建设  研究维吾尔语平衡语料库构建技术,构建维吾尔语词汇库、语法语义词干词典等语料库,研制较为全面的现代维吾尔语常用词表和基于语法语义的词干词性标注规范标准。在现有语料规模基础上,不断完善和优化网络媒体、平面媒体、有声媒体、教育教材媒体等四大媒体大规模文本语料库,建立维吾尔语动态词汇库、语法语义信息词干词典,短语库、维汉维吾尔人人名词汇、世界地名、新疆地名、维汉双语词汇等知识库。  (2)现代维吾尔语词汇信息处理关键技术  重点研究如何结合并利用计算语言学知识构建基于平衡语料库的现代维吾尔语多策略统计模型、现代维吾尔语词汇动态特征数据分析模型及词性标注模型。  现代维吾尔语词汇统计研究部分包括改进词汇统计、数据分析、词性标注方法,研究现代维吾尔语词干提取算法、词尾切分算法、特征数据分析算法、常用词提取、词干词性标注等算法。现代维吾尔语数据分析技术研究主要研究频次与词种的关系、词种覆盖率、词种分布分析、词长分析等内容。通过现代维吾尔语常用词提取关键技术研制了现代维吾尔语常用词候选表。  现代维吾尔语词干词类标注标记集验证性研究以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。  基于形态分析的现代维吾尔语名词词干识别研究通过形态特征可以准确地识别其词性的意义,并总结维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则。提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。  (3)现代维吾尔语词汇计量研究  现代维吾尔语词汇计量分析与应用为前面所述研究的应用,探索现代维吾尔语计量语言学新的研究领域,初步形成维吾尔语词汇计量研究理论体系和方法。将现代维吾尔语作为研究对象,扩充现代维吾尔语大规模动态文本语料库,开发与完善现有的计量处理工具,使用语法语义相结合的多策略方法,对现代维吾尔语词尾、词干、词语进行多层次、全方位、科学、系统的计量分析研究,构建现代维吾尔知识库,从计量语言学角度探索发现维吾尔语的语言规律。包括现代维吾尔语网站、九年义务教育维吾尔文教材,维吾尔语高中语文教材、现代维吾尔语有声媒体等词汇计量分析。  本文希望通过语言的定量特征以及这些特征之间的协同关系,采用从真实文本中抽象出的数量关系描述与理解维吾尔语词汇系统及其组成成分的发展和运作规律,研究所发现的语言规律也有助于更精确地描写与解释维吾尔语语言现象,系统、科学地构建一种现代科学意义上的现代维吾尔语计量语言学理论。对现代维吾尔语进行了多层次、全方位的计量研究,发现维吾尔语语言系统的结构和演化规律。
其他文献
随着Internet的飞速发展,人们交流和获取信息的方式都发生了很大的变化,网络成了人们主要信息来源。政府网站作为电子政府的核心,逐渐成为了政府发布相关政策、法律、信息的主流
随着技术的发展,网络视频方兴未艾,而高清视频、3D视频等高质量的视频的提出和应用,对视频的存储、处理和传输提出了更高的要求。云计算服务的兴起,正好可以满足视频应用高存储和
随着集成电路的发展和电子产品的日新月异,微处理器的性能要求在不断的提升。当前单核微处理器体系结构研究主要通过挖掘指令间的并行度来提高微处理器的性能。流水线、乱序多
泛型程序设计可以大幅度提高程序的可重用性、可靠性和开发效率,使建设软件构件工厂的理想得以实现。泛型约束机制可对泛型参数的合法性进行检测及验证,从而使得软件的可靠性和
本文围绕移动摄像机条件下的海上船只目标检测和跟踪开展工作,重点研究了基于“在线学习”的目标跟踪算法。为了使方法对于不同场景具有适应性,我们将目标检测和目标跟踪分别看
随着航天技术的不断发展和空间活动的日益频繁,视频在航天领域中的应用和需求越来越广。星载视频数据量巨大,在进行存储或下行之前必须进行有效的压缩。  TMS320C64x系列DSP
模态逻辑是研究必然、可能及其相关概念的逻辑。模态逻辑是逻辑学最为重要的分支之一,它的理论、思想、技术和方法不仅是逻辑学中占有重要地位,而且在其他领域,如计算机科学、语
人脸识别是计算机视觉和模式识别学科前沿,同时在国家公共安全、信息产业也具有广阔应用前景。然而,在实际场景的应用中,人脸识别系统的性能通常会受到一些因素的影响,比如:光照
随着科技的快速发展,人工智能技术得到了广泛应用。作为人工智能的重要子领域,自然语言处理一直是众多学者的研究热点。自然语言处理领域有众多具有挑战性的任务,围绕这些任务,很
物流行业是“十二五规划”中涉及的重要行业,是我国未来经济发展的重要组成部分。冷链物流是物流行业的一个重要分支,而冷藏运输是冷链物流的重要一环,公路冷藏运输在总体冷藏运