论文部分内容阅读
本文对现代维吾尔语多策略统计、多维度动态特征数据分析、词性标注关键技术、常用词表和现代维语词语标注规范的研制等词汇一级信息处理过程中涉及的关键技术及方法进行全方位、系统的研究,形成统一地现代维吾尔语词汇信息处理研究体系,是维吾尔语进行舆情分析、语言理解的智能系统的开发奠定技术及资源基础。最终形成一定数量的现代维吾尔语词汇计量研究成果,探索现代维吾尔语计量语言学新领域,构建系统、科学地的现代维吾尔语计量语言学理论,发现维吾尔语语言系统的结构和演化规律。其研究成果也可直接应用于维吾尔语文网络舆情分析研究以及我国与中亚的跨境语言研究和舆情监测,也为“一带一路”战略提供“互联网+”语言服务。 本文面向社会媒体,结合计算语言学、语料库语言学、计量语言学等学科基础,从现代维吾尔语平衡语料库的资源建设、现代维吾尔语词汇信息处理关键技术、现代维吾尔语词汇计量研究等三个方面开展研究。以提高现代维吾尔语词汇一级信息处理技术的代表性、可靠性和权威性为目标,探索现代维吾尔语词汇信息处理研究的基本理论体系、系统地基本方法和关键技术。 (1)现代维吾尔语平衡语料库的资源建设 研究维吾尔语平衡语料库构建技术,构建维吾尔语词汇库、语法语义词干词典等语料库,研制较为全面的现代维吾尔语常用词表和基于语法语义的词干词性标注规范标准。在现有语料规模基础上,不断完善和优化网络媒体、平面媒体、有声媒体、教育教材媒体等四大媒体大规模文本语料库,建立维吾尔语动态词汇库、语法语义信息词干词典,短语库、维汉维吾尔人人名词汇、世界地名、新疆地名、维汉双语词汇等知识库。 (2)现代维吾尔语词汇信息处理关键技术 重点研究如何结合并利用计算语言学知识构建基于平衡语料库的现代维吾尔语多策略统计模型、现代维吾尔语词汇动态特征数据分析模型及词性标注模型。 现代维吾尔语词汇统计研究部分包括改进词汇统计、数据分析、词性标注方法,研究现代维吾尔语词干提取算法、词尾切分算法、特征数据分析算法、常用词提取、词干词性标注等算法。现代维吾尔语数据分析技术研究主要研究频次与词种的关系、词种覆盖率、词种分布分析、词长分析等内容。通过现代维吾尔语常用词提取关键技术研制了现代维吾尔语常用词候选表。 现代维吾尔语词干词类标注标记集验证性研究以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。 基于形态分析的现代维吾尔语名词词干识别研究通过形态特征可以准确地识别其词性的意义,并总结维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则。提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。 (3)现代维吾尔语词汇计量研究 现代维吾尔语词汇计量分析与应用为前面所述研究的应用,探索现代维吾尔语计量语言学新的研究领域,初步形成维吾尔语词汇计量研究理论体系和方法。将现代维吾尔语作为研究对象,扩充现代维吾尔语大规模动态文本语料库,开发与完善现有的计量处理工具,使用语法语义相结合的多策略方法,对现代维吾尔语词尾、词干、词语进行多层次、全方位、科学、系统的计量分析研究,构建现代维吾尔知识库,从计量语言学角度探索发现维吾尔语的语言规律。包括现代维吾尔语网站、九年义务教育维吾尔文教材,维吾尔语高中语文教材、现代维吾尔语有声媒体等词汇计量分析。 本文希望通过语言的定量特征以及这些特征之间的协同关系,采用从真实文本中抽象出的数量关系描述与理解维吾尔语词汇系统及其组成成分的发展和运作规律,研究所发现的语言规律也有助于更精确地描写与解释维吾尔语语言现象,系统、科学地构建一种现代科学意义上的现代维吾尔语计量语言学理论。对现代维吾尔语进行了多层次、全方位的计量研究,发现维吾尔语语言系统的结构和演化规律。