论文部分内容阅读
据统计,蒙古文同形词在静态环境中占词典词条总数的18%,动态环境中占语料总词数的55%。全面、系统、形式化地研究同形词,不仅对蒙古语文教学、词典编纂有重要意义,而且对语料的读音识别、词法分析、词性标注、语义标注意义也是重大。通过本课题的研究,我们构建了蒙古文同形词知识库,包括“同形词信息词典”,人工识别与标注同形词的"100万词级现代蒙古语文数据库”,同形词的搭配库、共现库、类语库及“同形词信息词典”管理与维护工具,共现成分统计工具,“同形同音同类词”识别与标注工具等。同形词知识库是蒙古文综合型语言知识库的有机组成部分。本文由导论和六章组成:导论部分交待了本文研究对象、名词术语、研究概况、研究意义、研究步骤、研究方法及资料来源。第一章从语言信息处理的角度阐述了同形词的类别、来源、同形词与同音词、同形词与兼类词、同形词与多义词的关系。第二章详细论述了“同形词信息词典”的研制过程,其中包括词条来源、选词原则和方法、属性字段及取值规格等内容。第三章主要介绍了“同形词信息词典”管理维护工具的结构、功能、特点及存在的问题。第四章通过在"100万词级现代蒙古语文数据库”中人工识别标注同形词制作训练集,并对蒙古文同形词的分布情况做出了判断。第五章基于词典建立了同形词的搭配库、共现库、类语库。基于语料库在"100万词级现代蒙古语文数据库”中统计并计算出同形词共现成分的各种统计指数。第六章基于搭配库和共现库在测试集中自动识别标注了“同形同音同类词”,其识别标注召回率为99.8%,准确率为81.7%,并对测试结果进行了详细的分析和论述。