【摘 要】
:
古籍中存在着十分丰富的异文现象,异文的存在对于校勘学、文字学、词汇学、语法学、训诂学等方面的研究都有重要作用。其中,同事异文是异文的一个特例,指描述同样历史事件的
论文部分内容阅读
古籍中存在着十分丰富的异文现象,异文的存在对于校勘学、文字学、词汇学、语法学、训诂学等方面的研究都有重要作用。其中,同事异文是异文的一个特例,指描述同样历史事件的不同文字。然而,由于古籍文本数据的浩繁,传统的使用人力手工查找异文(包括同事异文)的办法在数量和质量上都已无法满足进一步研究的需要,因此亟待借助计算语言学方法解决这一问题。基于此,本文以《左传》和《史记》为实验语料,利用并改进编辑距离句子相似度计算算法,进行同事异文的自动识别及分析,其具体内容包括:1.在古籍异文研究方面,对非版本异文的研究现状做了介绍,并指出人工查找同事异文的繁杂困难之处,因而提出利用计算语言学方法中的句子相似度计算算法,对同事异文进行自动发现。2.在汉语句子相似度计算方面,总结了国内外不同种句子相似度计算方法,并指出古汉语句子相似度计算的难点所在,同时重点介绍了编辑距离方法的计算原理,研究现状和算法本身存在的主要问题。3.在同事异文自动发现方面,本文首先基于经典编辑距离算法对实验语料进行了同事异文自动发现,实验结果并不理想。由此,本文设计了一种结合改进编辑距离以及事件信息标注的计算算法,对实验语料进行了再次实验,实验结果大幅改善。其中,实验的主要改进是,在编辑距离算法内部改进了编辑操作、字词操作的权重设置,在编辑距离算法外部,利用人名、地名及年份数据库对语料进行了人物、地点、时间的事件信息标注,并加权结合两方面结果进行最终的句子相似度计算。最后,本文对《左传》《史记》同事异文自动发现结果进行了分类整理和简要分析,并以此为依据,考察了两部文献的语言特色及同事异文自动识别的主要缺陷,为今后更大规模的古汉语文献深度处理和自动挖掘进行了初步尝试。
其他文献
目的:在我国,脑卒中的发病率和死亡率均明显高于心血管疾病,其中约70%为缺血性脑卒中(Ischemic stroke,IS)。现有研究显示遗传因素在IS发病中起重要作用,提出IS是遗传因素和
1966年,华裔科学家高锟首先提出了光导纤维在通信上应用的基本原理,光纤通信开始被人们广泛接受。随着第一个光纤系统在1981年成功问世,全世界开始掀起了一场光纤通信的革命,
詈骂语是语言的有机组成部分,是一种特殊的语言现象,是社会语言学、文化语言学乃至民俗学所研究的对象。詈骂语是被社会大众排斥的语言禁忌,但是,它却普遍存在于社会交际群里,尤其
当储层与非储层的声波曲线响应差异不明显时,利用常规波阻抗反演技术难以识别储层,而储层特征曲线重构技术则可提高岩性识别和储层预测的精度。讨论了如何充分利用各种测井资
通过分析当前变电运行管理模式的现状,提出了现存的主要问题,阐述了优化变电运行管理模式应遵循的原则,探讨了切实可行的优化模式及其特点。
本文以《新实用汉语课本<综合练习册>》(一、二)为研究对象,将练习分为语言要素练习和语言技能练习,语言要素练习包括语音练习、词汇练习、句子练习和汉字练习,语言技能练习包括听
汽缸体是发动机中最大最重的薄壁箱体类零件,也是发动机的基础零部件,承受着各种内外载荷。其缸孔的形状精度及表面粗糙度直接影响着发动机的性能及油耗。可以说,缸孔加工精度是
理想信念教育是高校思想政治教育的核心和关键,党的十八大提出的社会主义核心价值观为大学生理想信念教育指明了方向。文章探讨了"95后"大学生理想信念的现状,分析了社会主义核
基于制冷量为12 kW的风管送风式空调(热泵)机组进行试验研究,分析节流位置、工况等因素对长连接管制冷剂追加量的影响,得出9.52 mm液管和15.88 mm气管条件下R410A制冷剂
采用苗圃盆栽试验,用腐殖质、EDTA、不同量的石灰等对赫章土法炼锌区的污染土壤进行处理。测定了基质的化学特性、重金属的DTPA提取态含量,并观察了白菜生长特性及其对重金属