论文部分内容阅读
在东亚各种语言中,汉语拥有最古老的文献。在许多没有古代文献的东亚语言中,却有丰富的古代汉语借词。东亚历史比较语言学,东亚各民族语言的历史研究,必须要借助于汉语的古代文献。所以,如何有效地利用汉语文献,不仅是汉语言文字学,也是中国少数民族语言文学中语料库语言学的重要内容。
用大数据的方法研究古文献,是方法与工具的探索。以汉文献为研究对象,一方面使民族语学界能够充分运用这种方法利用汉文献。另一方面,汉文献的丰富性,更容易探索大数据文献挖掘的方法,可以把得到的方法进一步应用于藏、彝、西夏、壮等民族古文献的大数据挖掘。
随着E-考据及数字人文等新理念的出现,传统古籍利用与开发模式的局限性越来越明显,古籍文本的利用与开发研究基本上还是采用传统的研究方法与模式,缺乏新的人文研究范式及方法,从而也制约了以古籍文献为基础的语言学、历史文献学等人文社会学科研究的拓展,使得一些研究以目前的研究方式及工具无法展开。本文从语料库语言学的研究角度出发,采用计算语言学方法与技术,通过古汉语语料库的构建、古汉语语料库工具开发与研究方法的探索,充分利用新的信息技术与跨学科方法来对古籍进行深层次的分析与挖掘。
大数据时代的各种思潮和视角在不断涌现,也给了语料库语言学研究带来了新思维,大数据时代的汉语语言学研究更加注重语言工程的研究和开发,以提高汉语大规模语言资源的数量、类型及易获得性,研究也更为开放、更具多元化视角、更加注重多学科的交叉和融合。同时,庞大的语料库也为其他的人文学科的研究提供了海量的资料,特别是随着文本挖掘与可视化方法在人文社会科学研究中的应用,已显示出广阔的应用前景,初步实现了语言知识的挖掘与可视化,也为人文社会科学研究带来了新方法,文本挖掘与可视化方法为语料库的深层次利用与开发带来了新的模式。
本研究以大规模古汉语语料库的构建为基础,采用大数据研究理念与方法,从古汉语语料库深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模古汉语语料库为研究对象,对数字化古籍文本进行整理、标注等处理,构建一个涵盖4万多种古籍文本的大规模古汉语语料库;采用词库分段叠加的方式并以二元语法(bigram)模型为主对古籍语料文本进行分词,利用格拉布斯(Grubbs)法进行数据降噪,最大程度地消除问题数据;在分词后的古汉语语料库基础上,以计算语言学的词频统计为研究核心对古籍文本进行分析与挖掘,采用单位时间窗口滑动技术对单位时间内的词频进行分析,运用内存实时计算思想很好地解决了读取数据的瓶颈问题,实时统计分析则采用并行计算方式解决了实时查询效率问题,统计分析结果以时间轴为主线的微观散点图和宏观曲线图对进行宏观层次与微观层次展示,并以古籍作者为主线,利用地理信息系统(GIS)技术,将中国庞大的、静态的、分散的数字化古籍进行大规模的集成和地图展示,以古籍文献的检索为线索在地图上呈现相关作者的地理分布,实现了实时、在线、立体、可视化、定量分析历时词频分布,为研究者构建了一个以语言学、历史文献学等人文学科为主的古汉语语料库实时分析平台。
同时,本文以古汉语词汇学及语法化研究、中国史定量研究、文学地理研究等为例,采用本系统平台提供的研究工具对部分经典宏观理论从量化角度进行了初步验证。该研究不但拓展了古汉语语料库的研究范式与新方法,也丰富了人文学科研究工具,丰富了语料库研究的内涵,突出了学科的交叉性,更是对古籍文献深层次的开发与利用的一次尝试,充分挖掘出古籍文献在研究中的价值,大规模的古籍文本扩大了人文学科资料的范围,也加快了研究的步伐,大规模的古籍文本定量分析有助于人文学科一些知识、现象的发现与解读,为社会科学经典理论的验证和拓展提供了更多研究空间与研究方法,构建的分析平台具有广阔的应用场景,对古汉语词汇及语法研究、定量史学研究、文学地理研究等具有极大价值。
本文创新之处包括:
(1)经过本人近三年的独立研究,本研究收集、整理了4万多种古籍文本,包括经、史、子、集等40个类目的文献,形成了一个比较综合、全面的古汉语语料库,为人文学科的研究提供了一个庞大的资料库,目前也是国内外收藏种类较全、数量最多的古汉语语料库;
(2)古籍文本分词是古汉语语料库深层次利用与开发的基础,本研究利用统计方法并采用词库分段叠加的方式首次实现了大规模古籍文本自动分词,加快了大规模语料库的建设速度;
(3)利用语言学、统计学、计算机科学等多学科方法,以大规模古汉语语料库为研究对象,采用大数据研究理念,利用计算语言学方法定量分析字词的历时词频分布,融合信息可视化、地理信息系统等手段研究辅助工具的开发与研究方法的创新,创建了一个以语言学、历史文献学等人文学科研究为主的古籍文本实时统计分析平台;
但是,本文还存在着一些不足之处,尚待进一步研究。(1)由于断代词典收录得并不完整,分词的准确性有待进一步提高;(2)由于采用大量的自动建库方法,因此,文本语料的质量尚待进一步提高;(3)本系统统计分析的时间单位计算主要是以作者的卒年为依据,因此作者年代的考证结果直接影响分析结果,古籍文本的版本考证也是一个难题,存在诸多争议,古籍本版及作者信息还需要专家的核查;(4)对古籍文本语料中的人物、历史事件、地名、官职、称谓等实体的抽取尚有不足,需要在已有知识库的基础上进行进一步抽取并建立关系,从而实现更深层次的知识关联。
用大数据的方法研究古文献,是方法与工具的探索。以汉文献为研究对象,一方面使民族语学界能够充分运用这种方法利用汉文献。另一方面,汉文献的丰富性,更容易探索大数据文献挖掘的方法,可以把得到的方法进一步应用于藏、彝、西夏、壮等民族古文献的大数据挖掘。
随着E-考据及数字人文等新理念的出现,传统古籍利用与开发模式的局限性越来越明显,古籍文本的利用与开发研究基本上还是采用传统的研究方法与模式,缺乏新的人文研究范式及方法,从而也制约了以古籍文献为基础的语言学、历史文献学等人文社会学科研究的拓展,使得一些研究以目前的研究方式及工具无法展开。本文从语料库语言学的研究角度出发,采用计算语言学方法与技术,通过古汉语语料库的构建、古汉语语料库工具开发与研究方法的探索,充分利用新的信息技术与跨学科方法来对古籍进行深层次的分析与挖掘。
大数据时代的各种思潮和视角在不断涌现,也给了语料库语言学研究带来了新思维,大数据时代的汉语语言学研究更加注重语言工程的研究和开发,以提高汉语大规模语言资源的数量、类型及易获得性,研究也更为开放、更具多元化视角、更加注重多学科的交叉和融合。同时,庞大的语料库也为其他的人文学科的研究提供了海量的资料,特别是随着文本挖掘与可视化方法在人文社会科学研究中的应用,已显示出广阔的应用前景,初步实现了语言知识的挖掘与可视化,也为人文社会科学研究带来了新方法,文本挖掘与可视化方法为语料库的深层次利用与开发带来了新的模式。
本研究以大规模古汉语语料库的构建为基础,采用大数据研究理念与方法,从古汉语语料库深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模古汉语语料库为研究对象,对数字化古籍文本进行整理、标注等处理,构建一个涵盖4万多种古籍文本的大规模古汉语语料库;采用词库分段叠加的方式并以二元语法(bigram)模型为主对古籍语料文本进行分词,利用格拉布斯(Grubbs)法进行数据降噪,最大程度地消除问题数据;在分词后的古汉语语料库基础上,以计算语言学的词频统计为研究核心对古籍文本进行分析与挖掘,采用单位时间窗口滑动技术对单位时间内的词频进行分析,运用内存实时计算思想很好地解决了读取数据的瓶颈问题,实时统计分析则采用并行计算方式解决了实时查询效率问题,统计分析结果以时间轴为主线的微观散点图和宏观曲线图对进行宏观层次与微观层次展示,并以古籍作者为主线,利用地理信息系统(GIS)技术,将中国庞大的、静态的、分散的数字化古籍进行大规模的集成和地图展示,以古籍文献的检索为线索在地图上呈现相关作者的地理分布,实现了实时、在线、立体、可视化、定量分析历时词频分布,为研究者构建了一个以语言学、历史文献学等人文学科为主的古汉语语料库实时分析平台。
同时,本文以古汉语词汇学及语法化研究、中国史定量研究、文学地理研究等为例,采用本系统平台提供的研究工具对部分经典宏观理论从量化角度进行了初步验证。该研究不但拓展了古汉语语料库的研究范式与新方法,也丰富了人文学科研究工具,丰富了语料库研究的内涵,突出了学科的交叉性,更是对古籍文献深层次的开发与利用的一次尝试,充分挖掘出古籍文献在研究中的价值,大规模的古籍文本扩大了人文学科资料的范围,也加快了研究的步伐,大规模的古籍文本定量分析有助于人文学科一些知识、现象的发现与解读,为社会科学经典理论的验证和拓展提供了更多研究空间与研究方法,构建的分析平台具有广阔的应用场景,对古汉语词汇及语法研究、定量史学研究、文学地理研究等具有极大价值。
本文创新之处包括:
(1)经过本人近三年的独立研究,本研究收集、整理了4万多种古籍文本,包括经、史、子、集等40个类目的文献,形成了一个比较综合、全面的古汉语语料库,为人文学科的研究提供了一个庞大的资料库,目前也是国内外收藏种类较全、数量最多的古汉语语料库;
(2)古籍文本分词是古汉语语料库深层次利用与开发的基础,本研究利用统计方法并采用词库分段叠加的方式首次实现了大规模古籍文本自动分词,加快了大规模语料库的建设速度;
(3)利用语言学、统计学、计算机科学等多学科方法,以大规模古汉语语料库为研究对象,采用大数据研究理念,利用计算语言学方法定量分析字词的历时词频分布,融合信息可视化、地理信息系统等手段研究辅助工具的开发与研究方法的创新,创建了一个以语言学、历史文献学等人文学科研究为主的古籍文本实时统计分析平台;
但是,本文还存在着一些不足之处,尚待进一步研究。(1)由于断代词典收录得并不完整,分词的准确性有待进一步提高;(2)由于采用大量的自动建库方法,因此,文本语料的质量尚待进一步提高;(3)本系统统计分析的时间单位计算主要是以作者的卒年为依据,因此作者年代的考证结果直接影响分析结果,古籍文本的版本考证也是一个难题,存在诸多争议,古籍本版及作者信息还需要专家的核查;(4)对古籍文本语料中的人物、历史事件、地名、官职、称谓等实体的抽取尚有不足,需要在已有知识库的基础上进行进一步抽取并建立关系,从而实现更深层次的知识关联。