论文部分内容阅读
[摘 要] 汉语儿童语料库的创建与发展为国际儿童语料库系统(CHILDES)提供了丰富的研究语料,为促进汉语儿童语言发展研究做出了突出贡献。为回应当前有关儿童语言障碍诊断工具和语言干预效应监测严重缺乏可靠工具的问题,本研究基于汉语儿童语料库构建了汉语儿童语言发展测评系统。该系统基于汉语儿童的大量语料,构建了正常儿童语言发展常模,探索了可以预期和发现不同年龄儿童语言障碍的指标系统,基本形成符合汉语文化情境的儿童语言发展监测体系,可以为儿童语言障碍诊断和干预提供有价值的基础信息。从儿童语言发展研究走向儿童语言发展评价,有助于拓展儿童语料库的功能,推动有关儿童早期语言发展诊断与干预的科学研究。
[关键词] 汉语儿童语料库;儿童语言发展评价;常模;词汇;语法
一、汉语儿童语料库的发展与儿童语言发展研究
汉语儿童语言研究起步较晚,从20世纪30年代陈鹤琴先生追踪记录自己的孩子的语言起始,有关汉语儿童语言研究逐渐进入研究者的视野,但直到80年代之后才得到研究者们的重视。在探讨汉语儿童语言发展的过程中,人们认识到儿童语言发展有着一定的共同规律,但是每一种语言都有其独特性,因而也就造成儿童语言学习的特殊性。因此探讨汉语儿童语言发展的规律,可以为汉语儿童的语言教育提供充足的信息,同时为人类儿童语言研究理论增加重要的内容。
借助位于美国匹兹堡卡内基梅隆大学国际儿童语言中心的CHILDES系统,近年来,汉语儿童语料库已经形成初步规模,集聚了大量0~8岁汉语儿童的语言发展数据。
(一)CHILDES系统与儿童语言发展
20世纪80年代,卡内基梅隆大学的布莱恩·麦克维尼(Brian MacWhinney)教授和哈佛大学的凯瑟琳·斯诺(Catherine Snow)教授,倡导建设一个理想的儿童语料库,真正研究储存儿童在实际生活中使用的语言。立足于卡内基梅隆大学计算机专业的领先技术,以相应的工具软件和适合语料库语言学的语言研究理论为基础,软件工程师们合作开发完善了CHILDES系统。[1]这套针对儿童语言的全新技术由三个部分组成:CHAT计算机储存格式、CLAN计算机分析系统和DATA BASE在线交流方式。CHILDES计算机化语料库的诞生对国际范围内的儿童语言发展研究产生了巨大的影响。
首先,CHILDES系统在儿童语言研究方法的开拓上具有深远影响。它使我们有办法利用语料库提供的数据将我们对儿童语言规律的朴素认识,上升为语言学理论,或者用这些数据来纠正我们常识中对于语言规律理解的种种谬误。通过对数据库进行统计分析,并对照原始的语料和录像等定性、定量分析,使儿童语言研究的结果更具有说服力。
其次,CHILDES系统本身的应用具有极大的灵活性。该语料库包含的数据是根据儿童语言研究的要求和原则,搜集或取样并按照一定的方法分类集合起来的一批儿童语言材料。该语料库具有语言样本大、语域广等特征,其收集的语言材料具有很强的代表性。利用CHILDES语料库研究儿童语言的特征,已成为该语料库最重要的应用之一,它为各国的儿童语言研究者提供了充足可信的数据资源。比如,该语料库可用来研究特定语域儿童的词频、语言结构、意义表达以及语用等特征。而语料库的检索功能和统计手段更是为句法研究、语篇分析、会话分析和语音研究提供了方便。
第三,依托互联网优势,设置开放性共享,各国的研究者都投入精力,建设和扩充该语料库,并共同使用该语料库的资源,获得了一大批具有重要科研价值的成果。自人类社会进入21世纪之后,计算机技术的飞速发展,将儿童语言研究带入了多媒体同步记录分析阶段。研究者利用计算机多媒体技术,实现了儿童语料的声音、图像和文本同步运作,从而为儿童语言研究提供了更为自然、真实和丰富的工具条件,它可以清晰地让研究者将抽象归纳出来的理论和实际的语言运用情景联系在一起,通过观察情景中非声音的部分,能够得到更多的信息,帮助研究者进一步探索。
(二)汉语儿童语言发展语料库形成
在中国大陆,华东师范大学ESEC儿童语言研究中心成为国际儿童语言研究资源交换系统(CHILDES)的中国站点。这个中心旨在团结各方面力量,推动汉语儿童语言发展与教育研究和培训的工作,加快中国儿童语言研究与世界接轨的步伐,开展有关汉语儿童语言发展和教育的研究,提供与国际儿童语言研究沟通交流的窗口,建立儿童语言研究成果转换为教育实践的桥梁。迄今为止,汉语儿童语料库的建设,已经为CHILDES系统提供了最大容量的汉语儿童语言发展的语料,丰富了CHILDES语料库的语域,也为有志研究汉语儿童语言发展的学者提供了宝贵的资料。[2]
在将近二十年的研究过程中,我们已经参照国际儿童语言研究交换系统的工作模式,将汉语儿童语言发展研究所收集的语料建成符合国际规范的语料库。以“www.childes.cn”存在的汉语儿童语言研究中心,一方面实现了与国际儿童语言研究交换系统的对接,成为国际儿童语言研究交换系统CHILDES的中文平台;另一方面,我们的汉语儿童语言发展语料库,已经是国际范围内最大的汉语儿童语料库,这个可以独立运作的汉语儿童计算机语言分析系统,可供以下有关0~8岁儿童语言发展的教学和科研的持續使用。
第一,共享的汉语儿童语言发展研究语料。儿童语料库建立的一个作用是实现研究资料的共享。已经积累并在不断发展的汉语儿童语言研究语料,可以为后来的研究者提供从不同角度研究分析的实际材料,打破传统的研究者独自占有部分语料的局限,让更多的研究者省时省力地开展研究,将研究的工作重点放到真正深入的研究分析上去,从而实现具有科学研究价值的交流和分享。
第二,共享的亲子社会交往研究资料。我们的儿童语料是在半结构化的开放状态下的录像资料和长期跟踪拍摄的自然状态儿童语言活动,因此可以成为从社会、认知、亲子关系等不同角度研究观察分析的基本材料,供研究者进一步分析探讨。 第三,共享的儿童语言发展和教育教学资料。汉语儿童语料库的建立,同时也为我们的专业教学提供了良好的条件,专业学生可以登录我们的儿童语言网站,根据自己的学习和研究需要选择适当的文档,通过指令运行CLAN自动分析语料,获得研究所需要的信息。学生也可将自己采集的语料与之进行比较研究,取得新的认识。
截至2020年初,该数据系统已囊括了中国不同省市儿童语言的数据近60000分钟,语料库同时收集大中华文化情境中儿童华语学习与发展的语料数据,比如新加坡华语儿童语言发展、马来西亚华语儿童语言发展的语料均有储存(见表1)。据此发表的有关儿童语言发展的科研论文和学术报告已达100多篇,国际学界利用数据所撰写的文章亦有30多篇。这些研究成果涉及儿童语法发展、词汇发展、语用发展,以及关于儿童阅读干预与学业语言发展、叙事语言发展、说明性讲述语言发展等。在语料库构建过程中,所有储存的汉语儿童语言语料发挥了重要的研究作用,成为汉语儿童语言研究走向世界的桥梁。
二、从汉语儿童语言发展研究走向语言发展评价系统构建
在探讨汉语儿童语言发展基本规律的过程中,我们日益深切地关注到,有关儿童语言障碍(语言发育迟缓)的研究,已经有了来自教育和医疗实践的广泛需求,同时也是近年国际儿童语言发展研究的一个重点范畴。已有国际研究表明,约6%~8%的学前儿童不能达到预期的语言发展里程碑,从而成为早期儿童语言障碍的工作对象。[3][4][5]早期儿童语言障碍,往往并行产生诸多其他方面的发育问题,成为不同类型特殊儿童障碍发生的标志。[6]大量研究业已证明,儿童语言障碍会影响儿童的读写、情绪和行为等多方面的发展,[7]影响他们后期发展的学业和测验成绩。[8]因此,语言障碍的早期监测和干预,对于每一个儿童的全面发展具有重要意义,也是一个社会提升教育水平的重要标志。[9]
我国儿童语言障碍的研究近年得到日益增长的关注。金星明(2002)指出,语言障碍是临床最为多见的儿童残疾之一;已有研究发现,中国儿童语言障碍的发生率超过4%,并且在近年呈逐渐上升趋势,因而儿童语言障碍的诊断和干预具有非常迫切的现实需要。[10]有关汉语儿童语言障碍的诊断与干预的相关研究发现,需要尽早对潜在的儿童语言障碍进行诊断,并且积极开展早期干预。分析我国儿童语言研究的现场,有关儿童语言障碍的诊断工具和语言干预效应监测严重缺乏可靠的工具。一方面,儿童语言障碍的诊断和干预使用的工具,基本都借用基于英语环境产生的婴幼儿发育量表等国外量表进行诊断,上述工具未能进行在中国文化和语言情境下的信效度检验,国内也还未开发出具有中国文化背景的语言发育评价工具;[11]另外一方面,适合于更大范围不同工作人群使用的非正式儿童语言障碍诊断评价方式尚属空白,因此创建一个符合中国语言文化情境特点的、具备年龄发展常模的早期儿童语言样本数据库和诊断指标体系,将之免费提供给各种研究者和临床干预工作使用,已经成为十分必要的研究任务。
(一)基于儿童语料库构建语言发展评价与监测系统
在早期儿童语言障碍的监测和诊断方面,国际研究一直存在着两种不同的思路。一类采用标准化的语言测验工具进行正式评估,如英语国家通过语言发展调查(Language Development Survey),发现儿童语言落后状况及存在问题,从而为障碍儿童安排进行早期语言干预方案。[12]另外一种不同的早期儿童语言障碍监测诊断,是通过非正式评估进行儿童语言发展评价。这种思路下的语言障碍监测与诊断,一般通过收集语言样本、口述、填空测验和访谈儿童等方法进行。[13]近期的研究发现,收集儿童自然状态下的语言样本并进行分析(language sample analysis,LSA),通常比标准化测验更具有生态效度。与标准化的语言测验相比较,语言样本分析对于鉴定临床语言发育迟缓更加具有敏感度,对于治疗或干预计划的制订以及结果的监测更加有效,而且能够更加有效地反映出儿童日常生活中的语言使用情况。[14]研究者同时指出,借鉴语言样本分析指标作为儿童语言发展水平和儿童语言障碍诊断的评估标准,在早期儿童语言障碍诊断的临床中具有较强的应用价值,但通常具有样本量小、缺乏适当参考值、对于方言缺乏敏感性等局限。[15][16]因此,创建一个具备年龄发展常模和多层儿童比较的早期儿童语言样本数据库,便成为当今国际儿童语言研究界十分重视的研究任务。位于美国卡内基梅隆大学的国际儿童语言数据交换平台(CHILDES),已经率先开展了这样的研究工作。
尽管近几年我国汉语儿童语料库的研究与建设已经获得了突破性的进展,在计算机处理分析儿童语言成为国际儿童语言学界通用方式的前提下,汉语儿童语料库已经建成与国际儿童语言语料交换系统(CHILDES)同步互动的平台,编码储存了0~8岁汉语儿童不同年龄阶段的大量语料,其中包括不同情境下汉语儿童与成人互动的语料、同伴互动的语料、不同类型特殊儿童语言发展和少数民族双语儿童的语料等,成为世界范围内最大的、国际同行充分认同的汉语儿童语料库。[17][18]但是,汉语儿童语料库从儿童语言发展研究走向语言发展评价,我们需要在建立符合计算机标准的正常儿童语言发展模型的基础上,研究可以预测和发现不同年龄階段儿童语言障碍存在的指标系统,使得儿童语料输入后可以产生与计算机分析标准对应的分析结果,从而形成实实在在的符合汉语文化情境的儿童语言发展评价的监测体系,为儿童语言障碍诊断和干预的工作者提供有价值的基础信息。因此,我们面临的是下列重要研究任务。
第一,构建基于汉语儿童语料库的正常儿童语言发展常模。将采用得到现代科学技术支持的儿童语料库研究方法技术,采用不同互动对象不同语言运用方式的儿童语言发展场景语料,分析汉语儿童语言习得若干范畴的发展阶段特点。重整分析汉语儿童语料库中的已有儿童语料,在发现形成汉语儿童语言发展一般水平和特点的基础上,建立正常汉语儿童语言发展的常模。 第二,建立早期儿童语言障碍预测、诊断与干预的指标体系。研究将对汉语儿童语料库中已有的特殊儿童语料进行数据分析,建立对特殊儿童语言发展的特征指标的认识。在此基础上,研究团队将对特殊儿童群体语言与正常儿童形成对照,构建起早期儿童语言障碍的指标体系。通过临床面对面运用于潜在语言障碍儿童的诊断评估上,建立预测、诊断与干预相应语言障碍的评估指标体系。
第三,进行国际同类儿童语言障碍评价指标体系和相关标准测查工具的效度检验。在前两个问题的研究过程中,始终关注与国际儿童语言发展常模和儿童语言障碍评估指标系统的比较,同时通过临床面对面评估应用,进行系统的相关效度检验,同时据此形成对在中国文化和语言环境下儿童语言发展与语言障碍诊断特点规律的认知。
(二)依托国际儿童语料库建设规则构建汉语儿童词汇发展常模与指标体系
在研究中,我们依托国际儿童语料库建设的规则,进一步提升了汉语儿童语料分析的分词、词法的规范性,建立起自动化的语法分析层,构建了跨越3~6岁年龄段的、基于计算机和大数据的、免费的、多用途参考语料库。针对汉语儿童词汇发展的常模研究,我们重点关注汉语儿童词汇整体发展变化如何,哪些指标能够反映汉语儿童整体的词汇发展水平。在三种常用词汇多样性分析TTR、vocD以及NDW中,[19][20][21]仅有vocD在均值上既能反映出汉语儿童的词汇发展梯度趋势,同时在漢语背景下呈现出显著的年龄主效应(见图1)。因此,我们认为简单的拿来主义无法行得通,而经过大数据检验的CvocD值(汉语儿童词汇多样性),可以作为衡量汉语儿童词汇整体发展水平的重要指标。
进一步探讨汉语儿童不同词类发展的指标,通过对不同年龄阶段汉语儿童语料的数据分析,具体而言,就数据库不同年龄段汉语儿童语料中不同词类内部的词型数、词频数以及具体的词汇产出和发展情况,获得对汉语儿童词汇习得过程中不同词类的产出和发展特征的认识,由此建构汉语儿童不同词类产出的参考数据(见表2)。
通过对不同词类的发展进行分析和探索,我们发现在儿童不同词类发展的语料库评价方面,名词、动词、副词、量词、连词、介词的词频数是具有发展敏感度的指标。会同CvocD数值,我们据此建立起不同年龄段汉语儿童词汇发展的参考数据。
(三)构建符合汉语语法发展特征规律的儿童语法发展常模与指标体系
词汇是构成汉语语言的基础单位,在国际儿童语言临床干预中,已有较多有关词汇干预的研究和实践;[22]但是,我们必须认识到,语法是理解语言障碍的关键,[23]儿童语言发展评价与干预无法回避这个问题。建构汉语儿童的语法评价系统,我们首先面临的问题是:汉语儿童语法发展是否具有与国际儿童语法发展的普适性特征?汉语语法构成规律是否带来汉语儿童语法发展的特殊性?这是探讨儿童语法发展评价的基础。
在将近20年的汉语儿童语法发展与相关语料库研究中,诸多汉语儿童语言研究者证实了平均句法长度MLU在汉语儿童语法发展研究中的普适性,因而MLU已经成为汉语儿童语法发展的一种基本评量手段。[24][25][26][27][28][29][30][31][32]因为语料库计算机处理语言信息的特殊性,汉语儿童语料的录入分析,根据张显达对拉杰·布朗的14个语素规则有所修订。[33][34]与此同时,在语料库运算的语言研究中,诸多研究同时发现,平均最长五个句子的数值对于汉语儿童语法发展,也具有较好的发展评价的指标意义。[35][36][37][38][39]此外,在汉语儿童语法发展研究中,也已发现汉语儿童在进入3岁左右出现复合的句式,[40]到4岁时呈现联合关系、因果关系、递进关系、转折关系等,这些汉语语法要素如何融入语法发展评价?因此,此次研究将语料的复合句子状态形成计算机标注连接,并让计算机分析汉语平均句法长度MLGU和平均最长的五个句子长度MLGU5,就成了我们工作的重点。
如图2所示,通过对不同年龄段汉语儿童语料的平均句子长度进行运算和分析,我们发现,儿童3岁时汉语平均句子长度为3.66,4岁时为4.31,5岁时为4.81,数量由少及多。由直方图可以看出,儿童平均句子长度的发展呈现较好的年龄发展趋势,自3岁开始逐年递增,其中4岁时发展速度最快。就汉语儿童不同年龄段最长五句话的平均句子长度来看,儿童3岁时为8.69,4岁时为10.68,5岁时为11.56,整体上随着年龄递增逐渐增长。通过直方图,我们也发现这一趋势,其中4岁是儿童MLGU5增长最快的阶段。为了更好地比较不同年龄段儿童的差异,我们对数据进行了方差分析,结果显示,儿童平均句子长度的发展具有非常显著的年龄主效应(F=25.018,P
[关键词] 汉语儿童语料库;儿童语言发展评价;常模;词汇;语法
一、汉语儿童语料库的发展与儿童语言发展研究
汉语儿童语言研究起步较晚,从20世纪30年代陈鹤琴先生追踪记录自己的孩子的语言起始,有关汉语儿童语言研究逐渐进入研究者的视野,但直到80年代之后才得到研究者们的重视。在探讨汉语儿童语言发展的过程中,人们认识到儿童语言发展有着一定的共同规律,但是每一种语言都有其独特性,因而也就造成儿童语言学习的特殊性。因此探讨汉语儿童语言发展的规律,可以为汉语儿童的语言教育提供充足的信息,同时为人类儿童语言研究理论增加重要的内容。
借助位于美国匹兹堡卡内基梅隆大学国际儿童语言中心的CHILDES系统,近年来,汉语儿童语料库已经形成初步规模,集聚了大量0~8岁汉语儿童的语言发展数据。
(一)CHILDES系统与儿童语言发展
20世纪80年代,卡内基梅隆大学的布莱恩·麦克维尼(Brian MacWhinney)教授和哈佛大学的凯瑟琳·斯诺(Catherine Snow)教授,倡导建设一个理想的儿童语料库,真正研究储存儿童在实际生活中使用的语言。立足于卡内基梅隆大学计算机专业的领先技术,以相应的工具软件和适合语料库语言学的语言研究理论为基础,软件工程师们合作开发完善了CHILDES系统。[1]这套针对儿童语言的全新技术由三个部分组成:CHAT计算机储存格式、CLAN计算机分析系统和DATA BASE在线交流方式。CHILDES计算机化语料库的诞生对国际范围内的儿童语言发展研究产生了巨大的影响。
首先,CHILDES系统在儿童语言研究方法的开拓上具有深远影响。它使我们有办法利用语料库提供的数据将我们对儿童语言规律的朴素认识,上升为语言学理论,或者用这些数据来纠正我们常识中对于语言规律理解的种种谬误。通过对数据库进行统计分析,并对照原始的语料和录像等定性、定量分析,使儿童语言研究的结果更具有说服力。
其次,CHILDES系统本身的应用具有极大的灵活性。该语料库包含的数据是根据儿童语言研究的要求和原则,搜集或取样并按照一定的方法分类集合起来的一批儿童语言材料。该语料库具有语言样本大、语域广等特征,其收集的语言材料具有很强的代表性。利用CHILDES语料库研究儿童语言的特征,已成为该语料库最重要的应用之一,它为各国的儿童语言研究者提供了充足可信的数据资源。比如,该语料库可用来研究特定语域儿童的词频、语言结构、意义表达以及语用等特征。而语料库的检索功能和统计手段更是为句法研究、语篇分析、会话分析和语音研究提供了方便。
第三,依托互联网优势,设置开放性共享,各国的研究者都投入精力,建设和扩充该语料库,并共同使用该语料库的资源,获得了一大批具有重要科研价值的成果。自人类社会进入21世纪之后,计算机技术的飞速发展,将儿童语言研究带入了多媒体同步记录分析阶段。研究者利用计算机多媒体技术,实现了儿童语料的声音、图像和文本同步运作,从而为儿童语言研究提供了更为自然、真实和丰富的工具条件,它可以清晰地让研究者将抽象归纳出来的理论和实际的语言运用情景联系在一起,通过观察情景中非声音的部分,能够得到更多的信息,帮助研究者进一步探索。
(二)汉语儿童语言发展语料库形成
在中国大陆,华东师范大学ESEC儿童语言研究中心成为国际儿童语言研究资源交换系统(CHILDES)的中国站点。这个中心旨在团结各方面力量,推动汉语儿童语言发展与教育研究和培训的工作,加快中国儿童语言研究与世界接轨的步伐,开展有关汉语儿童语言发展和教育的研究,提供与国际儿童语言研究沟通交流的窗口,建立儿童语言研究成果转换为教育实践的桥梁。迄今为止,汉语儿童语料库的建设,已经为CHILDES系统提供了最大容量的汉语儿童语言发展的语料,丰富了CHILDES语料库的语域,也为有志研究汉语儿童语言发展的学者提供了宝贵的资料。[2]
在将近二十年的研究过程中,我们已经参照国际儿童语言研究交换系统的工作模式,将汉语儿童语言发展研究所收集的语料建成符合国际规范的语料库。以“www.childes.cn”存在的汉语儿童语言研究中心,一方面实现了与国际儿童语言研究交换系统的对接,成为国际儿童语言研究交换系统CHILDES的中文平台;另一方面,我们的汉语儿童语言发展语料库,已经是国际范围内最大的汉语儿童语料库,这个可以独立运作的汉语儿童计算机语言分析系统,可供以下有关0~8岁儿童语言发展的教学和科研的持續使用。
第一,共享的汉语儿童语言发展研究语料。儿童语料库建立的一个作用是实现研究资料的共享。已经积累并在不断发展的汉语儿童语言研究语料,可以为后来的研究者提供从不同角度研究分析的实际材料,打破传统的研究者独自占有部分语料的局限,让更多的研究者省时省力地开展研究,将研究的工作重点放到真正深入的研究分析上去,从而实现具有科学研究价值的交流和分享。
第二,共享的亲子社会交往研究资料。我们的儿童语料是在半结构化的开放状态下的录像资料和长期跟踪拍摄的自然状态儿童语言活动,因此可以成为从社会、认知、亲子关系等不同角度研究观察分析的基本材料,供研究者进一步分析探讨。 第三,共享的儿童语言发展和教育教学资料。汉语儿童语料库的建立,同时也为我们的专业教学提供了良好的条件,专业学生可以登录我们的儿童语言网站,根据自己的学习和研究需要选择适当的文档,通过指令运行CLAN自动分析语料,获得研究所需要的信息。学生也可将自己采集的语料与之进行比较研究,取得新的认识。
截至2020年初,该数据系统已囊括了中国不同省市儿童语言的数据近60000分钟,语料库同时收集大中华文化情境中儿童华语学习与发展的语料数据,比如新加坡华语儿童语言发展、马来西亚华语儿童语言发展的语料均有储存(见表1)。据此发表的有关儿童语言发展的科研论文和学术报告已达100多篇,国际学界利用数据所撰写的文章亦有30多篇。这些研究成果涉及儿童语法发展、词汇发展、语用发展,以及关于儿童阅读干预与学业语言发展、叙事语言发展、说明性讲述语言发展等。在语料库构建过程中,所有储存的汉语儿童语言语料发挥了重要的研究作用,成为汉语儿童语言研究走向世界的桥梁。
二、从汉语儿童语言发展研究走向语言发展评价系统构建
在探讨汉语儿童语言发展基本规律的过程中,我们日益深切地关注到,有关儿童语言障碍(语言发育迟缓)的研究,已经有了来自教育和医疗实践的广泛需求,同时也是近年国际儿童语言发展研究的一个重点范畴。已有国际研究表明,约6%~8%的学前儿童不能达到预期的语言发展里程碑,从而成为早期儿童语言障碍的工作对象。[3][4][5]早期儿童语言障碍,往往并行产生诸多其他方面的发育问题,成为不同类型特殊儿童障碍发生的标志。[6]大量研究业已证明,儿童语言障碍会影响儿童的读写、情绪和行为等多方面的发展,[7]影响他们后期发展的学业和测验成绩。[8]因此,语言障碍的早期监测和干预,对于每一个儿童的全面发展具有重要意义,也是一个社会提升教育水平的重要标志。[9]
我国儿童语言障碍的研究近年得到日益增长的关注。金星明(2002)指出,语言障碍是临床最为多见的儿童残疾之一;已有研究发现,中国儿童语言障碍的发生率超过4%,并且在近年呈逐渐上升趋势,因而儿童语言障碍的诊断和干预具有非常迫切的现实需要。[10]有关汉语儿童语言障碍的诊断与干预的相关研究发现,需要尽早对潜在的儿童语言障碍进行诊断,并且积极开展早期干预。分析我国儿童语言研究的现场,有关儿童语言障碍的诊断工具和语言干预效应监测严重缺乏可靠的工具。一方面,儿童语言障碍的诊断和干预使用的工具,基本都借用基于英语环境产生的婴幼儿发育量表等国外量表进行诊断,上述工具未能进行在中国文化和语言情境下的信效度检验,国内也还未开发出具有中国文化背景的语言发育评价工具;[11]另外一方面,适合于更大范围不同工作人群使用的非正式儿童语言障碍诊断评价方式尚属空白,因此创建一个符合中国语言文化情境特点的、具备年龄发展常模的早期儿童语言样本数据库和诊断指标体系,将之免费提供给各种研究者和临床干预工作使用,已经成为十分必要的研究任务。
(一)基于儿童语料库构建语言发展评价与监测系统
在早期儿童语言障碍的监测和诊断方面,国际研究一直存在着两种不同的思路。一类采用标准化的语言测验工具进行正式评估,如英语国家通过语言发展调查(Language Development Survey),发现儿童语言落后状况及存在问题,从而为障碍儿童安排进行早期语言干预方案。[12]另外一种不同的早期儿童语言障碍监测诊断,是通过非正式评估进行儿童语言发展评价。这种思路下的语言障碍监测与诊断,一般通过收集语言样本、口述、填空测验和访谈儿童等方法进行。[13]近期的研究发现,收集儿童自然状态下的语言样本并进行分析(language sample analysis,LSA),通常比标准化测验更具有生态效度。与标准化的语言测验相比较,语言样本分析对于鉴定临床语言发育迟缓更加具有敏感度,对于治疗或干预计划的制订以及结果的监测更加有效,而且能够更加有效地反映出儿童日常生活中的语言使用情况。[14]研究者同时指出,借鉴语言样本分析指标作为儿童语言发展水平和儿童语言障碍诊断的评估标准,在早期儿童语言障碍诊断的临床中具有较强的应用价值,但通常具有样本量小、缺乏适当参考值、对于方言缺乏敏感性等局限。[15][16]因此,创建一个具备年龄发展常模和多层儿童比较的早期儿童语言样本数据库,便成为当今国际儿童语言研究界十分重视的研究任务。位于美国卡内基梅隆大学的国际儿童语言数据交换平台(CHILDES),已经率先开展了这样的研究工作。
尽管近几年我国汉语儿童语料库的研究与建设已经获得了突破性的进展,在计算机处理分析儿童语言成为国际儿童语言学界通用方式的前提下,汉语儿童语料库已经建成与国际儿童语言语料交换系统(CHILDES)同步互动的平台,编码储存了0~8岁汉语儿童不同年龄阶段的大量语料,其中包括不同情境下汉语儿童与成人互动的语料、同伴互动的语料、不同类型特殊儿童语言发展和少数民族双语儿童的语料等,成为世界范围内最大的、国际同行充分认同的汉语儿童语料库。[17][18]但是,汉语儿童语料库从儿童语言发展研究走向语言发展评价,我们需要在建立符合计算机标准的正常儿童语言发展模型的基础上,研究可以预测和发现不同年龄階段儿童语言障碍存在的指标系统,使得儿童语料输入后可以产生与计算机分析标准对应的分析结果,从而形成实实在在的符合汉语文化情境的儿童语言发展评价的监测体系,为儿童语言障碍诊断和干预的工作者提供有价值的基础信息。因此,我们面临的是下列重要研究任务。
第一,构建基于汉语儿童语料库的正常儿童语言发展常模。将采用得到现代科学技术支持的儿童语料库研究方法技术,采用不同互动对象不同语言运用方式的儿童语言发展场景语料,分析汉语儿童语言习得若干范畴的发展阶段特点。重整分析汉语儿童语料库中的已有儿童语料,在发现形成汉语儿童语言发展一般水平和特点的基础上,建立正常汉语儿童语言发展的常模。 第二,建立早期儿童语言障碍预测、诊断与干预的指标体系。研究将对汉语儿童语料库中已有的特殊儿童语料进行数据分析,建立对特殊儿童语言发展的特征指标的认识。在此基础上,研究团队将对特殊儿童群体语言与正常儿童形成对照,构建起早期儿童语言障碍的指标体系。通过临床面对面运用于潜在语言障碍儿童的诊断评估上,建立预测、诊断与干预相应语言障碍的评估指标体系。
第三,进行国际同类儿童语言障碍评价指标体系和相关标准测查工具的效度检验。在前两个问题的研究过程中,始终关注与国际儿童语言发展常模和儿童语言障碍评估指标系统的比较,同时通过临床面对面评估应用,进行系统的相关效度检验,同时据此形成对在中国文化和语言环境下儿童语言发展与语言障碍诊断特点规律的认知。
(二)依托国际儿童语料库建设规则构建汉语儿童词汇发展常模与指标体系
在研究中,我们依托国际儿童语料库建设的规则,进一步提升了汉语儿童语料分析的分词、词法的规范性,建立起自动化的语法分析层,构建了跨越3~6岁年龄段的、基于计算机和大数据的、免费的、多用途参考语料库。针对汉语儿童词汇发展的常模研究,我们重点关注汉语儿童词汇整体发展变化如何,哪些指标能够反映汉语儿童整体的词汇发展水平。在三种常用词汇多样性分析TTR、vocD以及NDW中,[19][20][21]仅有vocD在均值上既能反映出汉语儿童的词汇发展梯度趋势,同时在漢语背景下呈现出显著的年龄主效应(见图1)。因此,我们认为简单的拿来主义无法行得通,而经过大数据检验的CvocD值(汉语儿童词汇多样性),可以作为衡量汉语儿童词汇整体发展水平的重要指标。
进一步探讨汉语儿童不同词类发展的指标,通过对不同年龄阶段汉语儿童语料的数据分析,具体而言,就数据库不同年龄段汉语儿童语料中不同词类内部的词型数、词频数以及具体的词汇产出和发展情况,获得对汉语儿童词汇习得过程中不同词类的产出和发展特征的认识,由此建构汉语儿童不同词类产出的参考数据(见表2)。
通过对不同词类的发展进行分析和探索,我们发现在儿童不同词类发展的语料库评价方面,名词、动词、副词、量词、连词、介词的词频数是具有发展敏感度的指标。会同CvocD数值,我们据此建立起不同年龄段汉语儿童词汇发展的参考数据。
(三)构建符合汉语语法发展特征规律的儿童语法发展常模与指标体系
词汇是构成汉语语言的基础单位,在国际儿童语言临床干预中,已有较多有关词汇干预的研究和实践;[22]但是,我们必须认识到,语法是理解语言障碍的关键,[23]儿童语言发展评价与干预无法回避这个问题。建构汉语儿童的语法评价系统,我们首先面临的问题是:汉语儿童语法发展是否具有与国际儿童语法发展的普适性特征?汉语语法构成规律是否带来汉语儿童语法发展的特殊性?这是探讨儿童语法发展评价的基础。
在将近20年的汉语儿童语法发展与相关语料库研究中,诸多汉语儿童语言研究者证实了平均句法长度MLU在汉语儿童语法发展研究中的普适性,因而MLU已经成为汉语儿童语法发展的一种基本评量手段。[24][25][26][27][28][29][30][31][32]因为语料库计算机处理语言信息的特殊性,汉语儿童语料的录入分析,根据张显达对拉杰·布朗的14个语素规则有所修订。[33][34]与此同时,在语料库运算的语言研究中,诸多研究同时发现,平均最长五个句子的数值对于汉语儿童语法发展,也具有较好的发展评价的指标意义。[35][36][37][38][39]此外,在汉语儿童语法发展研究中,也已发现汉语儿童在进入3岁左右出现复合的句式,[40]到4岁时呈现联合关系、因果关系、递进关系、转折关系等,这些汉语语法要素如何融入语法发展评价?因此,此次研究将语料的复合句子状态形成计算机标注连接,并让计算机分析汉语平均句法长度MLGU和平均最长的五个句子长度MLGU5,就成了我们工作的重点。
如图2所示,通过对不同年龄段汉语儿童语料的平均句子长度进行运算和分析,我们发现,儿童3岁时汉语平均句子长度为3.66,4岁时为4.31,5岁时为4.81,数量由少及多。由直方图可以看出,儿童平均句子长度的发展呈现较好的年龄发展趋势,自3岁开始逐年递增,其中4岁时发展速度最快。就汉语儿童不同年龄段最长五句话的平均句子长度来看,儿童3岁时为8.69,4岁时为10.68,5岁时为11.56,整体上随着年龄递增逐渐增长。通过直方图,我们也发现这一趋势,其中4岁是儿童MLGU5增长最快的阶段。为了更好地比较不同年龄段儿童的差异,我们对数据进行了方差分析,结果显示,儿童平均句子长度的发展具有非常显著的年龄主效应(F=25.018,P