基于语料库的cet4阅读理解的相关性分析.pdf

收藏

编号:20181111064940434275    类型:共享资源    大小:268.90KB    格式:PDF    上传时间:2019-02-16
  
3
金币
关 键 词:
CET4 基于研究 CET4阅读 PDF 阅读理解 基于语料库的 语料库 基于语料库 的CET4 英语四级 语料库的 性分析 题的分析 的研究 英语四 级
资源描述:
2011年7月 第32卷第7期 韶关学院学报·社会科学 Journal of Shaoguan University·Social Science Ju1.20l 1 V0lI32 No.7 基于语料库的CET4阅读理解的相关性分析 黄伶燕,罗建平 (广东石油化工学院大学英语教学部,广东茂名525000) 摘要:利用语料库的R_ANGE32系统对大学英语四级考试的深度阅读理解题成绩与词汇难度的相关性进行统计分析,结果 发现.阅读理解的成绩与短文的词汇难度虽然不存在相关性,但与短文后的问题及选择项有较显著相关。讨论认为,这是由阅读理 解题型的分立式测试性质所决定的。分立式测试通过设计若干个测试点对短文的内容进行测试,并不能反映综合理解能力,加之 命题者的主观性原因。必然对成绩产生较显著的相关影响。 关键词:语料库;阅读理解;相关性分析 中图分类号:H310.4 文献标识码:A 文章编号:1007—5348(2O11)07-0081-03 语料库在外语教学科研中的应用越来越广泛。 有关语料库的研究和应用是目前研究的一大热点。 基于语料库的研究涉及多个方面,如文秋芳关于中 国英语学习者口笔语研究[1],梁茂成等关于情态动词 使用情况的研究E2],李文中关于文学作品分析与主题 词的研究[3],何安平关于英语教学方面的研究E引,还 有语义韵、搭配与类联接的研究、批评话语分析E5]、 语篇结构分析、历时实证研究[6]和聚合关系的研究[71 等等。本文基于语料库对大学英语四级考试的阅 读理解进行难度和成绩的相关性分析。阅读理解 可定量分析的一个指标是词汇难度,本文拟就词 汇难度进行考察。 一 、语料库的词汇难度分析系统 语料库对词汇的难度分析主要运用RANGE分 析系统。该系统内置3个级别的baseword词表,分 别为一级最常用词表,二级常用词表和三级词表。 每级词表内有family(in-]族)和type(i~-]类)。以ABIJ£ 为例,ABLE“为词族,下有词类ABILI rY,ABLER, ABLEST。ABLY,ABILITIES,UNABLE和lNABILITY 共7个,包括了屈折形式和派生词。RANGE有两个 分析工具,一个内有10级词表,每级各有1000个 families;另一个内部只设3级词表,一级词表有998 个families,二级词表有988个families,三级词表仅 为570个families。两个工具得出的数据结果不尽相 同,一般都选择使用后者。词表分析默认为3个级 别,也可根据需要改为2个级别或设置更多蛾更少 级别(甚至可加入大学英语大纲词表)。下面以2010 年6月大学英语四级考试的2篇阅读理解短文的检 索结果为例,见表1。 表1 2010年6月大学英语四级考试 阅读理解短文检索结果 表1中第一列为三级词表名称,第五行not in the lists是指3个级别中都没有出现的词汇:第二列 是形符(token)数和比率,计算方法是每个词出现一 次就统计一次;第三列是类符(type)数和比率,计算 方法是每个词类不管出现多少次都只统计一次:第 四列为词族数,计算方法是同一词族,不管类符出现 多少个只统计一次。 为了获得短文的准确数据,我们把各篇短文后 面的问题和选择项分离另行统计。从表1可知,这2 篇短文共有词(形符)数674个,比新视野大学英语课 文要短;一级形符占总词汇量75.82%;类符是385 收稿日期:20l1-o3—3O 作者简介:黄伶,~(1970一),女,广西合浦人,广东石油化工学院大学英语教学部讲师,主要从事应用语言学研究。 81 万方数据 个,词族共260个;类符与形符比较高,为57.12%,表 明这两篇短文有较大的用词多样性,阅读有一定的难 度。根据许家金等人的研究,“类符的三级及词表外词 汇是更可靠的难度判别标准”[8]。我们采纳这一观点。 把三级及词表外词汇的百分比相加.作为四级阅读词 汇难度的统计依据。分析词汇难度还可计算平均词 长,标准化形符/类符比等,但由于本文研究目的不 同,不进行这方面的统计。 I 二、研究目的 本研究的目的是试图回答以下两个问题。 1.阅读理解与词汇难度是怎样的一个相关性关 系,是否有差异显著性? 2.阅读理解后的问题和选择项与成绩的相关性 如何?是否有差异显著性? 三、研究方法 我们首先利用语料库RANGE系统进行词汇难 度分析;再利用SPSS统计分析软件进行相关性分 析。把从语料库得到的数据与学生成绩进行比较, 分别统计分析成绩与词汇难度和与问题及选择项之 间的相关性,具体做法如下: 1.整理和清洁语料。把四级试题中的阅读理解 题整理成可供语料库分析的语料。为了得到准确的 数据,把每篇阅读短文与后面的问题和选择项分离, 分为短文语料(以下简称P语料)和问题及选择项 语料(以下简称Q语料)。去除汉语解释。根据笔者 的经验,还要处理句法连接符(相当于汉语的破折 号),在其前后加上空格,以免系统当成错码而计算 错误。另外,用尖括号把元信息括起来,不进行统计。 2.运行RANGE系统,分析P语料和Q语料,求 出2个自变量,自变量1是把三级和词表外的类符 率相加(即把表l中的第四行和第五行中TYPES的 百分比相加),求得词汇难度率;自变量2是把Q语 料的形符总数除以P语料的形符总数,求得Q语料 和P语料的形符量比.以下简称Q/P形符量比。 3.输入阅读短文的平均成绩(因变量)。成绩来 自本校的本科学生这两年的CET4真题和模拟题训 练的成绩,提取其中深度阅读理解短文的成绩,统计 每篇的平均得分率。CET4真题短文有l8篇,模拟 题短文有16篇,共34篇。 4。运行SPSS的Pearson相关分析,观察因变量 与自变量的相关系数及其Sig.检验的差异显著性。 最后讨论结果,定性分析。 四、统计结果与讨论 运行Pearson相关分析发现,表l中的一级、二 级、三级以及词表外的形符率和类符率,这些变量与 82 阅读理解的平均成绩均不存在相关性,没有统计意 义,故这部分略去不表,以节省篇幅。下面只讨论阅 读平均成绩与词汇难度率(自变量1)和Q/P形符量 比(自变量2)的相关性。它们的相关系数以及差异 显著性的Sig.值,见下表2。 表2阅读平均成绩与词汇难度率和 Q/P形符量比的相关性 阅鋈 均自变量1自变量2 Pears∞ 1 .121 一.650{ 阅读平均 Correlation ‘‘ ’ 成绩 Sig.(2一tailed) .494 .000 N 34 34 34 .Correlation is significant at the 0.O1 level(2-tailed). 表2中第二行是相关系数。第三行是检验差异 显著性的值。根据统计学理论,绝对值低于0.20以 下的相关系数称为最低相关,一般可以忽略不计; ±0.2O~±O.40之间为低相关;土0.40~±0.70为切实相 关,即较显著相关;±O.70~±0.9O为高相关,即显著相 关;绝对值大于0.90则为最高相关[93。成绩与自变量 1的相关系数只有0.121,属于最低相关,应忽略不 计,而且Sig.值为0.494,大于0.01,没有差异显著性, 无统计意义。成绩与自变量2的相关系数为-0.650, 是负相关,Sig.值为0.O0o,小于0.01,差异显著,有统 计意义。属于较显著相关。这个Q/P形符量比在50% 与92%之间,平均值是67.3%,标准差是11.2%。我们 曾画出散点图观察成绩与Q/P形符量比的相关性, 大多数情况下,当Q/P形符量比越大,平均成绩越 低,反之,成绩越高。换句话说,当问题和选择项的 句子越长,字数越多,成绩会越低,反之越高,呈线性 回归特征。当然,这只是一种可能性,值为65%,还 有其它因素,但不属本文讨论范围。 至此。本研究提出的两个问题可以得到基本解 答:一是阅读理解的成绩与词汇难度没有相关性;二 是每篇短文后面的问题和选择项对成绩有较显著的 切实影响。但是,是什么原因造成这样的结果,还需 要进一步讨论和分析。 首先,大学英语四、六级考试是依据考试大纲命 题的,考试大纲设计了一个词汇表,凡是超出这个词 汇表的词,都必须标出汉语意义,而这些词都包含在 自变量1的词汇里面,考生一看汉语解释就懂,不存 在困难。因此,这就部分解释了为什么成绩与词汇难 度没有相关性的原因,也表明许家金等人认为的“类 符的三级及词表外词汇是更可靠的难度判别标准” 在这里失去了判别意义。不过,还应该有其它更深的 原因。 第二,大学英语四、六级考试基本属于分立式 万方数据 (DiSCrete points)~1]试性质。结构主义理论认为语言 由许多成分组成,掌握一种语言就是要掌握这些组 成成分。分立式测试,就是将这些组成成分分成若 干小的单位,然后一项一项地测试。每一个题目一 般只考查一个语言点,而且多采用单项选择题的方 式。对于CET4的阅读理解题,每一篇短文一般只选 取5个测试项目。无法综合测试对全文的完整理解。 因此,命题时,问题和选择项的设计是否得当,必然 是影响成绩的一个重要因素。 第三,由于命题者的主观因素,所设计的问题和 选择项有长有短,有复杂有简单,回答起来也就有难 有易。例如,原文复杂难理解的地方可能不设计为 测试点,因此就会造成文章难读,但得分容易的结 果。反之。原文容易理解的地方没有设计为测试点, 而专门找了几个难点,这样,文章虽然整体好懂,但 得分却不易。Q/P形符量比就反映了命题者的刻意 用心,量比大是命题者有意把问题搞复杂、加强干扰 所导致的。还消耗过多的考试时间,从而影响成绩。 为了证实问题和选择项是影响成绩的一个重大 因素这个判断,我们特地做了实验。用2010年6月 的四级考试中深度阅读理解题中Section B的两篇 短文.先测试两个班的学生,统计第57题至第66题 的各题答对率和选择项的答错率。然后改写其中一 些选择项,再测试另外两个班的学生,再统计对比, 结果发现答对率和答错率都出现显著性改变。如第 57题的正确选项是C,原答对率只有45.6%。主要是 选项Its abilitv to ward off disasters is incredible不是 很容易理解。于是,把选项原句改为Its ability to endure disasters is hard to believe.答对率随之上升 到7O.3%。再如第65题的正确选项是C,答对率是 57.1%,而干扰项D的回答率是23.8%,把该选项原 句People with low self-esteem always write down their true feelings中的always改为seldom之后。回 答率下降至2.4%,而C的答对率上升到72.0%。由 此可见问题与选择项的设计对成绩所产生的重大影 响,而不是阅读短文自身的难度。 五、结语 综上分析,CET4英语阅读理解的成绩与词汇 难度没有相关性。却与短文后面的问题和选择项构 成较显著的切实相关,这是由分立式测试的性质所 决定的。分立式测试适合语法和词汇测试。不适合阅 读理解。英语阅读理勰测试本应是综合性测试性质, 但是,为便于大规模标准化考试阅卷的需要,因而设 计为分立式。由于分立式测试是把短文内容分解为 若干个测试项目,所以在实际考试中往往不需要完 全读懂全文,只需要test—wiseness[m (应试技巧),就 能获得好成绩。 参考文献: [1]文秋芳,梁茂成,晏小琴.中国学生英语翻笔语语料库[M].北京:外语教学与研究出版社,2008. [2]梁茂成.中国大学生英语笔语中的情态序列研究[J].外语教学与研究,2008(1):51—59. [3]李文中.基于英语学习者语料库的主题词研究[J].现代外语,2003(3):284—293. [4]何安平.语料库语言学与英语教学[M].北京:北京大学出版社,2O04. [5]钱毓芳.语料库与批评话语分析[J]-夕 语教学与研究,2010(3):198—203. [6]罗建平,黄伶燕.基于历时语料的副名结构的实证研究[J].语文学刊,2010(6):1-_4. [7]罗建平,黄伶燕名词非范畴化与副词结构的聚合关系[J].重庆交通大学学报:社会科学版,2010(3):128-132. [8]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010:138. [9]秦晓晴.夕 语教学研究中的定量数据分析[M].武汉:华中科技大学出版社,20o3:238. [10]ROBERT W.Assessment and testing:A survey of research[M].北京:外语教学与研究出版社,2001:26. Correlation Analysis of Reading Comprehension in CET4 Based on Corpus HUANG Ling-yan,LUO Jian-ping (College English Department,Guangdong University of Petrochemical Technology, Maoming 525000,Guangdong,China) Abstract:Based on RANGE32 of the corpus,this paper statistically analyzes the correlations between the score of reading comprehension in CET4 and the difficulty degree of vocabulary in the passages.The results show that there exists no correlation between the two variables.Instead,the reading comprehension score shows a significant correlation with the questions and their multiple choices following the passage,which is caused by the nature of discrete points tests,on which the CET4 is mainly based. Key words:corpus;reading comprehension;correlation analysis (责任编辑:宋伟华) 83 万方数据
展开阅读全文
  皮皮文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:基于语料库的cet4阅读理解的相关性分析.pdf
链接地址:http://www.ppdoc.com/p-10930969.html

当前资源信息

浏览:4次
bair****993上传于2019-02-16
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2008-2018 皮皮文库网站版权所有
经营许可证编号:京ICP备12026657号-3 

收起
展开