论文部分内容阅读
《英语学习》线上系列沙龙第27期的主题是“聚焦广东高考人机对话”,主持人和嘉宾围绕以下话题展开了讨论:高考人机对话(听说考试)改革方案的背景与实施条件;方案的研制过程与方法;命题的原则及构念;题型特点及分值;高考听说考试试题分析;听说考试备考经验分享;听说考试对高中英语教学的影响。我们将讨论内容整理成文,以飨读者。
高考“人机对话”(听说考试)改革方案的背景与实施条件
镇祝桂:各位老师好!欢迎参加“聚焦广东高考“人机对话”微信谈”。首先有两点说明:(1)广东高考在“人机对话”方面走得比较前,有2011年之前的“人机对话”口语考试和2011年之后的听力和口语结合的“人机对话”考试,简称“听说考试”。我们今天讨论所用的“人机对话”是指“听说考试”。(2)广东“人机对话”考试体现了广东省教育厅、广东省考试院的改革精神。广东省的一批知名教授(例如曾用强教授等)为考试的设计与实施做了大量的研究和论证,他们为广东省的高考改革做出了巨大贡献。曾用强教授因公务不能参加今天的讨论,我们邀请了他的两位(参与了最早期“人机对话”研究工作的)博士生程粉香博士和张放博士与大家分享和讨论。首先,请陈皓曦老师介绍一下广东听说考试的背景。
陈皓曦:大家好。很荣幸今天能参与讨论。聊起广东省的听说考试,值得一提的是,广东省早在1997年就率先在高考英语中增加听力测试,但当时的成绩不计入总分。
广东省同时还是全国最早在高考中纳入英语口语考试的省份之一。从1985年开始就在“英语复试”中增设了口语考试。“英语复试”主要服务于高校英语专业招生的需要。之后,“英语复试”历经变化,初期采取“人人对话”的形式,从2004年起正式实施计算机辅助英语口语考试(简称“人机对话”)。英语考试的发展是由语言教学理论和语言测试理论的发展以及考试技术手段的发展决定的。
计算机辅助口语考试的研究始于上世纪90年代。当时的口语考试(复试)强调“信息交流”,采取考生与教官“人人对话”的方式进行,这种考试施行了近十年,对广东省中学英语教学起到过积极的推动作用。
但是,随着时间的推移,考试的效度也在减弱,学校采用多种应试策略来对付考试,反拨作用逐渐不能令人满意了。“人人对话”考官即时评分的评价方式,在评分信度上也受到质疑。此外,由于题型局限,可考查的情景有限,命题也越来越有难度。原有的考试模式需要改革。
命题的原则及构念
镇祝桂:那么,广东省高考测试专家们当年是如何构念听说考试的呢?下面有请程粉香博士和张放博士为我们解读。
陈皓曦:两位博士都参与了听说考试方案的早期研究工作,由两位代表曾用强教授对方案的命制原则与构念进行解读。
程粉香:谢谢镇老师和陈老师!刚才陈老师提到了语言教学观和测试理论的发展对考试改革影响。也就是说:交际语言教学观认为学语言不仅是学语音、词汇和语法知识,而是获取人与人交际的一种能力。相应地外语测试也提出语言测试所要测的,也应该是语言能力,即应该测试学生在实际的语言交际情景中应用语言知识和技能的能力。不仅是测试内容发生了变化,测试方法也从传统的标准化测试发展到行为测试,真实性成为一个重要标准,考试任务越来越接近实际情景中的语言使用,即利用交际任务设计综合考试任务,学生需要使用两种或者以上的语言技能来完成。而计算机技术和网络技术的进步为这种发展提供了技术上的支持。
因此在设计考试形式时,首先要满足的就是真实性的原则。口语考试任务必须尽可能接近中学生可能使用英语的真实情景。计算机化考试更是要通过多媒体的应用,突出考试任务情景的真实性。
陈皓曦:的确如此,早期的听力和口语考查,题型比较单一,情景反应、辨音等测试题型不能满足交际性与真实性的要求。
程粉香:第二,作为高校招生考试,高考必须满足高校选拔人才的需要,因此听说考试需要具备良好的构念效度。
葛炳芳:人判分时信度受到质疑就用机器代替,是为了提高效率省钱吧?(当然技术也突破了?)
陈皓曦:“人人对话”是费时低效的,由计算机代替考官,是当时科技进步对于教育的最大裨益。
镇祝桂:并且“人人对话”还受不同考官的语音影响,导致考试开始前就有了某种不公平。
程粉香:葛老师提到了第三个重要的问题——信度。作为大规模高风险考试,公平公正是社会比较关注的问题,因此高考必须具有较高的信度。这就要求听说考试严格控制考试评分误差。
陈皓曦:关键是考官还同时扮演对话者和评阅员。
程粉香:对,效率低是其次,信度低才是硬伤。但不可否认的是,高考对中学的英语教学有巨大的引导作用,高考英语听说考试必须具备良好的反拨作用。
葛炳芳:机器评卷的信度才是我们要关注的,软件评卷也会有问题。
陈皓曦:葛老师的疑惑应该代表了大部分老师的心声。但即时评分除了标准的把握比较困难外,也让复查变得更难实现。
扈华唯:广东版的“人机对话”的交际性是如何解决的?将问和答拆分成情景提問和情景回答两个部分合适吗?
陈皓曦:早期的听说考试是人评的,做了三年机评数据与人评数据的对比,比较之下发现机器评分信度高于人工评分。任何的大型测试,都必须在有限的条件下适当地妥协。
镇祝桂:广东高考前年才正式实施机评,在这之前经过了几年的实验对比和改进。
扈华唯:机考是趋势。
镇祝桂:对。我们也经历了一个由不适应到逐步适应的过程。扈老师,我们接着会介绍题型等。
李丽茹:广东省的听说是2014年第一次进行机评。当年的确有一些问题,比如我们学校一个满分的学生都没有(人工评卷时我们大约有20、30个),但2015年调整之后,机改的得分数据就跟以往人工的结果比较一致。该高分的学生也的确能拿高分了。 陈皓曦:程老师,能否讲一下“人机对话”与“人人对话”相比的优势呢?
程粉香:首先,就像陈老师提到的,传统考试的效度越来越低。高考是教学的指挥棒,怎么考就怎么学,只针对题型做指定的训练,因为题型单一,学生的练习也很单一,传统考试难测到学生的综合语言应用能力。
陈皓曦:改革需要一步一步来,毕竟“人机对话”相比“人人对话”是一种进步。
李丽茹:是的。
程粉香:另一个原因就是传统的考试需要大量的考官和评分员,很难保证他们能够以同样的角度解读评分标准,因此,信度很难保证。最近的研究都证明机器评分的信度高于人工评分。
陈皓曦:是的,整个机评的过程在不断地完善,技术也越来越成熟了。机评是用一把尺子量度学生的水平,而人评则受到诸多因素的影响。
李丽茹:机改是必然的趋势。
扈华唯:任何老师的效能都会随着施测的时间推移而弱化。
陈皓曦:对的,所以测试的改革永不停步。
程粉香:是的,老师内在的能力原因和一些外因都可能随时会影响到评分的信度。在以上提到的设计原则的指导下,考试的构念就被设定为:要求考生掌握并能运用英语语音、词汇、语法基础知识以及所学功能意念和话题(以每年颁布的考试大纲为依据)。具体来说如下:
听力:要求考生能听懂所熟悉话题的简短独白和对话。考生应能:
(1)理解主旨和要义;
(2)获取具体的、事实性信息;
(3)对所听内容作出推断;
(4)理解说话者的意图、观点和态度。
口语:要求考生根据题示进行口头表达。考生应能:
(1)询问或传递事实性信息,表达意思和想法;
(2)做到语音、语调自然;
(3)做到语言运用得体;
(4)使用有效的交际策略。
扈华唯:人评的优势也不可忽略。雅思还是人评。只是我们的高考考试规模太大了,没有办法采用人评。
陈皓曦:扈老师说得很有道理,但雅思考官的水平高呀,他们说的可是母语呢。我们的评卷老师无法比拟。
扈华唯:是的。但尺子可能不是同一把。
葛炳芳:同意扈老师的观点。不是人的水平问题,而是大规模考试这个技术提高了效益。
镇祝桂:广州市这些年的听说模拟考试还是用人工阅卷方式(今年将改为机器阅卷),但我们核查发现,就算是同一个人的标准,改卷那几天的前后都会有一些差异。
陈皓曦:毕竟考试也只能是尽量模拟真实的情境,抽样考查学生的能力。葛老师的观点我很认同。不过当年的“人人对话”,也有很多考生诟病考官的口音等问题呢。所以用机器代替人,是相对更公平更科学的。
扈华唯:在当下中国情景下,机考是最好的出路。能促进外语教学更健康地发展。
陈皓曦:是的,也为老师减輕了很多负担。
扈华唯:赞同。
李丽茹:从一线老师的角度看,2015、2016年的机改数据结果还是可靠的,跟学生的真实水平比较匹配。
扈华唯:这个很重要。
陈皓曦:是的,我们一直很关注这个问题,也不断地跟技术支持方进行对话,提出问题促使他们进行技术革新。
方案的研制过程与方法
镇祝桂:下面请张放老师介绍一下广东省方案的研制过程与方法,希望能给大家带来一些启发。
张放:各位老师大家好,我的介绍主要包括听说考试的效度验证和试题命制方法。效度验证其实并不抽象,简单来讲就是研究试题是否考查了目标能力。在设计试题的时候,开发者主要参照了一系列有关交际能力的文献。其中Hedge(2001)的Framework of oral communicative competence把口语能力分为:linguistic,pragmatic,discourse,strategic competence以及fluency。而Luoma(2004)则把口语能力简单分为spoken production和spoken interaction两个方面,即“能够说出来”并“能够交流”。
听说考试效度验证是主要回答两个方面的问题,即各试题是否能够考查到考生的对应能力,以及在多大程度上考查到了这种能力。请大家关注这两个问题:一个是“是否”,一个是“程度”。
目前已经完成的效度验证研究通过调查问卷和访谈等方法获取了命题专家、一线教师和考生等的意见,得到的结论是,听说考试能够考查考生的听力理解和口语产出能力。
不过,由于计算机化考试的智能程度尚在发展之中,实施测试的功能还有一定局限。例如,机器能够引导考生在理解听力文本的基础上进行口语输出,但不能对考生的表达做出模仿真实交际者的回应。因此,目前的机助听说考试对语用和策略等方面的能力考查程度有限。
陈皓曦:是的,所以在今后的测试研究中,更多会关注如何利用机器的长处更科学地构念听说考试。
扈华唯:机器的智能化程度有很大的提高空间。从埃尔法狗下围棋那么厉害就可以看出。
陈皓曦:是呀,技术革新速度很快。目前主要还是基于语音识别技术。
张放:我想这一点回答了扈老师之前的疑问,您提出听说考试的问答部分分开了问与答,因而质疑它的交际性。这就是“程度”的问题,也就是说,目前的听说考试考查了学生的产出性能力,但对交际性的考查不足。希望随着计算机技术和人工智能的发展,对交际性能力的考查还会更进一步。
扈华唯:但我们都还没有获得满意的答案。需要测试和计算机人工智能共同努力。
陈皓曦:机器可以通过学习人工评卷以及定标来达到与人评的高度一致。因此定标也是很关键的环节,必须将不同的考生答题情况都进行细致的分析和赋分。 扈华唯:标准是关键。
陈皓曦:是啊,我们培训不了人,就培训机器了。
张放:标准恰恰是人工评分的硬伤,就是标准不一。
程粉香:其实机器评分是在最大化地模拟人工评分,但是最后目标又是要好于人工评分。
扈华唯:我们应该有国家级的标准。
陈皓曦:这是我们共同的努力方向。
镇祝桂:不过,说实话,定标的确是一件很头疼的事。
陈皓曦:头疼说轻了,绝对是烧脑。
命题的原则及构念
张放:下面简单介绍一下试题开发的过程。
了解试题的命制可以帮助老师们选择合适的材料进行备考教学。命题第一步是选材。听说考试选材力求原创性。Part A模仿朗读由原版纪录片的影音视频改编,例如Discovery,BBC,National Geography等;Part B问答题由国外原版语言类教材的对话部分改编;Part C由国外原版故事类读物改编。在开发过程中,选材非常广泛,这样才能保证原创性和试题安全性。
李丽茹:张放老师的这个素材来源信息很宝贵。
陈皓曦:其实老师们经过六年时间,对素材特点都很清楚了。但素材库浩如烟海,提升学生的能力才是硬道理。
张放:第二步是试题的编制。试题命制的过程非常严谨。Part A需做到画面切换平滑,背景音乐柔和,速度适中,文本中超纲词需少于三个,且符合读音规则;Part B注重语言地道性,需符合角色特点和口语性语言,文本在8个话轮左右,问题设置均匀,在原文和对问题的答语中设置答案;Part C同样讲求语言地道性,命题者将原故事从1,000词或以上压缩至200词,并设置10个采分点。
题型特点及分值
镇祝桂:大家先看一看广东听说考试的题型和试卷结构(见表1)。
Part A Reading Aloud 模仿朗读
考生观看一段大约一分钟的片断,然后考生开始模仿训练:先阅读文字稿,再对照文字稿听录音。完成训练之后考生开始模仿朗读:考生对照片断的字幕朗读,要求考生的语音、语调和语速尽可能与片断保持一致。
Part B Role Play 角色扮演
角色扮演包含多个环节与任务:第一个环节是观看情景介绍(中文文本)及一段短视频对话,对话只播放一遍。对话文本长度一般为120词左右,含4~6个话轮,考生须了解情景和角色,并记录关键信息,为接下来的环节做准备。第二个环节是由计算机依次呈现中文提示,要求考生根据提示向计算机提问三个问题,一般包括一个一般疑问句问题和两个Wh-问题。考生提问后,计算机将分别回答这三个问题,每个回答播放两遍。之后计算机向考生提出五个问题,考生必须根据自己所听的内容(包括视频片段和计算机的回答两部分)回答问题(即“五答”)。
Part C Retelling 故事復述
故事复述部分先为考生提供故事的梗概和五个关键词(中英对照),让考生先进行故事预测,然后给考生播放一则结构完整、线索清楚、字数在200词左右、录音时间在1.5~2分钟的录音材料,然后要求考生尽可能多地对材料进行复述。

“英语听说”考试时间约30分钟。考试实行计算机辅助考试,即录音形式,听到“嘟”后可回答。试卷满分60分,但最后折合成15分为满分。计分时,采用四舍五入法。
陈皓曦:谢谢镇老师,了解了题型对于张博士的讲解会更容易了解,张博士请继续。
张放:第三步就是试题的质量审查。研发题目时分为三个小组:Part A,Part B和Part C。不同小组交互检查、反复讨论,磨题3~5稿;同时,总负责人进行常态监测,并由审查人审查语言质量、超纲词情况和原创性,最后总负责人和分组长分别审查并交换意见。准备试题素材是一项大工程,以第一部分模仿朗读为例,研发题目时我们会下载上百个原版纪录片视频,从中筛选编辑,最终成为试题的只有7~8个。
陈皓曦:听张老师讲试题研发过程,感觉很亲切。我们每年都要命制模拟考试题。平常老师们对于试卷背后的制作过程不会很关心和了解。
镇祝桂:张老师,几套题之间的难度如何平衡呢?
张放:关于试卷难度的平衡,一般来说,在标准化考试中试卷难度是可以通过计算来达到等值的。也就是在考试结束之后观测各套试题考生考出来的结果,之后利用公式调整分数。但这种处理需要使用标准分,而我们笔试试卷还是使用原始分,所以很难进入总分计算。第二种平衡难度的方式就是先把试题给水平相当的学生做一遍,然后调整试题难度,但这种操作适用于题目的研发过程,较难用于高考试题命制中。因而,目前试卷难度平衡的方式还只能在命题阶段,例如,保持每年命题人员的稳定、加大审查的频率和严格度等。
陈皓曦:卷面60分,最后折算为15分的做法,也一定程度降低了不等值所带来的问题。
镇祝桂:原版素材中出现超纲词汇如何处理?
陈皓曦:有时对于一些生词超标的视频,广州市模拟题的做法是对原版材料进行适当改写,找外籍人士重新录制再合成。毕竟从几百个视频中筛选,过程太time-consuming了。
镇祝桂:我们命题时重新改编了内容,回避了一些超纲词,也剪辑了视频,但高考题似乎没有。
张放:广东高考的原版视频好像没有进行重新制作,只节选出超纲词符合要求的视频。
陈皓曦:谢谢程博士和张博士的专业解读。
高考听说考试试题分析
镇祝桂:下面请陈老师对这几年的广东高考听说考试题做一个简要分析,看我们的理解与试题研发者的思路是否吻合。 陈皓曦:2011—2016年一共使用了43套高考听说试题(每年根据考试的实际需要,大约使用6~8套)。下面我进行简要分析,大家可以根据刚才张博士所说的进行对照。
第一部分“模仿朗读”历年的取材都是英文原版纪录片片段,视频材料时间长度大约1分钟,原声配音人员的语调一般表现为平实、客观,语速为每分钟110~120词。文本长度在100词左右。话题方面涉及自然、环境、健康、科技、文化、地理、历史、文学、艺术等各个方面,全部涵盖在《课程标准》和《考试大纲》的“话题项目表”中所列的24个话题中。朗读的文本具有典型的说明文文体特征,语言比较正式。
模仿朗读每段材料中的生词数量大约占文本总长度的3%,一般不超过3个,考生根据读音规则均可以自然拼读。
弗莱士易读度分析数据表明,模仿朗读的文本材料难度相当于美国六年级学生的写作水平,属于比较容易的文本。
模仿朗读题能够有效地反映学生的语音语调基础水平。100字左右的朗读材料,综合考查了学生的基本读音、单词和句子重音、读音变化(连读、失去爆破、弱读、同化)、语调和节奏(意群与停顿)等语音知识的掌握与运用情况。这些都是考试大纲附录1 “语音项目表”中所列的内容。可以说,通过短短一分钟的朗读,学生的语音面貌能够很好地区分出来。
模仿朗读要求内容完整、意群停顿正确、语音正确、语调适当、朗读速度与录像画面同步等等。除了各个语音项目的考查外,地点、人物等专有名词、数字、生词等都是完成模仿朗读中的难点。
第二部分“角色扮演”历年试题所选取的话题都是中学生比较熟悉的,是日常交际中的常见内容,与《课程标准》和《考纲大纲》的话题项目表和功能意念项目表所列的话题及交际功能相一致。
然而,不同话题间所使用的词汇的词频或难度也存在一些差异,提示我们在教学备考中要全面覆盖课程标准之下所有的话题(及词汇)和功能意念项目。
如果说模仿朗读是基础性考查的话,角色扮演考查的能力则十分综合,主要包括听取主旨和要义,获取具体的、事实性信息,以及用英语回答提问的准确性、得体性、流利性和连贯性。在提问环节要特别关注提问内容是否合乎中文提示的要求,提问方式是否准确。在回答环节中则要特别关注信息的准确性。信息来源于引入阶段的对话以及角色扮演提问环节中计算机的回答信息。考生必须对重点信息高度敏感,并且能够快速有效地记笔记。
第三部分“故事复述”历年考查的题材均为故事。朗读者的语调较为活泼、生动。故事一般都幽默有趣,或者会有出人意料之外的结局。弗莱士易读度分析数据表明,故事复述的文本材料难度比模仿朗读的部分还要容易,相当于美国4~5年级学生的写作水平,属于容易的文本。
故事复述部分要求学生具有良好的听力理解能力、能够快速把握故事大意,并且抓住关键信息在短时间内进行信息重构,借助笔记进行口头复述。如果故事本身含有比较多对话(直接引语)的话,也会给考試增加难度。这个部分对于学生口头表达的流畅度要求特别高,也是对学生心理素质要求最高的部分。
总之,历年的试题还是比较好地实现了考试的目的,也比较真实地反映出学生的听说综合能力。
程粉香:第三部分的故事复述考的能力比较综合。是这三道题中区分度最高的题目。
镇祝桂:第三部分命题时对故事的要求也很高,首先故事要有可复述性,其次要有一定的趣味性,但要控制趣味性的程度,例如冷幽默就不能用,语言能力不到位的学生不能理解。第三部分侧重学生获取、组织、整理、连贯表达信息的能力。第一部分重在考查考生的语音质量,第二、三部分强调获取信息的准确性和表达信息的流利度
李丽茹:陈老师的分析很到位。
听说考试备考经验分享
镇祝桂:下面请陈老师和来自一线的李丽茹老师介绍如何备考。
陈皓曦:我先介绍一下全市层面的备考吧。
2010—2011年,我主管广州市的高三英语教研工作。广东省英语听说合考改革方案公布后,单位主管领导给我的指示是:英语学科要认真研究,给出到位的备考指导意见,引领全市高中学校充分备考,但不能挤占其他学科的备考时间。相信教研员们会对我当时的处境感同身受。英语测试改革力度大,往往我们学科需要承受内外的压力。
我是2009年9月调入教研院工作的,之前在学校担任过几年英语(2)学科的教学,也积累了较多的教学与备考经验,所以面对听说合考改革,总算是有一点儿底气。
虽然仅仅是六年前的事情,但是当时学校现代化建设刚刚起步,广州市还有相当一部分学校的计算机课室及支持听说训练的设施设备很不完善。在部分农村学校,连计算机课室都没有,上课依然使用录音机。相当多的高三英语教师对于听说考试改革的态度是抗拒、恐慌、不知所措的。
我和科组其他教研员一起,通过对听说考试题型的认真研究和分析,得出的结论是:计算机辅助的考试,只是考试形式上的改变,由于广州市中考从2007年起就全面实施了计算机辅助的口语考试,所以学生们要适应“人机对话”的考试形式并不存在很大的困难。而从教学和备考的角度看,三个题型的训练也并非一定要依赖计算机系统。在平常的课堂上,同样可以有效地进行针对题型的听说教学与备考训练。
于是,我们提出了“淡化机械的上机强化训练,科学整合听、说、读、写技能的教学,全面提升学生的综合语用能力,向课堂要效率”的策略,从全市层面进行备考规划和部署。
张放:是的,其实这个考试对计算机操作要求非常低。
陈皓曦:我们的工作目标是通过市教研室的理论引领,团结全市各校英语备课组的力量,齐心协力共同备考,通过听说考试促进学生综合能力的全面提升。当年听说备考的研讨成为了教师活动的重要主题。具体的措施包括:
(1) 到学校听课调研,与老师们座谈并有针对性地提出备考指导建议; (2) 收集并总结各校已有的听说教学与备考经验;
(3) 系统归纳行之有效的听说备考策略;
(4) 与本市高三级的骨干教师携手开发有效的听说教学课型模式(包括基于话题复习的话题类听说课、语音知识类听说课、口语技能类听说课等等);
(5) 组织听说教学与备考研讨会,通过公开课的展示与点评,引导老师科学备考;
(6) 精心命制了五套高质量的听说模拟考试题,注意试题难度的梯度,力求覆盖更多的考查要点、情境与主题。五套试题在3月份的听说高考前分不同阶段提供给学校,用于适应性测试和模拟考试;
(7) 统一组织模拟考阅卷,并召开模拟考分析会,针对学生的考试失误提出进一步的备考策略等等。
当年,我们提出“充分重视听说考试,打好2011年高考的首場战役”的口号。并没有因为听说考试只有15分,只占总分10%而忽视。反而以此为契机,着力于课堂教学的改革,取得了十分令人满意的反拨效果。2011年的高考,广州英语老师们团结协作,准备充分,自信十足,很好地平衡了新增听说考试与其他学科备考用时的矛盾,听说考试获得了全省第一。2011年听说考试首考的成功也为之后的高考备考奠定了良好的基础。
时间关系,下面我们来听听一线骨干教师的备考经验吧。
李丽茹:大家下午好,我是广州二中的李丽茹老师,奋战在艰苦的第一线,与大家分享一些听说备考心得。
自2014年广东听说机改以来,我校学生的高考均分一般在12~13分之间,2015、2016届我校满分(15分)的学生约为二三十人。在几年的摸索过程中,我们对听说备考形成了一些共识和相对稳定的操作模式,取得了比较好的效果。
1. 听说备考,首先应强化教师自身的示范引领意识
听说考试的推行,首先对我们英语教师自身的语音语调、英语口头表达能力提出了更高的要求。学生在听说方面的良好表现离不开老师的示范引领作用。
所以,听说考试推行之后,科组的老师们首先从自身入手,有意识地对自己的语音语调进行精心的打磨。我本人也在这几年的打磨中,不断调整和修正自己的语音语调,以求为学生树立更好的榜样。
2. 开展全级讲座是听说备考的良好途径
从2011年至今,我校的听说口语讲座已经开展了7年。起初我们的讲座集中在高三年级,一般安排在开学初、上学期末和考前1个月。听说考试全面铺开之后,我们从高一年级便开始采用讲座的方式对听说训练进行指引。
口语讲座的天然优势在于,能够创造出无比浓厚和热烈的英语口语表达氛围。讲座上口语尖子生的朗读示范往往比较容易点燃学生们练习口语、提升口语能力的热情。因此,我们一直比较推崇讲座集中训练口语的方式。
程粉香:先把学生的热情带动起来,创造学习氛围,好办法!
李丽茹:3. 针对三种不同题型,开展听说微技能训练
(1)模仿朗读
在实践摸索中,我发现,模仿朗读部分主要的微技能包括:
A. 饱满的元音发音。特别是五大长元音[ɑ:] [ :] [u:] [ :] [i:]。学生的语音是否清晰、饱满,主要看这几个音标的发音质量。所以我们一般从这几个音标入手,让学生对语音的饱满度进行反复、充分的训练。
B. 尾音的处理。在朗读过程中,不少学生的单词发音不完整,对单词尾音的处理不明确或不正确,导致朗读的正确度和流利度欠缺。所以我们会专门针对这个小专题进行微技能的训练,集中在[s] [z] [iz] [ts] [dz] [t] [d] [id]这几个尾音的发音上。
C. 生词模仿。每年的模仿朗读高考真题,基本都会出现几个生词,因此教给学生一些生词处理技巧是非常有必要的。如果在基础年级,我们就会对音标知识进行快速的扫盲,训练学生根据音标朗读单词的能力。
D. 意群、节奏与语调。无节奏、无语调是不少中国学生的通病。所以我们会指引学生如何划分意群,根据意群进行停顿以控制朗读的节奏;而关于语调,由于英语的语调在交际过程中有较大的随意性,学生在把握语调方面感觉比较棘手。因此,我们根据研究,摸索出一套相对合理且稳定的语调模式,供对语调找不到北的学生模仿。这个语调模式,我们自己称之为“升降调语调模式”,只突出升调、降升调、降调的运用。具体处理:句中意群末尾实词用降升调;句中实词用升调;句末实词用降调。如:Rome(句中意群末尾实词,降升调,停顿)/ was once (句中实词,升调)the capital(句中意群末尾实词,降升调,停顿)/ of a huge(句中实词,升调)empire(句末实词,降调,停顿)。当学生形成比较正确的语调之后,再要求学生模仿原声对语调进行微调。
(2)角色扮演
角色扮演“五答”部分的核心突破点包括:
A. 抓取信息点的能力。即每一个回合的对话中,都包括一个或数个关键信息点。学生如何能够快速理解和捕捉到这些关键点?我们会强化学生信息点的意识并训练抓取信息点的能力。
B. 脑记忆。学生必须在听的短暂过程中理解信息、加工和记忆关键信息。因此,听力训练时,要求学生必须注意力高度集中,解读和记忆信息的逻辑关系。
C. 速记能力。速记是快速获取语流中重要信息的有效方式。其作用在于弥补脑记忆的不足,帮助准确记忆信息点。速记时应遵循“七分靠脑记,三分靠速记”的原则。速记的方法可以多样化、个性化,也可采用最简单、最实在的方法:完整记录信息点中的核心词;通过记录首字母或前几个字母的方式记录次要关键词。
角色扮演“三问”部分的核心突破点主要在于掌握正确的疑问句句型,主要包括一般疑问句、特殊疑问句、选择疑问句这三种。我们会根据考纲里规定的24个话题编排问句供学生操练。 (3)故事复述
要高质量完成复述任务,除了要培养良好的信息点捕捉能力、充分发挥脑记忆和速记的作用外,还必须启动“多任务处理模式”(Efforts Models),合理分散负担,将任务分解到多个环节。
Step 1:看。任务分配:解构故事的起因、经过和结果,脑记故事脉络。
Step 2:听。任务分配:理解故事,记录要点。
Step 3:串。理清逻辑关系,组织语言,串联信息点。在尝试复述的同时,动笔整理信息点。
Step 4:说。多任务协调,综合进行输出。开头部分尽可能流利复述,后半部分可一边说一边整理(控制语速,句尾要停顿);在保证信息点的准确表述的前提下,兼顾表达的连贯性。
张放:很恰切的四步。
李丽茹:我所讲的都是一些非常具体的操作,不知道能不能对老师们有一点点启发。
陈皓曦:李老师辛苦了,相信对于即将实施听说考试的友省同行們,你的经验很有价值。其实听说考试并没有想象中那么恐怖,只要在教学中遵循听说读写整合的理念,让学生能够有充分的机会进行语言实践和交际,应对听说考试是绰绰有余的。对待改革,越是积极的态度越能更快地适应,并且利用改革的契机转变老师的观念,提升教学质量。
李丽茹:是的,我们觉得挺有意思的。借助这个听说考试,推行晨读、课前朗读、课前演讲等活动,学生参与热情都很高。
葛炳芳:机考原来还可以帮助提高成绩?
镇祝桂:其实备考过程还是以课堂为主,师生互动交流为主。机考是一种手段。
程粉香:改革对老师来说是压力也是动力。
陈皓曦:葛老师,由于题型设计比较科学,学生除了听力理解能力好,还需要有良好的口头表达能力,因此机考的确起到了良好的反拨作用。课堂上,师生的口头互动大大增加了。测试是教学的风向标,测试改革了,原有的应试对策不能继续用了,就迫使老师们接受新的教育教学理念,根据测试要求进行课堂教学的改革。
李丽茹:没错,老师自己首先要有这种强化口语交流的意识,并且时刻注意在表达的准确度和得体度上要起到示范作用。
葛炳芳:口语表达的命题依据课程标准吗?篇章难度相当于美国三、四年级?还是相当于我国课标高二、高三水平?
镇祝桂:广东省高考考试大纲是这样说的:根据普通高等学校对新生文化素质的要求,依据中华人民共和国教育部2003年颁布的《普通高中课程方案(实验)》和《普通高中英语课程标准(实验)》,确定了“英语听说”考试的内容。
陈皓曦:篇章难度的统计因为是使用word的弗来士易读度水平进行统计的,所以对应的是美国学生的水平。但是词汇、话题、功能意念等都是依据课程标准和考试大纲的。葛老师可以关注我们之前谈到的内容。
从听说目前的三个题型来看,考查目标是和高中课程标准的听和说的要求相一致的。由于照顾到广东省不同地区的英语教学水平差异,难度也不是很大。
葛炳芳:高中考初中水平,初中考小学水平,点缀几个高初中的单词,这是我们现有听说考试命题中的难处,因为有关方面有时候只要数字。而真要以高中水平的标准去命题,估计你们(如果我去做我也会)会很为难。这也是做一件事的难处。凡命题者都会遇到这样的难处吧。但这不影响现有的实践及其影响。
陈皓曦:葛老师说到我们心里去了。其实作为地区教研机构,任何一次大的改革,对于我们都是很大的挑战。我们没有参与命题的资格,只求借助改革的契机,通过有效的教研引领,促进本地区英语老师的专业发展,提升学生的语言水平。
葛老师教育家的情怀我很感动。在中国,考试太重要了,改革的确需要谨慎。我还记得张连仲老师曾经说过,改革之初,可以适当地降低测试目标要求,力求平稳过渡。测试改革的最终目标是促进教学水平和质量。从这个意义上看,6年的听说改革带给广州的英语课堂非常积极的影响。
程粉香:我教新生时也发现广东省的生源听说能力确实好一些。对听说能力也更加重视一些,这里面肯定有听说考试的功劳。
听说考试对高中英语教学的影响
镇祝桂:时间关系,我只能简单谈一谈听说考试对高中英语教学的影响。
广东省考试院(2010)关于实施听说考试的文件是这样说的:高考设置英语听说考试的指导思想是遵循选拔性考试的规律与要求,贯彻普通高中新课程的理念,反映英语学科课程标准的整体要求,考查学生在特定的语言环境中运用语言完成任务的能力和综合运用英语语言知识的能力。显然,考试设计者希望通过听说考试进一步促进学生英语综合运用能力的提高,并对英语教学产生积极正面的反拨效应。
从本人所做的调查和访谈情况来看,考试还是达到了其预期后效。概括地说,实施听说考试既能促进教师的教学改革和专业发展,给他们的教学内容、教学策略甚至教学成果带来正面影响,也能提高学生的听说能力,并对学生的读写水平有正迁移作用。绝大多数教师积极应对听说考试,调整自己的教学、评价和资源策略,使之尽量满足课程标准对英语学科的要求,满足考试大纲的要求,满足学生对英语学科的期望。总体来看,实施听说考试没有冲击读写训练,教师既重视听说训练,让学生的读写能力同步提高。听说考试进一步强化了教师培养学生的综合语言运用能力的教学理念。
李丽茹:肯定不是冲击,听说读写能力是一体的。
张放:是正面的反拨效应。
镇祝桂:当然,也有一些负面效应,例如,有些教师片面理解对学生听说能力的要求,怎么考就怎么练;有些教师认为考试的区分度不理想,考试成绩较难区分听说水平中上的学生,影响了他们的积极性等等。这些还需教师、教研部门和考试部门进一步改进。
我在《中小学外语教学》2014年第10期有一篇文章“广东高考英语听说考试对高中英语教学的影响”讨论了这个问题,这里就不嗦了。总之,请记住这句话:英语学科的社会化一年多次考试可能是英语考试的未来。改革后的英语考试还应包括英语口语的考查,这有利于改变现行高考英语不设口语考试、高中忽视口语教学的倾向(程蒙蒙,2013)。这可能代表教育部考试中心的心声。
“人机对话”考试是一个发展趋势。今天我们在这里分享了广东(广州)的一些经验、教训和想法,希望兄弟省市在实施过程中可以得到一点借鉴,不走弯路。欢迎对我们分享过程中不当之处提出批评和建议。感谢参与讨论的老师和即将爬楼的老师,特别感谢葛炳芳老师、扈华唯老师和张连仲老师。这一话题的讨论可以无限继续,欢迎大家随时交流。如果我们说得不够清楚,欢迎亲自到广东(尤其是到广州)来考察、指导!
陈皓曦:我记得前不久在浙大举行的“第二届语言测试与评价国际研讨会”上,教育部考试中心于涵副主任点评时说,上海可以提“高标准”,北京可以提“大舞台”,广东暂时只能强调“导向性”。广东的教育现状相比于其他友省不是很乐观,但在英语测试这一领域我们总算是有一些先行者的经验和教训。
镇祝桂:今天的讨论到此结束。谢谢大家!
高考“人机对话”(听说考试)改革方案的背景与实施条件
镇祝桂:各位老师好!欢迎参加“聚焦广东高考“人机对话”微信谈”。首先有两点说明:(1)广东高考在“人机对话”方面走得比较前,有2011年之前的“人机对话”口语考试和2011年之后的听力和口语结合的“人机对话”考试,简称“听说考试”。我们今天讨论所用的“人机对话”是指“听说考试”。(2)广东“人机对话”考试体现了广东省教育厅、广东省考试院的改革精神。广东省的一批知名教授(例如曾用强教授等)为考试的设计与实施做了大量的研究和论证,他们为广东省的高考改革做出了巨大贡献。曾用强教授因公务不能参加今天的讨论,我们邀请了他的两位(参与了最早期“人机对话”研究工作的)博士生程粉香博士和张放博士与大家分享和讨论。首先,请陈皓曦老师介绍一下广东听说考试的背景。
陈皓曦:大家好。很荣幸今天能参与讨论。聊起广东省的听说考试,值得一提的是,广东省早在1997年就率先在高考英语中增加听力测试,但当时的成绩不计入总分。
广东省同时还是全国最早在高考中纳入英语口语考试的省份之一。从1985年开始就在“英语复试”中增设了口语考试。“英语复试”主要服务于高校英语专业招生的需要。之后,“英语复试”历经变化,初期采取“人人对话”的形式,从2004年起正式实施计算机辅助英语口语考试(简称“人机对话”)。英语考试的发展是由语言教学理论和语言测试理论的发展以及考试技术手段的发展决定的。
计算机辅助口语考试的研究始于上世纪90年代。当时的口语考试(复试)强调“信息交流”,采取考生与教官“人人对话”的方式进行,这种考试施行了近十年,对广东省中学英语教学起到过积极的推动作用。
但是,随着时间的推移,考试的效度也在减弱,学校采用多种应试策略来对付考试,反拨作用逐渐不能令人满意了。“人人对话”考官即时评分的评价方式,在评分信度上也受到质疑。此外,由于题型局限,可考查的情景有限,命题也越来越有难度。原有的考试模式需要改革。
命题的原则及构念
镇祝桂:那么,广东省高考测试专家们当年是如何构念听说考试的呢?下面有请程粉香博士和张放博士为我们解读。
陈皓曦:两位博士都参与了听说考试方案的早期研究工作,由两位代表曾用强教授对方案的命制原则与构念进行解读。
程粉香:谢谢镇老师和陈老师!刚才陈老师提到了语言教学观和测试理论的发展对考试改革影响。也就是说:交际语言教学观认为学语言不仅是学语音、词汇和语法知识,而是获取人与人交际的一种能力。相应地外语测试也提出语言测试所要测的,也应该是语言能力,即应该测试学生在实际的语言交际情景中应用语言知识和技能的能力。不仅是测试内容发生了变化,测试方法也从传统的标准化测试发展到行为测试,真实性成为一个重要标准,考试任务越来越接近实际情景中的语言使用,即利用交际任务设计综合考试任务,学生需要使用两种或者以上的语言技能来完成。而计算机技术和网络技术的进步为这种发展提供了技术上的支持。
因此在设计考试形式时,首先要满足的就是真实性的原则。口语考试任务必须尽可能接近中学生可能使用英语的真实情景。计算机化考试更是要通过多媒体的应用,突出考试任务情景的真实性。
陈皓曦:的确如此,早期的听力和口语考查,题型比较单一,情景反应、辨音等测试题型不能满足交际性与真实性的要求。
程粉香:第二,作为高校招生考试,高考必须满足高校选拔人才的需要,因此听说考试需要具备良好的构念效度。
葛炳芳:人判分时信度受到质疑就用机器代替,是为了提高效率省钱吧?(当然技术也突破了?)
陈皓曦:“人人对话”是费时低效的,由计算机代替考官,是当时科技进步对于教育的最大裨益。
镇祝桂:并且“人人对话”还受不同考官的语音影响,导致考试开始前就有了某种不公平。
程粉香:葛老师提到了第三个重要的问题——信度。作为大规模高风险考试,公平公正是社会比较关注的问题,因此高考必须具有较高的信度。这就要求听说考试严格控制考试评分误差。
陈皓曦:关键是考官还同时扮演对话者和评阅员。
程粉香:对,效率低是其次,信度低才是硬伤。但不可否认的是,高考对中学的英语教学有巨大的引导作用,高考英语听说考试必须具备良好的反拨作用。
葛炳芳:机器评卷的信度才是我们要关注的,软件评卷也会有问题。
陈皓曦:葛老师的疑惑应该代表了大部分老师的心声。但即时评分除了标准的把握比较困难外,也让复查变得更难实现。
扈华唯:广东版的“人机对话”的交际性是如何解决的?将问和答拆分成情景提問和情景回答两个部分合适吗?
陈皓曦:早期的听说考试是人评的,做了三年机评数据与人评数据的对比,比较之下发现机器评分信度高于人工评分。任何的大型测试,都必须在有限的条件下适当地妥协。
镇祝桂:广东高考前年才正式实施机评,在这之前经过了几年的实验对比和改进。
扈华唯:机考是趋势。
镇祝桂:对。我们也经历了一个由不适应到逐步适应的过程。扈老师,我们接着会介绍题型等。
李丽茹:广东省的听说是2014年第一次进行机评。当年的确有一些问题,比如我们学校一个满分的学生都没有(人工评卷时我们大约有20、30个),但2015年调整之后,机改的得分数据就跟以往人工的结果比较一致。该高分的学生也的确能拿高分了。 陈皓曦:程老师,能否讲一下“人机对话”与“人人对话”相比的优势呢?
程粉香:首先,就像陈老师提到的,传统考试的效度越来越低。高考是教学的指挥棒,怎么考就怎么学,只针对题型做指定的训练,因为题型单一,学生的练习也很单一,传统考试难测到学生的综合语言应用能力。
陈皓曦:改革需要一步一步来,毕竟“人机对话”相比“人人对话”是一种进步。
李丽茹:是的。
程粉香:另一个原因就是传统的考试需要大量的考官和评分员,很难保证他们能够以同样的角度解读评分标准,因此,信度很难保证。最近的研究都证明机器评分的信度高于人工评分。
陈皓曦:是的,整个机评的过程在不断地完善,技术也越来越成熟了。机评是用一把尺子量度学生的水平,而人评则受到诸多因素的影响。
李丽茹:机改是必然的趋势。
扈华唯:任何老师的效能都会随着施测的时间推移而弱化。
陈皓曦:对的,所以测试的改革永不停步。
程粉香:是的,老师内在的能力原因和一些外因都可能随时会影响到评分的信度。在以上提到的设计原则的指导下,考试的构念就被设定为:要求考生掌握并能运用英语语音、词汇、语法基础知识以及所学功能意念和话题(以每年颁布的考试大纲为依据)。具体来说如下:
听力:要求考生能听懂所熟悉话题的简短独白和对话。考生应能:
(1)理解主旨和要义;
(2)获取具体的、事实性信息;
(3)对所听内容作出推断;
(4)理解说话者的意图、观点和态度。
口语:要求考生根据题示进行口头表达。考生应能:
(1)询问或传递事实性信息,表达意思和想法;
(2)做到语音、语调自然;
(3)做到语言运用得体;
(4)使用有效的交际策略。
扈华唯:人评的优势也不可忽略。雅思还是人评。只是我们的高考考试规模太大了,没有办法采用人评。
陈皓曦:扈老师说得很有道理,但雅思考官的水平高呀,他们说的可是母语呢。我们的评卷老师无法比拟。
扈华唯:是的。但尺子可能不是同一把。
葛炳芳:同意扈老师的观点。不是人的水平问题,而是大规模考试这个技术提高了效益。
镇祝桂:广州市这些年的听说模拟考试还是用人工阅卷方式(今年将改为机器阅卷),但我们核查发现,就算是同一个人的标准,改卷那几天的前后都会有一些差异。
陈皓曦:毕竟考试也只能是尽量模拟真实的情境,抽样考查学生的能力。葛老师的观点我很认同。不过当年的“人人对话”,也有很多考生诟病考官的口音等问题呢。所以用机器代替人,是相对更公平更科学的。
扈华唯:在当下中国情景下,机考是最好的出路。能促进外语教学更健康地发展。
陈皓曦:是的,也为老师减輕了很多负担。
扈华唯:赞同。
李丽茹:从一线老师的角度看,2015、2016年的机改数据结果还是可靠的,跟学生的真实水平比较匹配。
扈华唯:这个很重要。
陈皓曦:是的,我们一直很关注这个问题,也不断地跟技术支持方进行对话,提出问题促使他们进行技术革新。
方案的研制过程与方法
镇祝桂:下面请张放老师介绍一下广东省方案的研制过程与方法,希望能给大家带来一些启发。
张放:各位老师大家好,我的介绍主要包括听说考试的效度验证和试题命制方法。效度验证其实并不抽象,简单来讲就是研究试题是否考查了目标能力。在设计试题的时候,开发者主要参照了一系列有关交际能力的文献。其中Hedge(2001)的Framework of oral communicative competence把口语能力分为:linguistic,pragmatic,discourse,strategic competence以及fluency。而Luoma(2004)则把口语能力简单分为spoken production和spoken interaction两个方面,即“能够说出来”并“能够交流”。
听说考试效度验证是主要回答两个方面的问题,即各试题是否能够考查到考生的对应能力,以及在多大程度上考查到了这种能力。请大家关注这两个问题:一个是“是否”,一个是“程度”。
目前已经完成的效度验证研究通过调查问卷和访谈等方法获取了命题专家、一线教师和考生等的意见,得到的结论是,听说考试能够考查考生的听力理解和口语产出能力。
不过,由于计算机化考试的智能程度尚在发展之中,实施测试的功能还有一定局限。例如,机器能够引导考生在理解听力文本的基础上进行口语输出,但不能对考生的表达做出模仿真实交际者的回应。因此,目前的机助听说考试对语用和策略等方面的能力考查程度有限。
陈皓曦:是的,所以在今后的测试研究中,更多会关注如何利用机器的长处更科学地构念听说考试。
扈华唯:机器的智能化程度有很大的提高空间。从埃尔法狗下围棋那么厉害就可以看出。
陈皓曦:是呀,技术革新速度很快。目前主要还是基于语音识别技术。
张放:我想这一点回答了扈老师之前的疑问,您提出听说考试的问答部分分开了问与答,因而质疑它的交际性。这就是“程度”的问题,也就是说,目前的听说考试考查了学生的产出性能力,但对交际性的考查不足。希望随着计算机技术和人工智能的发展,对交际性能力的考查还会更进一步。
扈华唯:但我们都还没有获得满意的答案。需要测试和计算机人工智能共同努力。
陈皓曦:机器可以通过学习人工评卷以及定标来达到与人评的高度一致。因此定标也是很关键的环节,必须将不同的考生答题情况都进行细致的分析和赋分。 扈华唯:标准是关键。
陈皓曦:是啊,我们培训不了人,就培训机器了。
张放:标准恰恰是人工评分的硬伤,就是标准不一。
程粉香:其实机器评分是在最大化地模拟人工评分,但是最后目标又是要好于人工评分。
扈华唯:我们应该有国家级的标准。
陈皓曦:这是我们共同的努力方向。
镇祝桂:不过,说实话,定标的确是一件很头疼的事。
陈皓曦:头疼说轻了,绝对是烧脑。
命题的原则及构念
张放:下面简单介绍一下试题开发的过程。
了解试题的命制可以帮助老师们选择合适的材料进行备考教学。命题第一步是选材。听说考试选材力求原创性。Part A模仿朗读由原版纪录片的影音视频改编,例如Discovery,BBC,National Geography等;Part B问答题由国外原版语言类教材的对话部分改编;Part C由国外原版故事类读物改编。在开发过程中,选材非常广泛,这样才能保证原创性和试题安全性。
李丽茹:张放老师的这个素材来源信息很宝贵。
陈皓曦:其实老师们经过六年时间,对素材特点都很清楚了。但素材库浩如烟海,提升学生的能力才是硬道理。
张放:第二步是试题的编制。试题命制的过程非常严谨。Part A需做到画面切换平滑,背景音乐柔和,速度适中,文本中超纲词需少于三个,且符合读音规则;Part B注重语言地道性,需符合角色特点和口语性语言,文本在8个话轮左右,问题设置均匀,在原文和对问题的答语中设置答案;Part C同样讲求语言地道性,命题者将原故事从1,000词或以上压缩至200词,并设置10个采分点。
题型特点及分值
镇祝桂:大家先看一看广东听说考试的题型和试卷结构(见表1)。
Part A Reading Aloud 模仿朗读
考生观看一段大约一分钟的片断,然后考生开始模仿训练:先阅读文字稿,再对照文字稿听录音。完成训练之后考生开始模仿朗读:考生对照片断的字幕朗读,要求考生的语音、语调和语速尽可能与片断保持一致。
Part B Role Play 角色扮演
角色扮演包含多个环节与任务:第一个环节是观看情景介绍(中文文本)及一段短视频对话,对话只播放一遍。对话文本长度一般为120词左右,含4~6个话轮,考生须了解情景和角色,并记录关键信息,为接下来的环节做准备。第二个环节是由计算机依次呈现中文提示,要求考生根据提示向计算机提问三个问题,一般包括一个一般疑问句问题和两个Wh-问题。考生提问后,计算机将分别回答这三个问题,每个回答播放两遍。之后计算机向考生提出五个问题,考生必须根据自己所听的内容(包括视频片段和计算机的回答两部分)回答问题(即“五答”)。
Part C Retelling 故事復述
故事复述部分先为考生提供故事的梗概和五个关键词(中英对照),让考生先进行故事预测,然后给考生播放一则结构完整、线索清楚、字数在200词左右、录音时间在1.5~2分钟的录音材料,然后要求考生尽可能多地对材料进行复述。

“英语听说”考试时间约30分钟。考试实行计算机辅助考试,即录音形式,听到“嘟”后可回答。试卷满分60分,但最后折合成15分为满分。计分时,采用四舍五入法。
陈皓曦:谢谢镇老师,了解了题型对于张博士的讲解会更容易了解,张博士请继续。
张放:第三步就是试题的质量审查。研发题目时分为三个小组:Part A,Part B和Part C。不同小组交互检查、反复讨论,磨题3~5稿;同时,总负责人进行常态监测,并由审查人审查语言质量、超纲词情况和原创性,最后总负责人和分组长分别审查并交换意见。准备试题素材是一项大工程,以第一部分模仿朗读为例,研发题目时我们会下载上百个原版纪录片视频,从中筛选编辑,最终成为试题的只有7~8个。
陈皓曦:听张老师讲试题研发过程,感觉很亲切。我们每年都要命制模拟考试题。平常老师们对于试卷背后的制作过程不会很关心和了解。
镇祝桂:张老师,几套题之间的难度如何平衡呢?
张放:关于试卷难度的平衡,一般来说,在标准化考试中试卷难度是可以通过计算来达到等值的。也就是在考试结束之后观测各套试题考生考出来的结果,之后利用公式调整分数。但这种处理需要使用标准分,而我们笔试试卷还是使用原始分,所以很难进入总分计算。第二种平衡难度的方式就是先把试题给水平相当的学生做一遍,然后调整试题难度,但这种操作适用于题目的研发过程,较难用于高考试题命制中。因而,目前试卷难度平衡的方式还只能在命题阶段,例如,保持每年命题人员的稳定、加大审查的频率和严格度等。
陈皓曦:卷面60分,最后折算为15分的做法,也一定程度降低了不等值所带来的问题。
镇祝桂:原版素材中出现超纲词汇如何处理?
陈皓曦:有时对于一些生词超标的视频,广州市模拟题的做法是对原版材料进行适当改写,找外籍人士重新录制再合成。毕竟从几百个视频中筛选,过程太time-consuming了。
镇祝桂:我们命题时重新改编了内容,回避了一些超纲词,也剪辑了视频,但高考题似乎没有。
张放:广东高考的原版视频好像没有进行重新制作,只节选出超纲词符合要求的视频。
陈皓曦:谢谢程博士和张博士的专业解读。
高考听说考试试题分析
镇祝桂:下面请陈老师对这几年的广东高考听说考试题做一个简要分析,看我们的理解与试题研发者的思路是否吻合。 陈皓曦:2011—2016年一共使用了43套高考听说试题(每年根据考试的实际需要,大约使用6~8套)。下面我进行简要分析,大家可以根据刚才张博士所说的进行对照。
第一部分“模仿朗读”历年的取材都是英文原版纪录片片段,视频材料时间长度大约1分钟,原声配音人员的语调一般表现为平实、客观,语速为每分钟110~120词。文本长度在100词左右。话题方面涉及自然、环境、健康、科技、文化、地理、历史、文学、艺术等各个方面,全部涵盖在《课程标准》和《考试大纲》的“话题项目表”中所列的24个话题中。朗读的文本具有典型的说明文文体特征,语言比较正式。
模仿朗读每段材料中的生词数量大约占文本总长度的3%,一般不超过3个,考生根据读音规则均可以自然拼读。
弗莱士易读度分析数据表明,模仿朗读的文本材料难度相当于美国六年级学生的写作水平,属于比较容易的文本。
模仿朗读题能够有效地反映学生的语音语调基础水平。100字左右的朗读材料,综合考查了学生的基本读音、单词和句子重音、读音变化(连读、失去爆破、弱读、同化)、语调和节奏(意群与停顿)等语音知识的掌握与运用情况。这些都是考试大纲附录1 “语音项目表”中所列的内容。可以说,通过短短一分钟的朗读,学生的语音面貌能够很好地区分出来。
模仿朗读要求内容完整、意群停顿正确、语音正确、语调适当、朗读速度与录像画面同步等等。除了各个语音项目的考查外,地点、人物等专有名词、数字、生词等都是完成模仿朗读中的难点。
第二部分“角色扮演”历年试题所选取的话题都是中学生比较熟悉的,是日常交际中的常见内容,与《课程标准》和《考纲大纲》的话题项目表和功能意念项目表所列的话题及交际功能相一致。
然而,不同话题间所使用的词汇的词频或难度也存在一些差异,提示我们在教学备考中要全面覆盖课程标准之下所有的话题(及词汇)和功能意念项目。
如果说模仿朗读是基础性考查的话,角色扮演考查的能力则十分综合,主要包括听取主旨和要义,获取具体的、事实性信息,以及用英语回答提问的准确性、得体性、流利性和连贯性。在提问环节要特别关注提问内容是否合乎中文提示的要求,提问方式是否准确。在回答环节中则要特别关注信息的准确性。信息来源于引入阶段的对话以及角色扮演提问环节中计算机的回答信息。考生必须对重点信息高度敏感,并且能够快速有效地记笔记。
第三部分“故事复述”历年考查的题材均为故事。朗读者的语调较为活泼、生动。故事一般都幽默有趣,或者会有出人意料之外的结局。弗莱士易读度分析数据表明,故事复述的文本材料难度比模仿朗读的部分还要容易,相当于美国4~5年级学生的写作水平,属于容易的文本。
故事复述部分要求学生具有良好的听力理解能力、能够快速把握故事大意,并且抓住关键信息在短时间内进行信息重构,借助笔记进行口头复述。如果故事本身含有比较多对话(直接引语)的话,也会给考試增加难度。这个部分对于学生口头表达的流畅度要求特别高,也是对学生心理素质要求最高的部分。
总之,历年的试题还是比较好地实现了考试的目的,也比较真实地反映出学生的听说综合能力。
程粉香:第三部分的故事复述考的能力比较综合。是这三道题中区分度最高的题目。
镇祝桂:第三部分命题时对故事的要求也很高,首先故事要有可复述性,其次要有一定的趣味性,但要控制趣味性的程度,例如冷幽默就不能用,语言能力不到位的学生不能理解。第三部分侧重学生获取、组织、整理、连贯表达信息的能力。第一部分重在考查考生的语音质量,第二、三部分强调获取信息的准确性和表达信息的流利度
李丽茹:陈老师的分析很到位。
听说考试备考经验分享
镇祝桂:下面请陈老师和来自一线的李丽茹老师介绍如何备考。
陈皓曦:我先介绍一下全市层面的备考吧。
2010—2011年,我主管广州市的高三英语教研工作。广东省英语听说合考改革方案公布后,单位主管领导给我的指示是:英语学科要认真研究,给出到位的备考指导意见,引领全市高中学校充分备考,但不能挤占其他学科的备考时间。相信教研员们会对我当时的处境感同身受。英语测试改革力度大,往往我们学科需要承受内外的压力。
我是2009年9月调入教研院工作的,之前在学校担任过几年英语(2)学科的教学,也积累了较多的教学与备考经验,所以面对听说合考改革,总算是有一点儿底气。
虽然仅仅是六年前的事情,但是当时学校现代化建设刚刚起步,广州市还有相当一部分学校的计算机课室及支持听说训练的设施设备很不完善。在部分农村学校,连计算机课室都没有,上课依然使用录音机。相当多的高三英语教师对于听说考试改革的态度是抗拒、恐慌、不知所措的。
我和科组其他教研员一起,通过对听说考试题型的认真研究和分析,得出的结论是:计算机辅助的考试,只是考试形式上的改变,由于广州市中考从2007年起就全面实施了计算机辅助的口语考试,所以学生们要适应“人机对话”的考试形式并不存在很大的困难。而从教学和备考的角度看,三个题型的训练也并非一定要依赖计算机系统。在平常的课堂上,同样可以有效地进行针对题型的听说教学与备考训练。
于是,我们提出了“淡化机械的上机强化训练,科学整合听、说、读、写技能的教学,全面提升学生的综合语用能力,向课堂要效率”的策略,从全市层面进行备考规划和部署。
张放:是的,其实这个考试对计算机操作要求非常低。
陈皓曦:我们的工作目标是通过市教研室的理论引领,团结全市各校英语备课组的力量,齐心协力共同备考,通过听说考试促进学生综合能力的全面提升。当年听说备考的研讨成为了教师活动的重要主题。具体的措施包括:
(1) 到学校听课调研,与老师们座谈并有针对性地提出备考指导建议; (2) 收集并总结各校已有的听说教学与备考经验;
(3) 系统归纳行之有效的听说备考策略;
(4) 与本市高三级的骨干教师携手开发有效的听说教学课型模式(包括基于话题复习的话题类听说课、语音知识类听说课、口语技能类听说课等等);
(5) 组织听说教学与备考研讨会,通过公开课的展示与点评,引导老师科学备考;
(6) 精心命制了五套高质量的听说模拟考试题,注意试题难度的梯度,力求覆盖更多的考查要点、情境与主题。五套试题在3月份的听说高考前分不同阶段提供给学校,用于适应性测试和模拟考试;
(7) 统一组织模拟考阅卷,并召开模拟考分析会,针对学生的考试失误提出进一步的备考策略等等。
当年,我们提出“充分重视听说考试,打好2011年高考的首場战役”的口号。并没有因为听说考试只有15分,只占总分10%而忽视。反而以此为契机,着力于课堂教学的改革,取得了十分令人满意的反拨效果。2011年的高考,广州英语老师们团结协作,准备充分,自信十足,很好地平衡了新增听说考试与其他学科备考用时的矛盾,听说考试获得了全省第一。2011年听说考试首考的成功也为之后的高考备考奠定了良好的基础。
时间关系,下面我们来听听一线骨干教师的备考经验吧。
李丽茹:大家下午好,我是广州二中的李丽茹老师,奋战在艰苦的第一线,与大家分享一些听说备考心得。
自2014年广东听说机改以来,我校学生的高考均分一般在12~13分之间,2015、2016届我校满分(15分)的学生约为二三十人。在几年的摸索过程中,我们对听说备考形成了一些共识和相对稳定的操作模式,取得了比较好的效果。
1. 听说备考,首先应强化教师自身的示范引领意识
听说考试的推行,首先对我们英语教师自身的语音语调、英语口头表达能力提出了更高的要求。学生在听说方面的良好表现离不开老师的示范引领作用。
所以,听说考试推行之后,科组的老师们首先从自身入手,有意识地对自己的语音语调进行精心的打磨。我本人也在这几年的打磨中,不断调整和修正自己的语音语调,以求为学生树立更好的榜样。
2. 开展全级讲座是听说备考的良好途径
从2011年至今,我校的听说口语讲座已经开展了7年。起初我们的讲座集中在高三年级,一般安排在开学初、上学期末和考前1个月。听说考试全面铺开之后,我们从高一年级便开始采用讲座的方式对听说训练进行指引。
口语讲座的天然优势在于,能够创造出无比浓厚和热烈的英语口语表达氛围。讲座上口语尖子生的朗读示范往往比较容易点燃学生们练习口语、提升口语能力的热情。因此,我们一直比较推崇讲座集中训练口语的方式。
程粉香:先把学生的热情带动起来,创造学习氛围,好办法!
李丽茹:3. 针对三种不同题型,开展听说微技能训练
(1)模仿朗读
在实践摸索中,我发现,模仿朗读部分主要的微技能包括:
A. 饱满的元音发音。特别是五大长元音[ɑ:] [ :] [u:] [ :] [i:]。学生的语音是否清晰、饱满,主要看这几个音标的发音质量。所以我们一般从这几个音标入手,让学生对语音的饱满度进行反复、充分的训练。
B. 尾音的处理。在朗读过程中,不少学生的单词发音不完整,对单词尾音的处理不明确或不正确,导致朗读的正确度和流利度欠缺。所以我们会专门针对这个小专题进行微技能的训练,集中在[s] [z] [iz] [ts] [dz] [t] [d] [id]这几个尾音的发音上。
C. 生词模仿。每年的模仿朗读高考真题,基本都会出现几个生词,因此教给学生一些生词处理技巧是非常有必要的。如果在基础年级,我们就会对音标知识进行快速的扫盲,训练学生根据音标朗读单词的能力。
D. 意群、节奏与语调。无节奏、无语调是不少中国学生的通病。所以我们会指引学生如何划分意群,根据意群进行停顿以控制朗读的节奏;而关于语调,由于英语的语调在交际过程中有较大的随意性,学生在把握语调方面感觉比较棘手。因此,我们根据研究,摸索出一套相对合理且稳定的语调模式,供对语调找不到北的学生模仿。这个语调模式,我们自己称之为“升降调语调模式”,只突出升调、降升调、降调的运用。具体处理:句中意群末尾实词用降升调;句中实词用升调;句末实词用降调。如:Rome(句中意群末尾实词,降升调,停顿)/ was once (句中实词,升调)the capital(句中意群末尾实词,降升调,停顿)/ of a huge(句中实词,升调)empire(句末实词,降调,停顿)。当学生形成比较正确的语调之后,再要求学生模仿原声对语调进行微调。
(2)角色扮演
角色扮演“五答”部分的核心突破点包括:
A. 抓取信息点的能力。即每一个回合的对话中,都包括一个或数个关键信息点。学生如何能够快速理解和捕捉到这些关键点?我们会强化学生信息点的意识并训练抓取信息点的能力。
B. 脑记忆。学生必须在听的短暂过程中理解信息、加工和记忆关键信息。因此,听力训练时,要求学生必须注意力高度集中,解读和记忆信息的逻辑关系。
C. 速记能力。速记是快速获取语流中重要信息的有效方式。其作用在于弥补脑记忆的不足,帮助准确记忆信息点。速记时应遵循“七分靠脑记,三分靠速记”的原则。速记的方法可以多样化、个性化,也可采用最简单、最实在的方法:完整记录信息点中的核心词;通过记录首字母或前几个字母的方式记录次要关键词。
角色扮演“三问”部分的核心突破点主要在于掌握正确的疑问句句型,主要包括一般疑问句、特殊疑问句、选择疑问句这三种。我们会根据考纲里规定的24个话题编排问句供学生操练。 (3)故事复述
要高质量完成复述任务,除了要培养良好的信息点捕捉能力、充分发挥脑记忆和速记的作用外,还必须启动“多任务处理模式”(Efforts Models),合理分散负担,将任务分解到多个环节。
Step 1:看。任务分配:解构故事的起因、经过和结果,脑记故事脉络。
Step 2:听。任务分配:理解故事,记录要点。
Step 3:串。理清逻辑关系,组织语言,串联信息点。在尝试复述的同时,动笔整理信息点。
Step 4:说。多任务协调,综合进行输出。开头部分尽可能流利复述,后半部分可一边说一边整理(控制语速,句尾要停顿);在保证信息点的准确表述的前提下,兼顾表达的连贯性。
张放:很恰切的四步。
李丽茹:我所讲的都是一些非常具体的操作,不知道能不能对老师们有一点点启发。
陈皓曦:李老师辛苦了,相信对于即将实施听说考试的友省同行們,你的经验很有价值。其实听说考试并没有想象中那么恐怖,只要在教学中遵循听说读写整合的理念,让学生能够有充分的机会进行语言实践和交际,应对听说考试是绰绰有余的。对待改革,越是积极的态度越能更快地适应,并且利用改革的契机转变老师的观念,提升教学质量。
李丽茹:是的,我们觉得挺有意思的。借助这个听说考试,推行晨读、课前朗读、课前演讲等活动,学生参与热情都很高。
葛炳芳:机考原来还可以帮助提高成绩?
镇祝桂:其实备考过程还是以课堂为主,师生互动交流为主。机考是一种手段。
程粉香:改革对老师来说是压力也是动力。
陈皓曦:葛老师,由于题型设计比较科学,学生除了听力理解能力好,还需要有良好的口头表达能力,因此机考的确起到了良好的反拨作用。课堂上,师生的口头互动大大增加了。测试是教学的风向标,测试改革了,原有的应试对策不能继续用了,就迫使老师们接受新的教育教学理念,根据测试要求进行课堂教学的改革。
李丽茹:没错,老师自己首先要有这种强化口语交流的意识,并且时刻注意在表达的准确度和得体度上要起到示范作用。
葛炳芳:口语表达的命题依据课程标准吗?篇章难度相当于美国三、四年级?还是相当于我国课标高二、高三水平?
镇祝桂:广东省高考考试大纲是这样说的:根据普通高等学校对新生文化素质的要求,依据中华人民共和国教育部2003年颁布的《普通高中课程方案(实验)》和《普通高中英语课程标准(实验)》,确定了“英语听说”考试的内容。
陈皓曦:篇章难度的统计因为是使用word的弗来士易读度水平进行统计的,所以对应的是美国学生的水平。但是词汇、话题、功能意念等都是依据课程标准和考试大纲的。葛老师可以关注我们之前谈到的内容。
从听说目前的三个题型来看,考查目标是和高中课程标准的听和说的要求相一致的。由于照顾到广东省不同地区的英语教学水平差异,难度也不是很大。
葛炳芳:高中考初中水平,初中考小学水平,点缀几个高初中的单词,这是我们现有听说考试命题中的难处,因为有关方面有时候只要数字。而真要以高中水平的标准去命题,估计你们(如果我去做我也会)会很为难。这也是做一件事的难处。凡命题者都会遇到这样的难处吧。但这不影响现有的实践及其影响。
陈皓曦:葛老师说到我们心里去了。其实作为地区教研机构,任何一次大的改革,对于我们都是很大的挑战。我们没有参与命题的资格,只求借助改革的契机,通过有效的教研引领,促进本地区英语老师的专业发展,提升学生的语言水平。
葛老师教育家的情怀我很感动。在中国,考试太重要了,改革的确需要谨慎。我还记得张连仲老师曾经说过,改革之初,可以适当地降低测试目标要求,力求平稳过渡。测试改革的最终目标是促进教学水平和质量。从这个意义上看,6年的听说改革带给广州的英语课堂非常积极的影响。
程粉香:我教新生时也发现广东省的生源听说能力确实好一些。对听说能力也更加重视一些,这里面肯定有听说考试的功劳。
听说考试对高中英语教学的影响
镇祝桂:时间关系,我只能简单谈一谈听说考试对高中英语教学的影响。
广东省考试院(2010)关于实施听说考试的文件是这样说的:高考设置英语听说考试的指导思想是遵循选拔性考试的规律与要求,贯彻普通高中新课程的理念,反映英语学科课程标准的整体要求,考查学生在特定的语言环境中运用语言完成任务的能力和综合运用英语语言知识的能力。显然,考试设计者希望通过听说考试进一步促进学生英语综合运用能力的提高,并对英语教学产生积极正面的反拨效应。
从本人所做的调查和访谈情况来看,考试还是达到了其预期后效。概括地说,实施听说考试既能促进教师的教学改革和专业发展,给他们的教学内容、教学策略甚至教学成果带来正面影响,也能提高学生的听说能力,并对学生的读写水平有正迁移作用。绝大多数教师积极应对听说考试,调整自己的教学、评价和资源策略,使之尽量满足课程标准对英语学科的要求,满足考试大纲的要求,满足学生对英语学科的期望。总体来看,实施听说考试没有冲击读写训练,教师既重视听说训练,让学生的读写能力同步提高。听说考试进一步强化了教师培养学生的综合语言运用能力的教学理念。
李丽茹:肯定不是冲击,听说读写能力是一体的。
张放:是正面的反拨效应。
镇祝桂:当然,也有一些负面效应,例如,有些教师片面理解对学生听说能力的要求,怎么考就怎么练;有些教师认为考试的区分度不理想,考试成绩较难区分听说水平中上的学生,影响了他们的积极性等等。这些还需教师、教研部门和考试部门进一步改进。
我在《中小学外语教学》2014年第10期有一篇文章“广东高考英语听说考试对高中英语教学的影响”讨论了这个问题,这里就不嗦了。总之,请记住这句话:英语学科的社会化一年多次考试可能是英语考试的未来。改革后的英语考试还应包括英语口语的考查,这有利于改变现行高考英语不设口语考试、高中忽视口语教学的倾向(程蒙蒙,2013)。这可能代表教育部考试中心的心声。
“人机对话”考试是一个发展趋势。今天我们在这里分享了广东(广州)的一些经验、教训和想法,希望兄弟省市在实施过程中可以得到一点借鉴,不走弯路。欢迎对我们分享过程中不当之处提出批评和建议。感谢参与讨论的老师和即将爬楼的老师,特别感谢葛炳芳老师、扈华唯老师和张连仲老师。这一话题的讨论可以无限继续,欢迎大家随时交流。如果我们说得不够清楚,欢迎亲自到广东(尤其是到广州)来考察、指导!
陈皓曦:我记得前不久在浙大举行的“第二届语言测试与评价国际研讨会”上,教育部考试中心于涵副主任点评时说,上海可以提“高标准”,北京可以提“大舞台”,广东暂时只能强调“导向性”。广东的教育现状相比于其他友省不是很乐观,但在英语测试这一领域我们总算是有一些先行者的经验和教训。
镇祝桂:今天的讨论到此结束。谢谢大家!