论文部分内容阅读
【摘要】计算机辅助测评英语语音能力是目前英语教学及考核所探讨的一个热点,它能进行既定标准语和目标语的语音质量对比,并提供相当客观的数据分析结果,但其能否替代人工测试达到合理测试语音质量的效果,还有很大的研究空间。所以,本课题以高职院校英语专业学生为研究对象,采用人工与计算机辅助两种不同测试方式及手段,对英语专业学生进行语音能力测试;并依据英语语音测试与评估的三维度(精准度、可理解度和外国口音)评估标准,对比两种测评模式的异同;然后在对所得数据分析的基础上,探讨两种测试模式的信度与效度。旨在建立一个公正、客观、准确的评价机制,用以评价高职英语专业学生的英语语音能力。
【关键词】高职;英语语音;测评;计算机辅助
【作者简介】张莉(1982.04-),女,四川南充人,南充职业技术学院外语系,毕业于乐山师范学院,大学本科,讲师,研究方向:英语教学。
【基金项目】该论文属于课题《高职英语教育专业学生英语语音能力测评研究》成果之一。
一、引言
语言是人们进行沟通的重要方式,掌握一门语言的第一步,就是从该语言的发声入手,因此,英语语音的教学作为英语教学的第一步,非母语英语学习者的四项基本技能听、说、读、写与社交能力的发展都是以英语语音为前提。英语语音水平的高低对英语专业学生就更显重要。因此,如何评判学生的英语语音水平,包括评判方式,评判依据,评判有效性等因素就成了必需。目前对英语专业学生的英语语音能力的考核绝大多数仍采用人工测评,对于计算机辅助系统应用于英语专业学生的英语语音能力测评实践的研究尚少有涉及。而对于职业定向明确的高职院校英语专业学生,英语语音能力普遍不高,这将影响其职场的能力发展与交流。因而,寻找更准确、客观、完善的语音能力测评模式将有助于教师制定不同的教学策略,提高英语专业学生的语音能力,从而提高语音教学的效果。
英语语言测试与评估主要从精准度、可理解度和外国口音三个方面进行综合考虑。而无论人工测试还是计算机辅助测试,测试内容的选取和对每项内容的具体评判标准的量化都是影响测评结果的关键因素。对于相同测评内容进行不同方式进行测评时,其测评结果的稳定性能否体现考核语音质量特点,也应该纳入测评可信度高低的分析范畴。
二、人工测评和计算机辅助测评现状
1.人工测评现状。目前,专门开展英语语音课程的高职院校不多,且多把重心放在英语综合应用能力上, 因此在英语口语课程,各级别演讲比赛活动中,评判标准也大多倾向被测试者选题热度,词汇丰富程度,句法结构复杂程度,话题是否紧扣命题要求等因素,极大程度削弱了对重音,连读、节奏,语调等的语音特征的评定。即使评分中对语音细则有说明,也是诸如是否“语音准确,语调自然”之类的粗略描述。在这种模糊概念中进行的整体性评价跟测试人员的个人研究领域或评分经验等有较大关系,因此掺杂个人主观偏见较多,对不同教育程度的学生所进行的评定会显得粗略或不客观。
在有开展了语音课程的院校,对语音课程效果进行考核或评判学生口语能力的时候,测试人员也倾向于采用“整体印象评分”这种更简单的操作方式,甚至会因为测试人员的个别偏好对某个语音现象严重扣分或重复扣分。这对精准考核学生语音能力都是不够严谨的,也是不公平的,不利于真正评判受试者的语音水平。
2.计算机辅助测评现状。计算机辅助测评的原理为,将获取的被测试者的发音进行特征值提取,然后在参考模型中(很多采用HMM模式)进行匹配、对齐和评分,也就是解码过程。我院目前采用的数字化语言实验室是“蓝鸽口语教学”系统,在采集被测试者发音的过程中出现了无法采集声音或声音采集不完整的现象,而在弥补这种缺陷时进行反复采集声音的过程也无疑会影响被测试者的发音状态,同时也会增加声音采集工作量。在匹配、對齐和评分环节,明显出现超长语句匹配不适应情况,即不能有效匹配超长语句。系统对超长语句不能识别,或者在进行数据分析时只能按照声音的语段特征提取信息,而且识别标准具有唯一性。而其他测评平台中,如目前正在推广使用的MET全民英语APP,其在长句分析的精准度和语调的测评方面,也存在一定不稳定因素,比如对意群的划分不明显,只认定一种语调,偶尔会出现两次测评误差超过10分的情况等。
3.测评方式及测评结果。在测评实验中,我们将单词朗读,对话角色扮演,篇章朗读三部分作为声音采集内容,选取我院17级英语专业学生中作为测试对象,从每个班级随意选取10份声音,共60份,作为测评内容,将声音交由3名不同测试人员和蓝鸽口语教学系统测试分别测评。要求对单词朗读,对话角色扮演,篇章朗读三个部分分别打分,了解同一声音采样中不同内容对于不同测试人员和计算机辅助测试之间存在的测评差异。统计数据时按整体统计和分项统计分别进行:
将每一份采样声音作为一个整体,进行整体统计。先根据蓝鸽口语教学系统测评结果,按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:20份优等级机器测评结果中有15份被人工测评为优等级,20份中等级机器测评结果中有14份被人工测评为中等级,20份差等级机器测评结果中有10份被人工测评为差等级。
B.将采样声音按各部分(单词朗读,对话角色扮演,篇章朗读)分别统计。先根据蓝鸽口语教学系统测评结果,将三部分内容分别按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果将三部分内容分别取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:单词朗读部分,20份优等级机器测评结果中有19份被人工测评为优等级,20份中等级机器测评结果中有19份被人工测评为中等级,20份差等级机器测评结果中有20份被人工测评为差等级;对话部分,20份优等级机器测评结果中有17份被人工测评为优等级,20份中等级机器测评结果中有15份被人工测评为中等级,20份差等级机器测评结果中有15份被人工测评为差等级;篇章朗读部分,20份优等级机器测评结果中有13份被人工测评为优等级,20份中等级机器测评结果中有12份被人工测评为中等级,20份差等级机器测评结果中有14份被人工测评为差等级。
【关键词】高职;英语语音;测评;计算机辅助
【作者简介】张莉(1982.04-),女,四川南充人,南充职业技术学院外语系,毕业于乐山师范学院,大学本科,讲师,研究方向:英语教学。
【基金项目】该论文属于课题《高职英语教育专业学生英语语音能力测评研究》成果之一。
一、引言
语言是人们进行沟通的重要方式,掌握一门语言的第一步,就是从该语言的发声入手,因此,英语语音的教学作为英语教学的第一步,非母语英语学习者的四项基本技能听、说、读、写与社交能力的发展都是以英语语音为前提。英语语音水平的高低对英语专业学生就更显重要。因此,如何评判学生的英语语音水平,包括评判方式,评判依据,评判有效性等因素就成了必需。目前对英语专业学生的英语语音能力的考核绝大多数仍采用人工测评,对于计算机辅助系统应用于英语专业学生的英语语音能力测评实践的研究尚少有涉及。而对于职业定向明确的高职院校英语专业学生,英语语音能力普遍不高,这将影响其职场的能力发展与交流。因而,寻找更准确、客观、完善的语音能力测评模式将有助于教师制定不同的教学策略,提高英语专业学生的语音能力,从而提高语音教学的效果。
英语语言测试与评估主要从精准度、可理解度和外国口音三个方面进行综合考虑。而无论人工测试还是计算机辅助测试,测试内容的选取和对每项内容的具体评判标准的量化都是影响测评结果的关键因素。对于相同测评内容进行不同方式进行测评时,其测评结果的稳定性能否体现考核语音质量特点,也应该纳入测评可信度高低的分析范畴。
二、人工测评和计算机辅助测评现状
1.人工测评现状。目前,专门开展英语语音课程的高职院校不多,且多把重心放在英语综合应用能力上, 因此在英语口语课程,各级别演讲比赛活动中,评判标准也大多倾向被测试者选题热度,词汇丰富程度,句法结构复杂程度,话题是否紧扣命题要求等因素,极大程度削弱了对重音,连读、节奏,语调等的语音特征的评定。即使评分中对语音细则有说明,也是诸如是否“语音准确,语调自然”之类的粗略描述。在这种模糊概念中进行的整体性评价跟测试人员的个人研究领域或评分经验等有较大关系,因此掺杂个人主观偏见较多,对不同教育程度的学生所进行的评定会显得粗略或不客观。
在有开展了语音课程的院校,对语音课程效果进行考核或评判学生口语能力的时候,测试人员也倾向于采用“整体印象评分”这种更简单的操作方式,甚至会因为测试人员的个别偏好对某个语音现象严重扣分或重复扣分。这对精准考核学生语音能力都是不够严谨的,也是不公平的,不利于真正评判受试者的语音水平。
2.计算机辅助测评现状。计算机辅助测评的原理为,将获取的被测试者的发音进行特征值提取,然后在参考模型中(很多采用HMM模式)进行匹配、对齐和评分,也就是解码过程。我院目前采用的数字化语言实验室是“蓝鸽口语教学”系统,在采集被测试者发音的过程中出现了无法采集声音或声音采集不完整的现象,而在弥补这种缺陷时进行反复采集声音的过程也无疑会影响被测试者的发音状态,同时也会增加声音采集工作量。在匹配、對齐和评分环节,明显出现超长语句匹配不适应情况,即不能有效匹配超长语句。系统对超长语句不能识别,或者在进行数据分析时只能按照声音的语段特征提取信息,而且识别标准具有唯一性。而其他测评平台中,如目前正在推广使用的MET全民英语APP,其在长句分析的精准度和语调的测评方面,也存在一定不稳定因素,比如对意群的划分不明显,只认定一种语调,偶尔会出现两次测评误差超过10分的情况等。
3.测评方式及测评结果。在测评实验中,我们将单词朗读,对话角色扮演,篇章朗读三部分作为声音采集内容,选取我院17级英语专业学生中作为测试对象,从每个班级随意选取10份声音,共60份,作为测评内容,将声音交由3名不同测试人员和蓝鸽口语教学系统测试分别测评。要求对单词朗读,对话角色扮演,篇章朗读三个部分分别打分,了解同一声音采样中不同内容对于不同测试人员和计算机辅助测试之间存在的测评差异。统计数据时按整体统计和分项统计分别进行:
将每一份采样声音作为一个整体,进行整体统计。先根据蓝鸽口语教学系统测评结果,按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:20份优等级机器测评结果中有15份被人工测评为优等级,20份中等级机器测评结果中有14份被人工测评为中等级,20份差等级机器测评结果中有10份被人工测评为差等级。
B.将采样声音按各部分(单词朗读,对话角色扮演,篇章朗读)分别统计。先根据蓝鸽口语教学系统测评结果,将三部分内容分别按照分数高低划分为优、中、差三个等级,再根据3名测试员测评的结果将三部分内容分别取平均分数后按照分数高低划分为优、中、差三个等级,进行比较发现:单词朗读部分,20份优等级机器测评结果中有19份被人工测评为优等级,20份中等级机器测评结果中有19份被人工测评为中等级,20份差等级机器测评结果中有20份被人工测评为差等级;对话部分,20份优等级机器测评结果中有17份被人工测评为优等级,20份中等级机器测评结果中有15份被人工测评为中等级,20份差等级机器测评结果中有15份被人工测评为差等级;篇章朗读部分,20份优等级机器测评结果中有13份被人工测评为优等级,20份中等级机器测评结果中有12份被人工测评为中等级,20份差等级机器测评结果中有14份被人工测评为差等级。