论文部分内容阅读
2005年的英语专业八级考试是根据2004年新的八级考试大纲设计和施测的第一次考试,考试的性质、构念领域、任务要求、分数权重等都发生了较大变化。作为全国唯一的测量英语专业学生高年级英语水平的大规模考试,这些变化对个人、团体和社会将产生重大影响。测试界认为,越是高风险考试,越要对考试的技术和应用方面进行评价,对考试的效度验证要求越高。因此,运用先进的效度理念、分析技术和行业规范对我国的八级考试进行研究,不仅有理论价值,也具有现实意义。在对测验的评价中,效度是最重要的考虑因素。然而,在过去近一个世纪以来,效度的概念从多类效度发展到统一构念效度。与效度概念发展相联系,效度验证的范式和方法也产生了变化。因此,全面和准确地理解效度,具有十分重要具有理论意义。而掌握效度验证的科学方法具有运用价值。 本研究的目的有二;一是对统一效度概念从本体论、认识论、方法论视角进行较全面的评述,旨在为八级考试效度验证提供一个理论和方法框架;二是在统一效度概念下,对八级考试的客观试题从实证的角度进行效度验证。验证的问题包括四个:八级考试客观试题的测量学属性如何?客观题目实际测量的维度与考试设计的理念是否一致?客观试题分数的意义在不同的群体中是否具有类似的解释?新增加的人文知识分测验在是否存在考试偏差? 针对两个目的,采用两种研究方法。对构念效度的理论和方法讨论采用文献综述方式;针对八级考试客观题目的效度验证是用定量的方式提供解释依据。 构念一致性问题是本研究中关于分数解释的切入点,解决的是测验所测量的构念在不同背景的考生的意义是否具有可比性问题。当一个测验在一个组别(群体)中所测量的假设特质(或者心理构念)与另一组别相同,或者当一个测验在测量相同的特质而测量的准确程度相似时,构念具有可比性。构念一致属于分数结构和效度概化问题。它与考试偏差分析一起,为分数的可解释性和考试公正提供依据。 本研究的对象是446所大学参加2005年TEM8考试的96696名考生。分析的数据是由上海外国语大学四、八级考试中心提供的全体考生在客观题目上的原始反应数据以及已经对反应进行判断过的数据。针对不同的研究问题,使用了不同的统计分析手段:描述统计用于基本数据探索;相关方法分析题目同质性、题目区分度、聚合和区别效度、构念一致性检验;因子和谐系数用于检验不同群体因子负荷之间的相似程度;单因素方差分析进行跨群体均值比较;因子分析用于因子维度探索和验证;标准难度方法进行项目差异功能分析。 分析结果发现:题目的测量学属性而言,题目的难度分布较宽,平均难度也较适中(0.63),难度值在不同群体的分布相似。题目的区分度在整体上偏低,在0.11-0.42之间,平均区分度为0.29。区分度在各个群体中的分布较相似;人文知识分测验题目的区分度,整体上在技术规定的范围内,但是有两个题目在难度和区分度上都属于极值。各分测验内题目之间的相关系数偏低,各个分测验的内部信度也偏低。测量的维度方面,听力分测验有两个维度,分别代表面试听力和新闻听力;人文知识分测验有两个维度,分别代表精神类知识和历史地理知识;阅读分测验也是两个维度,所代表的意义有待进一步明确;全部客观题目有6个维度,其构成与分测验维度相同。对这些维度的上一级因子进行探索,发现3个因子比较清晰地代表了听力、阅读和人文知识三方面的能力和知识。这些发现,总体上说明,除了人文知识分测验的两个维度与考试设计的3个维度有出入外,考试所测量的东西与拟测量的构念是相符的。构念一致性方面,听力分测验和人文知识分测验和总体上一致的。阅读理解分测验维度和全部客观题目在不同的群体中不一致。对全部题目的跨群体维度探索结果表明,主轴法比主成分方法能更加有解释力,而因子和谐系数往往比相关系数更倾向于得出因子相似的结论。在6因子方案中,因子1、因子5、因子6在不同群体之间相似程度低,因子2、因子3、因子4在不同群体之间相似程度高。在3因子方案中,因子1在不同群体中相似程度高,因子2和因子3在除外语院校外的群体中相似程度也高。人文知识分测验在外语和非外语院校之间以及外语本科生与其他专业类别学生之间没有明显的考试偏差存在。 本论文由五章构成。 第一章是引言,主要对所研究问题的社会背景和行业背景进行介绍。这部分介绍的基本逻辑是这样的:考试是教育改革的突破口,对社会和个人产生重大影响,需要进行研究,以提高考试的质量和保证考试分数的合理使用;效度是考试评估的关键,新的构念效度理论与方法是效度评估的依据和途径;作为变化中的TEM8需要及时地运用这些依据和方法进行构念效度验证。 第二章是文献综述部分,目的是为本研究提供理论基础和方法依据。本章对效度、构念、构念效度、考试偏差、项目功能差异、构念一致等概念进行了讨论;对构念效度有关理论进行较为广泛的评述,重点探讨构念效度的发展脉迹、效度欠缺的理据、构念效度验证的方面、构念效度验证的程序、跨群体构念效度的比较原理和建立构念效度的统计方法。 第三章介绍了研究的设计和采用的分析方法,具体包括研究的具体问题、样本、研究的工具和统计方法。后者包括三个方面的统计:一是试题所测构念维度的探索方法;二是跨群体构念效度比较的方法;三是项目功能差异检验的方法。 第四章报告了本研究的核心发现。它们包括对研究的几个问题的结果:考试的构念维度数、试题难度的跨群体比较、试题题目区分度的跨群体比较、分测试信度的跨群体比较、分测试间相关系数的跨群体比较、因子结构的跨群体比较、人文知识题的项目功能差异检验。 第五章是讨论和结论部分。总结了本研究所得到的发现及获得的结论,对使用的研究方法和过程进行了评述,在针对TEM8(2005)的研究结果的基础上,对TEM8的设计者提出了建议;另外,本部分还指出了本研究对语言评价的贡献和不足之处,并提出了与本研究相联系的今后研究方向和思路。