论文部分内容阅读
近年来,项目反应理论(IRT)成为心理与教育测量非常活跃的研究领域,并正迅速成为主要的测量理论之一。IRT是在克服经典测量理论(CTT)的各种局限性的起基础上发展起来的一种全新的测量学理论,随着统计方法的完善和计算机硬件的突飞猛进以及网络技术的日臻完善,IRT很快被应用于各类大规模考试和计算机辅助测试(CBT)中。尽管有坚实的理论基础,IRT在具体现实应用中仍存在许多有待进一步研究和讨论的问题。
国内以往大部分的研究和应用都是基于CTT的题库研究与实现。本文首先分析了IRT目前没有实用化的原因,较为系统的研究了CTT和IRT两种测量理论,探讨了它们的区别和IRT独有的特性。
本文研究了多种IRT数学模型,包括最优量表模型、正态卵形模型、逻辑斯蒂模型、反正切模型、余弦模型、线性模型,详细分析了这些模型的现实应用情况、各自的特点和优势,为本题库选择模型奠定了坚实的基础,在将IRT实用化方面做出一定的贡献与尝试。
本文详细分析了IRT的应用之一即计算机自适应考试(CAT)。CAT能根据每位考生的答题状况自动选择最适合于该考生水平的考题,充分挖掘了信息技术和网络技术在考试中的潜力,其自适应性更加突出了考生的主体地位和个性化需求,大大提高了考试的效度和信度。
本文为CAT设计了一个题库模型,这是CAT编制中最基础、最核心也是确保自适应优质试卷生成的关键所在。设计中,对题库性质的确定、命题计划的编制、IRT模型的选取、试题参数的确定、试题质量审核(定性、定量)、考试的实施策略以及题库的动态维护等都作了详尽的说明。主要工作如下:
1.为了计算简单、降低系统开发的风险、将来能与其它的考试系统进行资源整合,本系统选用目前较为成熟的三参数逻辑斯蒂模型(3PLM)作为系统建设模型。
2.本题库系统的试题IRT参数采取测验内容专家评估和试测后进行估算相结合来最终确定,即先由知识专家初步评估,再运用联合极大似然估计法(JMLE)和牛顿-拉普逊(N-R)迭代法相结合进行进一步精确估计。
3.在线考试时测验题目的选择对系统整体性能影响巨大,IRT的通常做法是计算题库中所有试题的信息函数,并选出信息量最大的题目呈现给考生,而这需要大量的计算,在Internet并发的环境下,服务器端负载变大,延长了用户等待时间。为此本文提出了一种在测试的精确度与系统的效率间进行折衷的选题策略,即在题目入库时,首先确定此题目最适合的测试者的能力值,在线考试时,只需在符合考生能力范围的题目中选题即可,从而简化了在线测试时服务器端的运算。
4.本文提出了分层选题法,即将题库按试题区分度高低分层,从低到高依次选题,这样既可以充分利用题库中的所有试题,又能减少区分度高的试题的曝光度。
5.本文提出了一个题库的优化方案,解决了题库扩充时参数的等值问题,再通过评价函数对题库参数进行监控,从而使题库在使用中越来越科学、自适应性越来越强。
此外,本文提出了一个题库系统建设模型,可为相关的研究工作提供参考和借鉴。