【摘 要】
:
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义.随着考试研究的发展,题组形式越来越多地出现在测验中.如何更精确地对含题组的测验等值便成为一大难题.早期多采用项目反应理论(Item Response Theory,IRT)模型进行测验等值,需要满足局部独立性(LI)假设.然而,先前的研究表明,在包含题组的测试中通常存在局部依赖,违背了LI假设.若采用标准的IRT
【机 构】
:
华南师范大学心理应用研究中心/心理学院,广州,510631
论文部分内容阅读
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义.随着考试研究的发展,题组形式越来越多地出现在测验中.如何更精确地对含题组的测验等值便成为一大难题.早期多采用项目反应理论(Item Response Theory,IRT)模型进行测验等值,需要满足局部独立性(LI)假设.然而,先前的研究表明,在包含题组的测试中通常存在局部依赖,违背了LI假设.若采用标准的IRT模型对有题组的测验进行等值,因忽略题组的局部相依性则很可能导致等值结果的失真.为解决这个问题,我们采用一种基于题组的TRT模型——三参数题组模型(3 Parameters Testlets Model,3PTM),它由三参数逻辑斯蒂模型(3 Parameters Logistic Model,3PLM)加入了与每个题组相关的随机影响参数扩展而来的,考虑了锚题组中题目的局部依赖.对其与3PLM的参数等值效果进行比较,3PLM并没有考虑题组内部的依赖关系.考察3PTM在题组等值中是否确实具有优越性.本研究给出了利用IRT特征曲线法求解等值系数的方法和具体步骤.以等值系数估计值的误差大小作为衡量标准,以Wilcoxon符号秩检验为依据,进行了Monte Carlo模拟实验.实验分别从项目参数随机误差的大小,被试人数,题组相依性程度等方面考察对含题组的测验等值的效果.实验结果表明,考虑了局部相依性的题组模型3PTM绝大部分情况下都比3PLM等值的误差小而且具有显著性差异,更加适用于题组测验的等值.另外,因为猜测度和题组效应一样会影响被试的作答,然而猜测度究竟在题组测验等值中扮演什么样的角色目前并无定论,因此,我们采用3PTM对其进行深入探讨.发现随着猜测系数的增加,3PTM的等值误差变化并无明显规律,但是等值效果一直优于3PLM.对于该因素的影响可能还需要进一步的研究.
其他文献
具身认知,作为第二代认知科学的产物,它强调身体参与认知活动,而不是第一代认知科学所说的离身认知,也就是纯粹的符号加工。对于这种具身现象的研究主要是通过行为控制来观察被试的任务反应,或呈现与身体有关的刺激来看被试的神经活动,这主要通过fMRI 技术来观察脑部活动。但是目前通过ERP 技术来进行的相关研究还不是很多,特别是通过听觉和左右空间性进行的研究。之所以会采用左右空间性,是因为左右是以身体来定位
心理测量领域目前正朝着智能化的方向发展,例如,利用智能技术进行自动选题组卷,计算机自适应测验,自动评分及反馈等。关于自动选题的方法,前人多有研究,例如,随机法、回溯试探法、遗传算法、模拟退火算法、线性规划法等,但是这些都有各种各样的缺点,如收敛速度慢、易陷入早熟、需要建立复杂的数学模型等。量子遗传算法在普通遗传算法中引入了量子计算的概念,量子态的叠加性、纠缠性。相干性,能够使算法在种群规模很小的情
近些年,神经网络和决策树越来越多地被用于人类认知行为的分类和预测研究,神经网络是联结主义方法的代表,而决策树则是符号处理方法的代表.神经网络是一种高效的分类方法,它是由大量的处理单元互相连接而成的网络,进行识别和训练,而且不需要先验知识.决策树则是采用自顶向下的贪心算法,在每个结点选择分类效果最好的属性,继续这一过程直到该树能准确地分类训练样本,或所有的属性都已经使用过.本研究探讨了神经网络与决策
心理软计算是心理学和软计算结合的产物。软计算是在生物界现象启迪下提出的理论和方法,包括神经网络、遗传算法、粒子群、蚁群算法、支持向量机、模糊集、粗糙集等,它能够对模糊的、粗糙的数据进行分析,能够对变量间不清晰的关系进行建模。
作为新一代教育测量的核心的认知诊断评估倍受关注,认知诊断评估利用被试在标定了项目属性的测试项目上的作答反应,对被试知识、技能或属性的掌握情况进行推断或分类,反馈测试结果给学生、老师等以供补救教学之用。
计算机化自适应测验(CAT)的实施需要大型题库,题库中的项目要有项目参数,目前参数估计多采用统计方法(漆书青等人,2002),它需要有较多的被试和较多的项目,对于样本容量较少的测验,用统计的参数估计方法可能会出现不收敛或精度不够等问题。
研究目的:修订人际价值观环形量表(Circumplex Scales of Interpersonal Values,CSIV),并对其进行信效度检验,以期为未来临床工作评估个体的人际适应发展程度及病理心理机制的研究提供有效、简便的测量工具。研究内容:(1)对量表理论进行文献调研;(2)修订CSIV:根据预调研资料、初测项目分析结果修改CSIV项目,确定CSIV翻译稿;采用方便抽样,对725名大学
现有有关自我宽恕的界定往往缺乏人际间特征与个体内特征的整合.除此之外,本土化研究表明,中国社会是一个“自我主义”社会,相对于西方人的“独立型自我”,中国人更偏向于“互倚型自我”.因此,整合自我宽恕的个体内特征和人际间特征是编制适用于中国大学生的自我宽恕倾向问卷的不可或缺的一部分.在前人有关自我宽恕界定的基础之上,弥补前人研究之不足,结合本土文化,提出自我宽恕倾向的涵义为:个体意识到自己的错事之后,
测验维度是数据背后的潜在能力或者构念的个数以及他们之间的关系.维度评估是一个既有统计学意义又有本质意义的探索项目与潜在变量(特质)的关系,以及项目与维度之间的关系的过程.统计上的意义是确定维度的个数,本质上的意义是确定维度之间、以及项目与维度之间的关系.通过检验测验的维度,研究者就可以将统计结果与本质意义结合起来,达到更好的解释被试与题目的相互作用的目的.对多维测验的维度结构的评估方法有很多,以往
多阶段混合增长模型(Piecewise growth mixture modeling,PGMM)可以同时考察发展趋势不连续和发展群体不同质的问题,在实际研究中具有特殊作用.通过模拟研究,考察潜类别距离和发展形态等因素对模型选择和参数估计的影响,得到以下结论:(1)潜类别距离影响模型选择和分类效果.潜类别间距离较大时,BIC、熵值表现出一致性,均能选出正确的模型,得到正确的分类结果;但当潜类别间的