【世界教育之窗】
对学生进行全面的评价并在此基础上进行人才选拔,是国际上诸多高校招生录取的共同趋势。综合评价是一个经常被提及的概念,实际上就是对学生能否满足大学学习来进行全面考查。既然要对学生进行综合评价,就必然涉及不同的测评方式、测评主体和测评结果之间的差异。
近年来大量研究表明,这些综合性的测评结果比单一的考试成绩更能够预测学生的未来成就。因而,很多世界知名高校在进行人才选拔中,都非常注重这些多元化的测评结果,包括学生特长、标准化考试成绩、平时表现、兴趣爱好、情感、价值观、课外活动等。
但是,如何让这些不同维度的特质在科学、公平的基础上可用、可比,则是一个极其复杂的难题。一些国家的高校结合办学定位和人才培养模式进行了一些探索,形成了各有特色并具有重要借鉴意义的经验。
1.测评是个技术活
目前,国际上考试测评行业发展的一个重要趋势就是为测评者提供各种人性化的服务,以满足学习者学习和终身发展的需要。例如,在全球化时代,受教育者和各类人才的国际流动更加频繁。他们在不同时间、不同地区参加测评,然后带着这些测评结果在不同国家或地区、不同时间点来替代使用成为一种当下的迫切需要。国际上的一些大规模教育测评项目,如经济合作与发展组织推出的国际学生评估项目(PISA),每三年就要针对全球近80个国家和地区的15岁学生进行阅读、数学、科学等方面的测试。PISA所用的试题有很多套而且并不完全相同,但是其公布的测评结果可以直接进行比较,这对测评技术而言无疑是一个巨大的挑战。
在高校人才选拔所依据的大规模标准化考试中,同样也存在类似情况,如美国的学术能力测试(简称SAT)和大学入学考试(简称ACT),两者都是美国很多大学人才选拔所要求的重要测试。SAT由美国大学理事会委托教育考试服务中心举办,SAT主要考查学生在大学学习所需的阅读、写作、数理等方面的技能,尤其是批判性思维能力。该考试每年提供7次考试机会,学生可以依据自己的情况,报名参加其中任何一次或者几次考试,并且自行决定用哪次考试的成绩去申请大学。ACT由专业化的考试公司主办,每年举行6次,与SAT一样,主要作为大学新生选拔和奖学金发放的依据。ACT考试包括五个部分:英语、数学、阅读、科学以及作文(选考)。与SAT不同的是,ACT关注学生对中学课程知识的掌握情况,更加突出对学科能力的考查,这些基于学科的能力和大学学习所需的能力紧密地结合在一起,受到了公立大学的欢迎。
SAT、ACT均实施一年多次考试,这给学生提供了多次考试机会,在一定程度上缓解了复习备考的压力,但却对考试质量提出了非常高的要求。其中最关键的是,各次考试的难度需要尽可能保持一致。否则,试卷难度时高时低,就会带来考试的科学性、公平性方面的一系列问题。然而,在考试之前就命制出难度完全一样的多套试卷是几乎不可能的。对此,SAT和ACT的开发者设计了一整套测量与评价技术来对考试成绩进行一定的处理,以消除不同次考试试题难度的影响,从而使得各次考试难度能够保持一致性和基本稳定。在这个过程中,等值就是一项常用的考试技术,广泛应用于一些国际性的大型教育考试与评价项目中。
在SAT和ACT之间还面临一个至关重要的问题,那就是两者成绩之间如何建立联系。原因很简单,美国很多高校在招生时会要求学生提交这两个考试的任何一个成绩。从选拔的结果来看,同一所大学所录取的新生中,提交SAT和ACT考试成绩的考生各占一定比例。而如前文所述,SAT和ACT在知识与能力考查目标上存在较大差异,可以说,它们作为两个不同的测评工具,天然就不具备考试技术上的可比性。那又如何保证这两个性质不同的考试可以相互比较甚至替代呢?这同样涉及科学性和公平性的问题。对此,这两个考试的主办方美国大学理事会和ACT公司通力合作,通过对同时参加这两个考试学生的追踪和对比研究,从成绩使用的角度来公布出一份SAT与ACT的分数转换表,以明确这两个考试结果之间的对应关系。例如,在满分1600的SAT中得1490-1520分,就相当于在满分36的ACT中得34分。这样一份转换表,实现了不同测评在结果使用上的等效,为高校的人才选拔和测试者都提供了极大的便利。
2.及时修正的统计模型
很多欧美国家的高校在进行人才选拔时,一般会要求学生提供综合性的申请材料,包含一系列能够证明自己学习能力的测评结果。其中一些是过程性评价的结果,比如学生在学习过程中的班级排名、阶段测验成绩、GPA、校本评价结果等。在澳大利亚、新西兰等国家,则还包括日常教学过程中任课教师对学生的学业表现进行的综合判断,涉及专题学习、实验技能、日常课程学习状况。这些方面的测评结果是学生在校期间学习状况最直接的表现,不但反映了学生在校期间各学科的学习状况,更可以反映出学生在不同学习阶段间的成长变化情况。
教育领域的研究表明:在整个学习过程中,相比较而言,最了解学生的是任课教师,最能体现学生水平的是能够反映长期表现的学校评价结果,相比之下,任何一次性的终结性考试都必然存在测量误差。因此,在学习过程中的各种评价,理应在高校的人才选拔中占有一席之地。但是,不同学校的学校评价结果之间缺少可比性,因为校本评价在对象、测评工具、群体上均存在极大差异,倘若盲目使用,则会造成不公平的现象。
为了解决上述难题,英联邦的一些国家和地区引入了一种新的机制来对校本评价结果进行校正。这种机制的核心是一种“统计模型”——基于学生的平时成绩、老师对学生各方面的评价,以统一考试的结果为基准,建立相应的统计模型来调整校本评价的结果,并把它统一到同一把量尺上,最后再纳入学生的综合评价中。这样做则能在根本上确保不同教师、学校、地区所做出的评价结果之间具有可比性。
这种统计方法调整的基本思路是:测评的组织机构通过建立相应的统计模型,用终结性评价结果来校验过程性的评价。参照各学生在统一测评中的成绩来对校内评价进行修正,以达到消除校际之间评分差异的目的。在这个过程中,如果某学校的校内表现低于与其在终结性评价中水平相当学校的表现,该校的评价结果就会被适当调高,相反则会被调低。需要强调的是,尽管调整后学生的评价结果会发生变化,但其在学校中的排位不会变。这种统计分析方法的优点是多方面的:维持了评价结果在学校之间的可比性,以确保评价的公平;促使评价结果在年与年之间的稳定性,提升了测评的信度、效度和精度;搜集数据回馈学校,进一步优化校本评价的开展,提升学校和老师的评价素养。
3.多元录取的新趋势