表现性评价

表现性评价

20世纪90年代早期,许多教育决策人员十分钟情于表现性评价。表现性评价通过让学会完成某一特定任务来测量学生的状态。从理论上讲,学生在判断题中选择正确和错误也是在完成任务,尽管这一任务很简单。但是,表现性评价的支持者认为,表现性评价的测量方法与选择题测验有很大的不同。实际上,正是对传统纸笔测验的不满使许多教育者开始尝试使用表现性评价。

什么是表现性测验

表现性评价不仅要观察学生的表现,还要对学生的表现做出评判。在表现性评价中,学生要建构一种原创的反应,教师还要观察这一建构的过程。表现性评价与其他传统测验的区别主要在于引发学生真实行为表现的程度。

例如,有个教师指导学生用合作的方式解决各种问题,他想评估学生是否习得了合作技能。这里要考查的是每一个学生掌握合作技能的程度。依据评估的结果,教师可以决定某一学生是否需要额外的指导,是否可以开始新的教学任务。实际上,在这里教师真正感兴趣的是学生能否与其他学生合作,一起找到解决问题的方法。图8.1列举了五种用以评估学生合作技能的方法。但你会发现,一和二两种方法都是选择—反应评价,它们没有让学生建构任何反应。其他三种(三、四和五)虽然都是建构—反应评价,但所提供的任务与教师教学目标相一致的程度有明显的不同。具体地说,第五种方法与教学目标所要求的行为最接近,而第4种方法与第一种方法相比就更具有表现性测验的特点。

不难看出,不同的教育者在用“表现性评价”这个词表示不同的评价方法。有些教师把简答题和论述题测验作为一种表现性评价的形式,也就是说他们基本上把表现性评价等同于各种形式的建构—反应评价;有些教师则使用比较严格的表现性评价概念。很多表现性评价的支持者主张,真正的表现性评价必须至少具备以下三个特征:

●多重评估标准。学生表现的评判必须依据多个评估标准。举个例子来说,一 个学生说西班牙语的能力要从口音、句法、词汇三个方面进行评估。

●预定的质量标准。用以评判学生表现的每一条评估标准,必须在评判之前 就已十分具体、明确。

●主观的评估。真正的表现性评价与选择题的评分不同,它不能借助于计算 机和扫描仪,它要依靠人的经验和智慧来决定学生表现的可接受程度。

回头去看图8.1,如果用上述三个条件来衡量图中提供的五种评价方法,我们不难发现,第五种方法是表现性测验,第四种方法也算,但其他三种就不符合要求了。

很多表现性评价的支持者指出,提供给学生的任务应当是能代表真实世界而不是校园世界的问题;其他支持者则认为,校园世界的测量都应是建构—反应的,而不是选择题;还有一些支持者主张表现性测验中的任务应当是十分严谨的,要以布卢姆的目标分类学为指导。总之,表现性评价的支持者所主张的方法实际上是各不相同的。

你有时候可能会碰到有人使用其他词来称呼表现性评价。比如,有些人可能会使用真实性评价(authentic assessment)(因为评价任务比较接近真实酌生活)或替代性评价(因为这种评价构成了传统纸笔测验的一种替代方式)。下一章,我们将介绍的成长记录袋评价是表现性评价的一种类型,不能被看做是表现性评价的又一称呼方法。

为什么要使用表现性评价

之所以许多人倡导使用表现性评价,影响因素有很多。杰出的教育测量专家梅伦斯(Mehrens,1992)曾提出一系列教育者赞同使用表现性评价的理由,下面列举的是他认为比较重要的三个方面:

●对选择一反应测验的不满。表现性评价的支持者认为选择题和判断题只能 考查学生的再认能力,不能有效地测量学生的高水平思维技能,如学生能

否解决问题、综合或独立思考。尽管也有人批评选择—反应测验是不公平

的或只能考查不重要的内容,但最为常见的批评意见是学生只需要选择一

个答案。

●认知心理学的影响。认知心理学家认为,学生不仅要获得内容知识,还要

获得程序性知识。他们指出,所有的认知任务都需要两种类型的知识,但

不同类型任务的侧重点不同(Snow & Lohman,1989)。因为学生程序性

知识的获得已越来越成为教学的重点,而某些类型的程序性知识却不能通

过选择—反应测验来评价,许多认知心理学家都倡导在教育中应用表现性

评价。●传统测验对教学的消极影响。由于教育评价的高利害性,教师倾向于把测 验中所要求的内容作为教学的重点。结果学生测验的得分提高了,但知识 与技能的掌握情况却没有什么改善,特别是在教师只按测验要求组织教学 的时候。多数教育者已认识到高利害测验将会持续影响教师的教学。他们认为,相对于传统的纸笔测验而言,表现性评价更能对教师的教学目标构成积极的影响。如果在高利害评价中合理使用表现性测验,教师教学活动的重心将会发生积极的转变。 p138

类似的意见还可以列举出很多,但实际上梅伦斯(1992)的分析已经把支持表现性评价的主要理由阐释清楚了。梅伦斯非常支持教师在课堂评价中使用表现性评价,因为他认为这种评价可以明显地改进教师的教学。不过,他对在教育效果评估中使用表现性评价持怀疑态度。 现在我们开始讨论表现性评价的两个核心问题:给学生选择适当的任务,以及学生完成任务后评判学生反应的满意程度。

确定适当的表现性评价任务

一般来说,表现性评价需要学生完成一定数量的比较有意义的任务,而不是大量并不是很重要的任务。比如,在化学测验中,学生不用再像原来那样完成50道选择题,而是在化学课上操作一个实际的实验,然后撰写报告分析实验程序和解释实验结果。从化学教师的观点来看,对每一学生学习状况的评估必须以学生在完成某个单一或复杂任务中的表现为依据,而不能凭借学生在选择题测验中的反应来做出判断。正是由于表现性测验的任务具有重要意义,教师在选择表现性评价任务 (performance-assessment tasks)时必须非常谨慎。基本上,教师可以自己设计表现性测验任务,也可以根据需要从现成的表现性评价任务中进行选择。推论和任务

本书已经反复强调过,教师评价学生要明确以下两个主要问题:(1)教师要得出什么样的评价推论;(2)教师依据评价推论做什么决定。举个例子来说,假如你是个历史教师,你连在湖滨小屋度假时都在考虑一些有关课程的问题。三个月后,你拿定主意,你要教学生学会将所学的历史知识用于解决实际问题,这些问题可能是当前的,也可能是未来的,但它们都在一定程度上与历史事实有关。于是你决定放弃原来被学生称为“测验马拉松”的期末测验,不再花一个星期的时间让学生完成1500多道判断题。现在,你要采用表现性评价策略,希望选择一个适当的表现性测验任务,帮助你考查学生运用历史知识解决当前和/或未来问题的能力。

图8.2是一个关系图,涉及的变量主要是:(1)一个教师的核心教学目标,(2)教师希望得出的学生评价推论和(3)用来获取数据以支持评价推论的表现性测验任务。你会发现,教师的教学目标是评价推论的依据,而表现性任务产生了教师达成评价意见的证据。根据学生对教学目标的掌握程度,教师可以确定下一步教学的

内容与安排。类推性的困境

表现性评价面临的最大问题是难以准确地类推出学生掌握知识与技能的情况,因为表现

性评价与传统纸笔测验不同,它的任务数量一般很少。

为了说明这一问题,我们假设你正在关注学生计算两位数乘法的能力。如果出于教学上的考虑,你只能用半个小时的时间来评价学生,你可以要求学生在30分钟内完成20道乘法题。(题目可能有点偏多,但我是想给大家一个鲜明的对比。)通过学生的答卷,你可以公平地评价每一学生两位数乘法的掌握情况。由于测验题目是从评价内容领域抽取的一个有代表性的样本,你可以依据学生的表现得出结论,比如“贾维尔(Javier)真正掌握了乘法题”,或“弗雷德(Fred)不能解决两位数乘法问题”。正是因为你的抽样是合理的,你可以自信地推论出学生解决类似类型乘法问题的能力。但是,同样只有30分钟的时间,如果你使用比较正规的表现性测验,你只能让学生完成一个表现性任务。例如,你呈现给学生一个涉及具体操作的以乘法为主的实际数学问题,让学生先给出初步的解决方案,然后用纸笔写出这一过程。应该说,如果学生能在半小时内完成那实在是十分困难的。而且,单凭这一单一的任务,你能做出关于学生能否完成其他类似任务的推论吗?

正如你所见到的,这就是表现性测验的一个突出问题。因为学生只完成少数几个任务,教师很难作出关于学生一般能力的合理推论。如果你只使用一个表现性测验,倘若学生表现出色,是因为他真正掌握了所测量的技能,还是他运气好呢?另一方面,如果学生在单一的表现性测验中表现得一塌糊涂,是因为他没有真正掌握所评估的技能,还是这一特定表现性任务的特点误导了学生,而他在其他任务中实际上表现得相当出色呢?

作为一名教师,你会面临测量上的两难选择。尽管表现性测验可以测量到你所要评价的学生能力,但依据学生在表现性测验中的表现做推论必须十分谨慎。我们至今尚未找到解决或避免这一问题的方法,但至少你可以在处理这一两难困境时尽可能小心一些,在选择表现性测验任务时尤其要谨慎。在选择表现性任务时最重要的考虑应该是提高准确类推学生能力的可能性。如果你总是在选择/建构表现性测验任务过程中着重考虑类推性问题,你就能够做出一个强有力的推论。 评估表现性测验任务需要考虑的若干因素

现在,我们已讨论完类推性的问题,许多测量专家认为这是教师评判表现性评价任务的最为重要的因素。下面一个问题是,无论你选择一个已有的表现性测验任务,还是自己生成一个表现性测验任务,都可能会考虑下面七个方面的因素。

评估表现性测验任务的标准

●类推性。学生在这一任务上的表现能在多大程度上类推学生在类似任务中的表现? ●真实性。这一任务是否接近学生生活的真实情境,而不是校园情境?

●多重关注点。这一任务能不能测量多方面的教学成果?

●可教性。学生能熟练完成这一任务,是教师教学努力的结果吗?

●公平。这一任务对所有学生都是公平的吗?——就是说这一任务是否避免了对学生性别、种族和社会经济背景等个人特点的歧视?

●可行性。考虑到财力、空间、时间和设备等方面的因素,这一任务是可以实施的吗? ●可评分。这一任务能否让学生表现出可以准确、可靠地予以评估的反应?

无论你是自己设计表现性测验任务,还是选用已有的任务,你可能只考虑到上述七个因素中的几个。我个人认为,确定表现性测验任务要设法考虑所有七个因素,但有时候我们也可能需要对某些因素(如真实性或多重关注点)少一些考虑。比如,在某些情况下,校园情境比真实生活情境更适合教师作出某些推论,真实性标准就不再那么重要了。又如,考虑到每一表现性测验都牵扯很多时间和精力,能在同一时间测量多方面的成果确实很经济,但有时候某一单一的教育产出非常重要,这就需要关注点单一的表现性测验。不过,上述两种情况并不多见,一个真正好的表现性测验任务应该符合所有七个评估标准。表现性测验与教师时间

在第一章,我曾声称,如果你认真阅读完这本书,你将成为一个优秀的教师。

现在,我又有另外一个承诺,那就是“诚实”,我会说出对我们正在探讨的测量方法的真实意见。关于表现性测验,我认为它很花时间!

作为一名教师,使用表现性评价要在以下几方面投入时间:(1)选择适当的任务;(2)制定合适的给学生反应评分的计划;(3)对学生反应的实际评分。与已经使用过表现性测验的教师交谈,你会发现表现性评价的应用需要大量时间。

因此,我给大家一个建议,当你使用表现性评价时要考虑另外一个因素,那就是你所要评价的技能的重要性。由于你只能在教学过程中使用有限的几次表现性测验,你要确保你的每一次表现性测验都能涉及最为重要的技能,而这些技能正是你试图让学生获得的。如果表现性测验不是在评价十分重要的技能,你最好赶快终止它,坦率地说,这样做得不偿失。 确定评分标准

表现性评价始终遵循建构—反应测量的要求,学生在评价中要生成而不是选择反应。但是学生建构的反应必须要进行评分,而这种评分比选择性反应的评分要难得多。建构—反应的评分要根据评估标准。现在,让我们来关注用来考查学生在表现性测验中反应质量的评估标准。

所谓标准,韦伯大词典将其解释为“评判或决定所依据的规格”。给学生在表现性测验任务中的表现评分,就是试图评判学生建构性反应的满意程度。显然,评判所依据的具体标准会影响教师给学生反应评分的方式。比如,你依据组织、用词和表达的清晰程度来给学生的作文评分,与你依据拼写、标点、语法来评分,肯定会得到不同的结果。用来给学生反应进行评分的评估标准,是表现性测验的关键。

我过去在中学和大学学习了五年拉丁语,一年中也总会有一两次机会要使用一些拉丁词汇。所以我很在意拉丁单词“criterion'’是单数形式,而“criteria”是复数形式。但是,很多教育者将两者混淆起来,以至于我不再想去纠正。不过,现在你知道了两个单词的区别,如果你再发现你的同事错误地使用这两个词,你可以不露声色地一笑置之。

近年来,人们经常把表现性测验中的学生反应评分程序称为评分规则,或简称为规则(rubrics)。这种评分规则至少有三个方面的特点:

●评估标准。评分规则中包含用来决定学生反应质量的各种指标。

●描述评估标准在质量上的区别。对于每一条评估标准,学生反应的质量区 别到底有何表现,评分规则中都要有具体的描述。

●说明是使用整体评分法还是分项评分法。评分规则必须说清楚,评估标准 是集合在一起以整体评分法的形式使用,还是一条一条以分项评分法的形

式来使用。

应该说,评估标准的确定是开发评分规则过程中最重要的任务。假如你现在要编制一份表现性测验的评分规则,切记不要对学生反应质量提出一长串的要求。我认为,在每个规则中列举三或四个评估标准,已经有些嫌多。如果你的评估标准有很多,你可以依据重要性将其排序,然后留下两三个,其余的全部去掉。

接下去的工作就是用语言描述学生有怎样的反应可以算是优秀的或不理想的。到底这种描述要细致到什么程度,完全取决于你的需要。切记,你设计的评分规则只用于你自己的教室,而不是用于全州或全国的测验。评分规则不能令人厌烦,要使用简短的描述说明各种不同反应的质量差异,不仅教师使用起来方便,学生也可以使用。

最后,你要决定你是在考虑所有评估标准的基础上给学生一个整体的分数(整体评分法),还是依据标准逐项评分(分项评分法)。整体评分法的优点是评分速度快,它的缺陷则是在与学生交流评价结果时很难说清学生的不足在哪里,尤其是那些表现很差的学生。相对而言,分项评分法更有可能提供精确的评分和有针对性的反馈。有些教师试图将两种评分方法的优势结合起来,具体做法是先对学生的反应进行整体评分,然后(为了提供有针对性的

反馈)再对表现较差的学生的反应进行分项评分。

因为多数表现性评价需要学生相当复杂的反应,所以评分时所采用的评估标准往往不止一项。一般来说,每一项确定的评估标准都需要一个数字量表。这样,对于每一项评估标准,学生的反应都会被赋予一个具体的分值。通常,这些量表都配有语言的描述,当然也有没有描述的。举个例子来说,在一个五点量表中,语言的描述可以是:5:优秀,4:良好,3:满意,2;较差,1二不合格。而如果量表上的每一分数没有语言描述,可以使用下面的这种方式:

优秀 不令人满意

6 5 . 4 3 2 1 0

在某些情况下,评分量表也可以是非数字的,也就是只由语言的描述组成,如“优秀”、“合格”等等。尽管这种语言量表可以用于某些类型的表现性测验,但如果评分标准有多个项目,它的评分很难合成一个有意义的综合分数,这是它的一个局限性。

找出区分各种不同反应的最重要指标,是确定评分标准的关键。与其他评价方式一样,表现性测验的评估标准越少越好。真正重要的标准很少是由许多不重要的标准组成的。教师要会选择最重要的标准。如果你不能决定在某一表现性测验中选用什么标准,要主动向同事求助,让他们说说究竟什么因素最为重要,以更好地区

分优秀与不合格反应。

在本章和第十二章,我都会提供一些可以作为范例的评分规则。在这些评分规则例子中,你会发现少数几个反映教学侧重点的评估标准被单列出来。正如第十二章中所说的那样,一个好评分规则的最大收益就在于它促进了教学的改善。

两个表现性测验任务和评分系统的例子

为了帮助大家更好地认识表现性测验任务的类型以及评分方式,让我们来看两个具体的例子。第一个例子呈现在图8.3中,它要评价的是学生的口语交际技能。第二个例子呈现在图8.4中,它要测量的是本章曾经提到过的高水平历史能力(见图8.2)。这种能力被称做历史教训的运用。

给口语交际技能评分的规则将呈现在第十二章。而在“历史应用”课上给表现性测验评分的规则呈现在图8.5中。 p144.p145

p146.p147

评估和观察

在确定了评估标准之后,你就要将它们用于学生反应的评判。如果表现性测验任务要求学生生成一个某种类型的产品(如在生物课做实验后撰写的书面报告),那么你就可以在有空的时候,依据你确定的重要标准去评估产品的质量。比如,你决定使用三个标准去评估学生的生物实验报告,每个标准上给学生0—4分,那么你就可以给每个学生的报告评0—12分。你对标准的理解越清楚,对每个分数的不同意义的把握越到位,你评出来的分数就会越准确。应该说,生成产品的表现性测验是比较容易评估的。

但是,在很多情况下,表现性测验不要求学生生成某种产品,而是让学生表现某种行为。在这种表现性测验中,你要在行为发生时对其进行观察。举个例子来说,假如你是一个小学五年级的教师,在学生按要求完成了某个相当详细的社会研究项目后,你让他们在班上向同学做15分钟的口头报告。除非你用录像设备把学生的口头呈现过程录下来,否则你必须在学生口头报告的过程中观察学生的表现并予以评判。与学生产品的评估一样,在评估学生行为表现时,你也要使用你选择的标准,并确定一个合适的分数等级。

某些观察很容易做出即时的、现场的质量评判。比如,你在评判学生社会研究报告时使用(1)内容、(2)组织和(3)呈现等三个标准,学生的报告一完成,你就可以用这些标准进行观察和评判。有些情况下,你的观察也可能要延迟一点时间。比如,你要在演讲课上消除学

生的口头禅,尤其是一要开始说话就说“好”,或在说话过程中总是插入很多“啁”的情况。在观察阶段,你只需数一数学生究竟说了多少个“好”或“啁”。然后,你在学生呈现结束后的某个时间,决定学生在“避免使用口头禅”标准上的具体得分。总之,通过系统的观察你可以根据学生的表现,即时地或延迟地确定学生在你选择的评估标准上的得分。如果评估标准包括一些质性因素,先现场观察后确定评分就十分合适。

学生表现评分中的误差来源

在给学生表现评分时,有三方面因素可能导致推论不准确。第一是评分量表;第二是评分者,他们会把一些个人偏见带入评分过程;最后是评分程序方面的误差——也就是评分者使用评分量表的过程。评分工具的缺陷

多数评分工具对所用评估标准缺乏精确的描述,使评分者对评分标准的解释比较模糊,容易出现歧义,从而导致评分不可靠。例如,教师评估学生“控制”的程度,有些教师把它看做是一个积极的质量指标,而有些教师则把它看做是消极的。显然,评分方式如果没有十分清楚的阐述,就可能导致教师的评分出现问题。程序方面的缺陷

在表现性测验中给学生的反应评分通常会碰到一个问题,那就是教师要对学生反应的很多方面进行评估。在这种情况下,教师的评分往往很不科学。教师在评估中选择和使用过多条目的标准是不明智的做法。在表现性评价中,用于评估学生反应的标准不能超过三或四条。简单地说,就是评估标准越少越好。教师的个人偏见误差

在第四章中我们已经说过,评价中的偏见要尽量予以避免。尽管不是故意的,教师在给学生反应评分时还是经常出现某些偏见。常见的教师个人偏见误差有几种类型。第一种是宽松误差,指的是教师的评分高于合理的评分。即使学生的反应没有什么优点,有宽松误差倾向的教师也会说好。 p149

有些教师走向另一个极端,显示出严格误差。所谓严格误差,指的是低估学生作品质量的倾向。即使学生的作品很好,一个有这种偏见误差的人也只会给一个“中等”,甚至“中下”。

另外一种个人偏见误差是集中趋势误差,指的是教师在评分时评什么都给一个中间分数,既不给高分也不给低分。他们把分数集中在乎均数或中间数周围。他们在观念上倾向于认为这种做法不伤害任何人,因此会不自觉地给学生一个中间分数。

当教师用某一标准评估学生的结果影响了他对学生的整体印象,这就出现了一种常见的误差——晕轮效应(halo effect)。如果教师偏爱某一学生,认为某一学生好,那么他就会在很多标准上都给学生高分。同理,如果教师认为某个学生不行,他就倾向于在各种标准上都给学生低分。

克服晕轮效应的一个方法是,在评分量表中偶尔将某几个条目的高低分顺序颠倒一下,这样教师就不能不假思索地给学生一连串的高分(或低分)。为了克服晕轮效应,你需要做的就是在给学生反应评分时,注意提醒自己,尽量用具体的标准给学生的反应评分,而不是凭对学生的整体印象进行评分。

关于表现性评价,任课教师要知道些什么

表现性评价已有很长一段时间的历史。但只是最近几年,才有越来越多的教育者开始强烈地支持表现性评价的使用,这主要是因为:(1)表现性评价是传统纸笔测验的替代方式;

(2)表现性评价的任务通常是比较真实的——也就是说学生在真实世界也要遇到类似的问题。对于表现性评价,你需要理解的是,它在评价任务与你想要去推论的行为的符合程度上,与传统评价方式不同。相对而言,表现性评价与你想要去推论的行为领域更接近、更一致,因此得出的有关推论就更准确。另外值得一提的是,表现性评价确立的目标通常会影响教师的教学,改善教学活动的实际效果。

你要意识到,表现性评价需要学生付出相当多的时间,教师根据有限的学生表现所进行

的类推也不是很好。此外,你还要知道,开发一个好的表现性测验是十分困难的,确定合适的表现性测验任务、找出合适的评估标准以及编制每一标准的评分量表,都需要严谨的思考。当然,一旦测验及其相关的评分程序开始实施,你就要给学生的表现评分,这比给大量选择题评分要花费多得多的时间。

教师要经常提醒自己,注意在评分过程中避免偏见带来的误差。如果你在教室中经常使用表现性测验,从最初的观念到克服偏见完成评分,整个应用过程中的每一步都要十分小心。在第十三章,我将向大家介绍如何利用表现性测验改善教学质量。 p151

本章小结

尽管本章介绍的是表现性评价,但本章中的许多内容也可用于其他类型建构—反应题目(如论述题或简答题)的评分。表现性测验是一种测量方式,学生在这种评价任务中要生成原创的反应。在测验情境与真实生活的接近程度上,表现性测验与传统测验有明显的不同。 依据梅伦斯(1992)的分析,有三方面的影响因素激发了人们对表现性评价的兴趣,分别是:(1)对选择题的不满,(2)认知心理学的影响,和(3)传统测验对教学的消极影响。 确定合适的表现性评价任务非常重要,本章花了很大篇幅讨论这一问题,因为不合适的任务必然导致不令人满意的表现性评价。表现性测验任务是否合适主要有以下七个标准:(1)类推性、(2)真实性、(3)多重关注点、(4)可教性、(5)公平、(6)可行性和(7)可评分。要想从学生表现中得出对学生一般能力的合理推论,必须要重视任务的选择。

通过表现性任务评价的技能必须是十分重要的。接下来,我将评估标准定义为确定学生表现可接受程度的有关因素。评估标准构成了评分规则的最主要特征。选择合适的评估标准具有十分重要的意义。一旦标准确定下来,教师就可以为每条标准设计一个数字评分量表,通常有三到六个评分点。用评分标准,教师可以通过评估学生产品和观察学生行为两种形式来评估学生的反应。

在本章结尾,我指出教师在表现性测验任务评分中,会出现四种类型的评分误差,分别是宽容偏见、严格偏见、集中趋势偏见和晕轮效应。

本章的练习题,要求大家也来完成一个小的表现性测验。具体地说,现在,有一个相当简单的表现性测验任务,就是要求学生给一个外国笔友回信,向笔友描述一下“美国总统是如何选举的”,而你要为这一任务编写一份评分指导。类似的任务还有几个,都是要求学生向外国笔友描述美国政府工作中的重要程序。

现在,就你所熟悉的年级水平,草拟一份评分指导,这一评分规则要包含一个和多个评估标准,每个标准还要有评分量表。

1.表现性评价要求教师付出很多额外的努力,你认为值得吗?

2.你个人认为表现性评价最大的优势是什么?它的最大弱点又是什么?

3.你认为有哪些主题或教学目标最适合使用表现性评价?

4.你认为教师广泛使用表现性评价的可能性有多大?为什么?

5.表现性评价更容易由个别教师用于学生评价,而不是大规模的教育效果评价,你认为是这样吗?为什么?

6.在表现性测验中你会使用整体评分法还是分项评分法?为什么?

练习题答案

由于不知道你提出来的评分指导是什么样的,我没法给你一个十分具体的反馈。尽管你提供的评分指导不用像图8.5中的评分规则那么详细,但你要在草拟的评分指导中体现它的核心特点。换句话说,你要:(1)确定评估标准,(2)对标准进行描述,(3)尽可能为每一标准提供一个非常具体的、容易操作的分数量表。

如果你是在一个正式的教师培训班上做这一练习,你可以找个同学交换各自的评分指

导,互相提一下批评意见。如果你已经结婚,可以请你的配偶浏览一下你的评分指导,看一看他/她能否理解如何给学生写的信评分。如果现在你并没有结婚,只是在谈恋爱,我劝你就不要把恋人叫来和你讨论,而是一起出去吃顿饭或去看场电影。

网上资源

●科学课程的表现性评价(Performance Assessment linksin Science,PALS)是一个在线的大资源库,内容与国家科学教育标准(K-12)中列举的表现性评价任务有关。PALS提供了表现性任务、指导语、实施程序、评分细则,以及学生完成任务的样例。有关评价培训的材料也有,但不是每个任务都有。网站中列举的许多材料和程序,实际上不仅局限于科学,也可以应用于其他学科领域。网站的具体地址是www.pals.sn.com

●伯罗斯心理测量研究所(theBuros lnstitute Of Mental Measurements)位于内布拉斯加大学(theUniversityofNebraska)。它为那些使用商业测验的教育者提供有关帮助,已有60多年的历史。该研究所出版了很多著名商业性测验的参考用书。伯罗斯

表现性评价

20世纪90年代早期,许多教育决策人员十分钟情于表现性评价。表现性评价通过让学会完成某一特定任务来测量学生的状态。从理论上讲,学生在判断题中选择正确和错误也是在完成任务,尽管这一任务很简单。但是,表现性评价的支持者认为,表现性评价的测量方法与选择题测验有很大的不同。实际上,正是对传统纸笔测验的不满使许多教育者开始尝试使用表现性评价。

什么是表现性测验

表现性评价不仅要观察学生的表现,还要对学生的表现做出评判。在表现性评价中,学生要建构一种原创的反应,教师还要观察这一建构的过程。表现性评价与其他传统测验的区别主要在于引发学生真实行为表现的程度。

例如,有个教师指导学生用合作的方式解决各种问题,他想评估学生是否习得了合作技能。这里要考查的是每一个学生掌握合作技能的程度。依据评估的结果,教师可以决定某一学生是否需要额外的指导,是否可以开始新的教学任务。实际上,在这里教师真正感兴趣的是学生能否与其他学生合作,一起找到解决问题的方法。图8.1列举了五种用以评估学生合作技能的方法。但你会发现,一和二两种方法都是选择—反应评价,它们没有让学生建构任何反应。其他三种(三、四和五)虽然都是建构—反应评价,但所提供的任务与教师教学目标相一致的程度有明显的不同。具体地说,第五种方法与教学目标所要求的行为最接近,而第4种方法与第一种方法相比就更具有表现性测验的特点。

不难看出,不同的教育者在用“表现性评价”这个词表示不同的评价方法。有些教师把简答题和论述题测验作为一种表现性评价的形式,也就是说他们基本上把表现性评价等同于各种形式的建构—反应评价;有些教师则使用比较严格的表现性评价概念。很多表现性评价的支持者主张,真正的表现性评价必须至少具备以下三个特征:

●多重评估标准。学生表现的评判必须依据多个评估标准。举个例子来说,一 个学生说西班牙语的能力要从口音、句法、词汇三个方面进行评估。

●预定的质量标准。用以评判学生表现的每一条评估标准,必须在评判之前 就已十分具体、明确。

●主观的评估。真正的表现性评价与选择题的评分不同,它不能借助于计算 机和扫描仪,它要依靠人的经验和智慧来决定学生表现的可接受程度。

回头去看图8.1,如果用上述三个条件来衡量图中提供的五种评价方法,我们不难发现,第五种方法是表现性测验,第四种方法也算,但其他三种就不符合要求了。

很多表现性评价的支持者指出,提供给学生的任务应当是能代表真实世界而不是校园世界的问题;其他支持者则认为,校园世界的测量都应是建构—反应的,而不是选择题;还有一些支持者主张表现性测验中的任务应当是十分严谨的,要以布卢姆的目标分类学为指导。总之,表现性评价的支持者所主张的方法实际上是各不相同的。

你有时候可能会碰到有人使用其他词来称呼表现性评价。比如,有些人可能会使用真实性评价(authentic assessment)(因为评价任务比较接近真实酌生活)或替代性评价(因为这种评价构成了传统纸笔测验的一种替代方式)。下一章,我们将介绍的成长记录袋评价是表现性评价的一种类型,不能被看做是表现性评价的又一称呼方法。

为什么要使用表现性评价

之所以许多人倡导使用表现性评价,影响因素有很多。杰出的教育测量专家梅伦斯(Mehrens,1992)曾提出一系列教育者赞同使用表现性评价的理由,下面列举的是他认为比较重要的三个方面:

●对选择一反应测验的不满。表现性评价的支持者认为选择题和判断题只能 考查学生的再认能力,不能有效地测量学生的高水平思维技能,如学生能

否解决问题、综合或独立思考。尽管也有人批评选择—反应测验是不公平

的或只能考查不重要的内容,但最为常见的批评意见是学生只需要选择一

个答案。

●认知心理学的影响。认知心理学家认为,学生不仅要获得内容知识,还要

获得程序性知识。他们指出,所有的认知任务都需要两种类型的知识,但

不同类型任务的侧重点不同(Snow & Lohman,1989)。因为学生程序性

知识的获得已越来越成为教学的重点,而某些类型的程序性知识却不能通

过选择—反应测验来评价,许多认知心理学家都倡导在教育中应用表现性

评价。●传统测验对教学的消极影响。由于教育评价的高利害性,教师倾向于把测 验中所要求的内容作为教学的重点。结果学生测验的得分提高了,但知识 与技能的掌握情况却没有什么改善,特别是在教师只按测验要求组织教学 的时候。多数教育者已认识到高利害测验将会持续影响教师的教学。他们认为,相对于传统的纸笔测验而言,表现性评价更能对教师的教学目标构成积极的影响。如果在高利害评价中合理使用表现性测验,教师教学活动的重心将会发生积极的转变。 p138

类似的意见还可以列举出很多,但实际上梅伦斯(1992)的分析已经把支持表现性评价的主要理由阐释清楚了。梅伦斯非常支持教师在课堂评价中使用表现性评价,因为他认为这种评价可以明显地改进教师的教学。不过,他对在教育效果评估中使用表现性评价持怀疑态度。 现在我们开始讨论表现性评价的两个核心问题:给学生选择适当的任务,以及学生完成任务后评判学生反应的满意程度。

确定适当的表现性评价任务

一般来说,表现性评价需要学生完成一定数量的比较有意义的任务,而不是大量并不是很重要的任务。比如,在化学测验中,学生不用再像原来那样完成50道选择题,而是在化学课上操作一个实际的实验,然后撰写报告分析实验程序和解释实验结果。从化学教师的观点来看,对每一学生学习状况的评估必须以学生在完成某个单一或复杂任务中的表现为依据,而不能凭借学生在选择题测验中的反应来做出判断。正是由于表现性测验的任务具有重要意义,教师在选择表现性评价任务 (performance-assessment tasks)时必须非常谨慎。基本上,教师可以自己设计表现性测验任务,也可以根据需要从现成的表现性评价任务中进行选择。推论和任务

本书已经反复强调过,教师评价学生要明确以下两个主要问题:(1)教师要得出什么样的评价推论;(2)教师依据评价推论做什么决定。举个例子来说,假如你是个历史教师,你连在湖滨小屋度假时都在考虑一些有关课程的问题。三个月后,你拿定主意,你要教学生学会将所学的历史知识用于解决实际问题,这些问题可能是当前的,也可能是未来的,但它们都在一定程度上与历史事实有关。于是你决定放弃原来被学生称为“测验马拉松”的期末测验,不再花一个星期的时间让学生完成1500多道判断题。现在,你要采用表现性评价策略,希望选择一个适当的表现性测验任务,帮助你考查学生运用历史知识解决当前和/或未来问题的能力。

图8.2是一个关系图,涉及的变量主要是:(1)一个教师的核心教学目标,(2)教师希望得出的学生评价推论和(3)用来获取数据以支持评价推论的表现性测验任务。你会发现,教师的教学目标是评价推论的依据,而表现性任务产生了教师达成评价意见的证据。根据学生对教学目标的掌握程度,教师可以确定下一步教学的

内容与安排。类推性的困境

表现性评价面临的最大问题是难以准确地类推出学生掌握知识与技能的情况,因为表现

性评价与传统纸笔测验不同,它的任务数量一般很少。

为了说明这一问题,我们假设你正在关注学生计算两位数乘法的能力。如果出于教学上的考虑,你只能用半个小时的时间来评价学生,你可以要求学生在30分钟内完成20道乘法题。(题目可能有点偏多,但我是想给大家一个鲜明的对比。)通过学生的答卷,你可以公平地评价每一学生两位数乘法的掌握情况。由于测验题目是从评价内容领域抽取的一个有代表性的样本,你可以依据学生的表现得出结论,比如“贾维尔(Javier)真正掌握了乘法题”,或“弗雷德(Fred)不能解决两位数乘法问题”。正是因为你的抽样是合理的,你可以自信地推论出学生解决类似类型乘法问题的能力。但是,同样只有30分钟的时间,如果你使用比较正规的表现性测验,你只能让学生完成一个表现性任务。例如,你呈现给学生一个涉及具体操作的以乘法为主的实际数学问题,让学生先给出初步的解决方案,然后用纸笔写出这一过程。应该说,如果学生能在半小时内完成那实在是十分困难的。而且,单凭这一单一的任务,你能做出关于学生能否完成其他类似任务的推论吗?

正如你所见到的,这就是表现性测验的一个突出问题。因为学生只完成少数几个任务,教师很难作出关于学生一般能力的合理推论。如果你只使用一个表现性测验,倘若学生表现出色,是因为他真正掌握了所测量的技能,还是他运气好呢?另一方面,如果学生在单一的表现性测验中表现得一塌糊涂,是因为他没有真正掌握所评估的技能,还是这一特定表现性任务的特点误导了学生,而他在其他任务中实际上表现得相当出色呢?

作为一名教师,你会面临测量上的两难选择。尽管表现性测验可以测量到你所要评价的学生能力,但依据学生在表现性测验中的表现做推论必须十分谨慎。我们至今尚未找到解决或避免这一问题的方法,但至少你可以在处理这一两难困境时尽可能小心一些,在选择表现性测验任务时尤其要谨慎。在选择表现性任务时最重要的考虑应该是提高准确类推学生能力的可能性。如果你总是在选择/建构表现性测验任务过程中着重考虑类推性问题,你就能够做出一个强有力的推论。 评估表现性测验任务需要考虑的若干因素

现在,我们已讨论完类推性的问题,许多测量专家认为这是教师评判表现性评价任务的最为重要的因素。下面一个问题是,无论你选择一个已有的表现性测验任务,还是自己生成一个表现性测验任务,都可能会考虑下面七个方面的因素。

评估表现性测验任务的标准

●类推性。学生在这一任务上的表现能在多大程度上类推学生在类似任务中的表现? ●真实性。这一任务是否接近学生生活的真实情境,而不是校园情境?

●多重关注点。这一任务能不能测量多方面的教学成果?

●可教性。学生能熟练完成这一任务,是教师教学努力的结果吗?

●公平。这一任务对所有学生都是公平的吗?——就是说这一任务是否避免了对学生性别、种族和社会经济背景等个人特点的歧视?

●可行性。考虑到财力、空间、时间和设备等方面的因素,这一任务是可以实施的吗? ●可评分。这一任务能否让学生表现出可以准确、可靠地予以评估的反应?

无论你是自己设计表现性测验任务,还是选用已有的任务,你可能只考虑到上述七个因素中的几个。我个人认为,确定表现性测验任务要设法考虑所有七个因素,但有时候我们也可能需要对某些因素(如真实性或多重关注点)少一些考虑。比如,在某些情况下,校园情境比真实生活情境更适合教师作出某些推论,真实性标准就不再那么重要了。又如,考虑到每一表现性测验都牵扯很多时间和精力,能在同一时间测量多方面的成果确实很经济,但有时候某一单一的教育产出非常重要,这就需要关注点单一的表现性测验。不过,上述两种情况并不多见,一个真正好的表现性测验任务应该符合所有七个评估标准。表现性测验与教师时间

在第一章,我曾声称,如果你认真阅读完这本书,你将成为一个优秀的教师。

现在,我又有另外一个承诺,那就是“诚实”,我会说出对我们正在探讨的测量方法的真实意见。关于表现性测验,我认为它很花时间!

作为一名教师,使用表现性评价要在以下几方面投入时间:(1)选择适当的任务;(2)制定合适的给学生反应评分的计划;(3)对学生反应的实际评分。与已经使用过表现性测验的教师交谈,你会发现表现性评价的应用需要大量时间。

因此,我给大家一个建议,当你使用表现性评价时要考虑另外一个因素,那就是你所要评价的技能的重要性。由于你只能在教学过程中使用有限的几次表现性测验,你要确保你的每一次表现性测验都能涉及最为重要的技能,而这些技能正是你试图让学生获得的。如果表现性测验不是在评价十分重要的技能,你最好赶快终止它,坦率地说,这样做得不偿失。 确定评分标准

表现性评价始终遵循建构—反应测量的要求,学生在评价中要生成而不是选择反应。但是学生建构的反应必须要进行评分,而这种评分比选择性反应的评分要难得多。建构—反应的评分要根据评估标准。现在,让我们来关注用来考查学生在表现性测验中反应质量的评估标准。

所谓标准,韦伯大词典将其解释为“评判或决定所依据的规格”。给学生在表现性测验任务中的表现评分,就是试图评判学生建构性反应的满意程度。显然,评判所依据的具体标准会影响教师给学生反应评分的方式。比如,你依据组织、用词和表达的清晰程度来给学生的作文评分,与你依据拼写、标点、语法来评分,肯定会得到不同的结果。用来给学生反应进行评分的评估标准,是表现性测验的关键。

我过去在中学和大学学习了五年拉丁语,一年中也总会有一两次机会要使用一些拉丁词汇。所以我很在意拉丁单词“criterion'’是单数形式,而“criteria”是复数形式。但是,很多教育者将两者混淆起来,以至于我不再想去纠正。不过,现在你知道了两个单词的区别,如果你再发现你的同事错误地使用这两个词,你可以不露声色地一笑置之。

近年来,人们经常把表现性测验中的学生反应评分程序称为评分规则,或简称为规则(rubrics)。这种评分规则至少有三个方面的特点:

●评估标准。评分规则中包含用来决定学生反应质量的各种指标。

●描述评估标准在质量上的区别。对于每一条评估标准,学生反应的质量区 别到底有何表现,评分规则中都要有具体的描述。

●说明是使用整体评分法还是分项评分法。评分规则必须说清楚,评估标准 是集合在一起以整体评分法的形式使用,还是一条一条以分项评分法的形

式来使用。

应该说,评估标准的确定是开发评分规则过程中最重要的任务。假如你现在要编制一份表现性测验的评分规则,切记不要对学生反应质量提出一长串的要求。我认为,在每个规则中列举三或四个评估标准,已经有些嫌多。如果你的评估标准有很多,你可以依据重要性将其排序,然后留下两三个,其余的全部去掉。

接下去的工作就是用语言描述学生有怎样的反应可以算是优秀的或不理想的。到底这种描述要细致到什么程度,完全取决于你的需要。切记,你设计的评分规则只用于你自己的教室,而不是用于全州或全国的测验。评分规则不能令人厌烦,要使用简短的描述说明各种不同反应的质量差异,不仅教师使用起来方便,学生也可以使用。

最后,你要决定你是在考虑所有评估标准的基础上给学生一个整体的分数(整体评分法),还是依据标准逐项评分(分项评分法)。整体评分法的优点是评分速度快,它的缺陷则是在与学生交流评价结果时很难说清学生的不足在哪里,尤其是那些表现很差的学生。相对而言,分项评分法更有可能提供精确的评分和有针对性的反馈。有些教师试图将两种评分方法的优势结合起来,具体做法是先对学生的反应进行整体评分,然后(为了提供有针对性的

反馈)再对表现较差的学生的反应进行分项评分。

因为多数表现性评价需要学生相当复杂的反应,所以评分时所采用的评估标准往往不止一项。一般来说,每一项确定的评估标准都需要一个数字量表。这样,对于每一项评估标准,学生的反应都会被赋予一个具体的分值。通常,这些量表都配有语言的描述,当然也有没有描述的。举个例子来说,在一个五点量表中,语言的描述可以是:5:优秀,4:良好,3:满意,2;较差,1二不合格。而如果量表上的每一分数没有语言描述,可以使用下面的这种方式:

优秀 不令人满意

6 5 . 4 3 2 1 0

在某些情况下,评分量表也可以是非数字的,也就是只由语言的描述组成,如“优秀”、“合格”等等。尽管这种语言量表可以用于某些类型的表现性测验,但如果评分标准有多个项目,它的评分很难合成一个有意义的综合分数,这是它的一个局限性。

找出区分各种不同反应的最重要指标,是确定评分标准的关键。与其他评价方式一样,表现性测验的评估标准越少越好。真正重要的标准很少是由许多不重要的标准组成的。教师要会选择最重要的标准。如果你不能决定在某一表现性测验中选用什么标准,要主动向同事求助,让他们说说究竟什么因素最为重要,以更好地区

分优秀与不合格反应。

在本章和第十二章,我都会提供一些可以作为范例的评分规则。在这些评分规则例子中,你会发现少数几个反映教学侧重点的评估标准被单列出来。正如第十二章中所说的那样,一个好评分规则的最大收益就在于它促进了教学的改善。

两个表现性测验任务和评分系统的例子

为了帮助大家更好地认识表现性测验任务的类型以及评分方式,让我们来看两个具体的例子。第一个例子呈现在图8.3中,它要评价的是学生的口语交际技能。第二个例子呈现在图8.4中,它要测量的是本章曾经提到过的高水平历史能力(见图8.2)。这种能力被称做历史教训的运用。

给口语交际技能评分的规则将呈现在第十二章。而在“历史应用”课上给表现性测验评分的规则呈现在图8.5中。 p144.p145

p146.p147

评估和观察

在确定了评估标准之后,你就要将它们用于学生反应的评判。如果表现性测验任务要求学生生成一个某种类型的产品(如在生物课做实验后撰写的书面报告),那么你就可以在有空的时候,依据你确定的重要标准去评估产品的质量。比如,你决定使用三个标准去评估学生的生物实验报告,每个标准上给学生0—4分,那么你就可以给每个学生的报告评0—12分。你对标准的理解越清楚,对每个分数的不同意义的把握越到位,你评出来的分数就会越准确。应该说,生成产品的表现性测验是比较容易评估的。

但是,在很多情况下,表现性测验不要求学生生成某种产品,而是让学生表现某种行为。在这种表现性测验中,你要在行为发生时对其进行观察。举个例子来说,假如你是一个小学五年级的教师,在学生按要求完成了某个相当详细的社会研究项目后,你让他们在班上向同学做15分钟的口头报告。除非你用录像设备把学生的口头呈现过程录下来,否则你必须在学生口头报告的过程中观察学生的表现并予以评判。与学生产品的评估一样,在评估学生行为表现时,你也要使用你选择的标准,并确定一个合适的分数等级。

某些观察很容易做出即时的、现场的质量评判。比如,你在评判学生社会研究报告时使用(1)内容、(2)组织和(3)呈现等三个标准,学生的报告一完成,你就可以用这些标准进行观察和评判。有些情况下,你的观察也可能要延迟一点时间。比如,你要在演讲课上消除学

生的口头禅,尤其是一要开始说话就说“好”,或在说话过程中总是插入很多“啁”的情况。在观察阶段,你只需数一数学生究竟说了多少个“好”或“啁”。然后,你在学生呈现结束后的某个时间,决定学生在“避免使用口头禅”标准上的具体得分。总之,通过系统的观察你可以根据学生的表现,即时地或延迟地确定学生在你选择的评估标准上的得分。如果评估标准包括一些质性因素,先现场观察后确定评分就十分合适。

学生表现评分中的误差来源

在给学生表现评分时,有三方面因素可能导致推论不准确。第一是评分量表;第二是评分者,他们会把一些个人偏见带入评分过程;最后是评分程序方面的误差——也就是评分者使用评分量表的过程。评分工具的缺陷

多数评分工具对所用评估标准缺乏精确的描述,使评分者对评分标准的解释比较模糊,容易出现歧义,从而导致评分不可靠。例如,教师评估学生“控制”的程度,有些教师把它看做是一个积极的质量指标,而有些教师则把它看做是消极的。显然,评分方式如果没有十分清楚的阐述,就可能导致教师的评分出现问题。程序方面的缺陷

在表现性测验中给学生的反应评分通常会碰到一个问题,那就是教师要对学生反应的很多方面进行评估。在这种情况下,教师的评分往往很不科学。教师在评估中选择和使用过多条目的标准是不明智的做法。在表现性评价中,用于评估学生反应的标准不能超过三或四条。简单地说,就是评估标准越少越好。教师的个人偏见误差

在第四章中我们已经说过,评价中的偏见要尽量予以避免。尽管不是故意的,教师在给学生反应评分时还是经常出现某些偏见。常见的教师个人偏见误差有几种类型。第一种是宽松误差,指的是教师的评分高于合理的评分。即使学生的反应没有什么优点,有宽松误差倾向的教师也会说好。 p149

有些教师走向另一个极端,显示出严格误差。所谓严格误差,指的是低估学生作品质量的倾向。即使学生的作品很好,一个有这种偏见误差的人也只会给一个“中等”,甚至“中下”。

另外一种个人偏见误差是集中趋势误差,指的是教师在评分时评什么都给一个中间分数,既不给高分也不给低分。他们把分数集中在乎均数或中间数周围。他们在观念上倾向于认为这种做法不伤害任何人,因此会不自觉地给学生一个中间分数。

当教师用某一标准评估学生的结果影响了他对学生的整体印象,这就出现了一种常见的误差——晕轮效应(halo effect)。如果教师偏爱某一学生,认为某一学生好,那么他就会在很多标准上都给学生高分。同理,如果教师认为某个学生不行,他就倾向于在各种标准上都给学生低分。

克服晕轮效应的一个方法是,在评分量表中偶尔将某几个条目的高低分顺序颠倒一下,这样教师就不能不假思索地给学生一连串的高分(或低分)。为了克服晕轮效应,你需要做的就是在给学生反应评分时,注意提醒自己,尽量用具体的标准给学生的反应评分,而不是凭对学生的整体印象进行评分。

关于表现性评价,任课教师要知道些什么

表现性评价已有很长一段时间的历史。但只是最近几年,才有越来越多的教育者开始强烈地支持表现性评价的使用,这主要是因为:(1)表现性评价是传统纸笔测验的替代方式;

(2)表现性评价的任务通常是比较真实的——也就是说学生在真实世界也要遇到类似的问题。对于表现性评价,你需要理解的是,它在评价任务与你想要去推论的行为的符合程度上,与传统评价方式不同。相对而言,表现性评价与你想要去推论的行为领域更接近、更一致,因此得出的有关推论就更准确。另外值得一提的是,表现性评价确立的目标通常会影响教师的教学,改善教学活动的实际效果。

你要意识到,表现性评价需要学生付出相当多的时间,教师根据有限的学生表现所进行

的类推也不是很好。此外,你还要知道,开发一个好的表现性测验是十分困难的,确定合适的表现性测验任务、找出合适的评估标准以及编制每一标准的评分量表,都需要严谨的思考。当然,一旦测验及其相关的评分程序开始实施,你就要给学生的表现评分,这比给大量选择题评分要花费多得多的时间。

教师要经常提醒自己,注意在评分过程中避免偏见带来的误差。如果你在教室中经常使用表现性测验,从最初的观念到克服偏见完成评分,整个应用过程中的每一步都要十分小心。在第十三章,我将向大家介绍如何利用表现性测验改善教学质量。 p151

本章小结

尽管本章介绍的是表现性评价,但本章中的许多内容也可用于其他类型建构—反应题目(如论述题或简答题)的评分。表现性测验是一种测量方式,学生在这种评价任务中要生成原创的反应。在测验情境与真实生活的接近程度上,表现性测验与传统测验有明显的不同。 依据梅伦斯(1992)的分析,有三方面的影响因素激发了人们对表现性评价的兴趣,分别是:(1)对选择题的不满,(2)认知心理学的影响,和(3)传统测验对教学的消极影响。 确定合适的表现性评价任务非常重要,本章花了很大篇幅讨论这一问题,因为不合适的任务必然导致不令人满意的表现性评价。表现性测验任务是否合适主要有以下七个标准:(1)类推性、(2)真实性、(3)多重关注点、(4)可教性、(5)公平、(6)可行性和(7)可评分。要想从学生表现中得出对学生一般能力的合理推论,必须要重视任务的选择。

通过表现性任务评价的技能必须是十分重要的。接下来,我将评估标准定义为确定学生表现可接受程度的有关因素。评估标准构成了评分规则的最主要特征。选择合适的评估标准具有十分重要的意义。一旦标准确定下来,教师就可以为每条标准设计一个数字评分量表,通常有三到六个评分点。用评分标准,教师可以通过评估学生产品和观察学生行为两种形式来评估学生的反应。

在本章结尾,我指出教师在表现性测验任务评分中,会出现四种类型的评分误差,分别是宽容偏见、严格偏见、集中趋势偏见和晕轮效应。

本章的练习题,要求大家也来完成一个小的表现性测验。具体地说,现在,有一个相当简单的表现性测验任务,就是要求学生给一个外国笔友回信,向笔友描述一下“美国总统是如何选举的”,而你要为这一任务编写一份评分指导。类似的任务还有几个,都是要求学生向外国笔友描述美国政府工作中的重要程序。

现在,就你所熟悉的年级水平,草拟一份评分指导,这一评分规则要包含一个和多个评估标准,每个标准还要有评分量表。

1.表现性评价要求教师付出很多额外的努力,你认为值得吗?

2.你个人认为表现性评价最大的优势是什么?它的最大弱点又是什么?

3.你认为有哪些主题或教学目标最适合使用表现性评价?

4.你认为教师广泛使用表现性评价的可能性有多大?为什么?

5.表现性评价更容易由个别教师用于学生评价,而不是大规模的教育效果评价,你认为是这样吗?为什么?

6.在表现性测验中你会使用整体评分法还是分项评分法?为什么?

练习题答案

由于不知道你提出来的评分指导是什么样的,我没法给你一个十分具体的反馈。尽管你提供的评分指导不用像图8.5中的评分规则那么详细,但你要在草拟的评分指导中体现它的核心特点。换句话说,你要:(1)确定评估标准,(2)对标准进行描述,(3)尽可能为每一标准提供一个非常具体的、容易操作的分数量表。

如果你是在一个正式的教师培训班上做这一练习,你可以找个同学交换各自的评分指

导,互相提一下批评意见。如果你已经结婚,可以请你的配偶浏览一下你的评分指导,看一看他/她能否理解如何给学生写的信评分。如果现在你并没有结婚,只是在谈恋爱,我劝你就不要把恋人叫来和你讨论,而是一起出去吃顿饭或去看场电影。

网上资源

●科学课程的表现性评价(Performance Assessment linksin Science,PALS)是一个在线的大资源库,内容与国家科学教育标准(K-12)中列举的表现性评价任务有关。PALS提供了表现性任务、指导语、实施程序、评分细则,以及学生完成任务的样例。有关评价培训的材料也有,但不是每个任务都有。网站中列举的许多材料和程序,实际上不仅局限于科学,也可以应用于其他学科领域。网站的具体地址是www.pals.sn.com

●伯罗斯心理测量研究所(theBuros lnstitute Of Mental Measurements)位于内布拉斯加大学(theUniversityofNebraska)。它为那些使用商业测验的教育者提供有关帮助,已有60多年的历史。该研究所出版了很多著名商业性测验的参考用书。伯罗斯


相关内容

  • 谈语文综合性学习中的表现性评价
  • 自新课标实施以来,学生的学习不再像以前那样单调乏味,更多的是充满活力与激情,这就意味着先前评价学生学习成果的方式逐渐不再适用,所以老师们都在致力于寻求新的适合的评价方式.20世纪90年代,在美国兴起一种新型的评价方式,它摒弃了那些利用纸笔测试学生的观念,改为利用一项实际任务来对学生能力行为进行直接的 ...

  • 探究性学习评价的原则.内容和方法
  • 作者:刘久成    文章来源:<教育科学研究>2004年第4期 [摘 要]探究性学习评价是探究性学习的有机组成部分,通过评价可以进一步发挥学生的主体性,促进学生的可持续发展.评价的内容包括知识与技能,过程与方法,情感.态度和价值观.可以运用课堂观察.成果展示.表现性评价和档案袋评价等多种 ...

  • 课堂教学评价
  • 课堂教学评价 余林主编 人民教育出版社 2007年2月第1版 第一章 课堂教学评价概论 课堂教学评价是促进学生成长.教师专业发展和提高课堂教学质量的重要手段.课堂教学评价包括教与学两个方面的评价,主要体现为对教学过程与教学结果进行评价.要进行课堂教学评价,必须弄清楚三个主要问题,即为什么要进行课堂教 ...

  • 蓉园小学2009秋表现性学习评价总结
  • 开学初,我设定了以依托教材、立足过程、多元评价、注重实效为主的表现性评价方案的设计,一个学期很快过去了,现就这期来的表现性学习评价做一个总结。 依托教材,突出开放性 新课标实验教材从学生的生活逻辑出发,选择与学生生活关系密切的丰富活泼的生活素材,按照一定的时空顺序设置学习内容,构筑了为学生创设了真心 ...

  • 第八章美术课程与教学评价
  • 第八章 美术课程与教学评价 第一节 美术课程与教学评价概述 一.美术课程与教学评价的含义 所谓评价,就是根据一定的评价目标和评价内容,运用一定的评价方法,收信与评价相关的数据及资料,并对此进行分析和判断.所谓课程与教学评价,就是依据一定的教育目标,运用一定的评价技术.评价手段和评价途径,通过系统的收 ...

  • 体育课程学习评价76doc
  • 理 论 课 教 案 Ⅰ.组织教学(2分钟): 了解学生考勤情况: Ⅱ.检查复习(4分钟): 提问: 1.体育课程学习的特点. 2.体育课程学习的过程. Ⅲ.课题引入(2分钟): 体育课程学习评价应以人为本,以尊重学生的人格为前提,注重学生的全面发展,培养学生的自尊和自信,淡化学生之间的评比,帮助学生 ...

  • 浅析课堂表现性评价任务设计
  • 龙源期刊网 http://www.qikan.com.cn 浅析课堂表现性评价任务设计 作者:干方平 来源:<职业·中旬>2014年第03期 摘 要:职业技术教育的特点要求对学生评价不仅仅局限于基本知识的测试,更注重学生实际操作和解决问题能力的养成,由此表现性评价应运而生.编制设计引发学 ...

  • 小学语文课堂即时评价的建议
  • 摘 要 小学语文是义务教育中的一门重要的基础学科,教好这门学科,对于学生学习其他各门学科,获取新的知识具有重要影响.教师在语文课堂中即时评价的恰当与否将直接影响学生的学习效果.为促进学生的整体进步和全面发展,教师必须对课堂中的即时评价给予高度重视,改变传统的错误评价方式,合理恰当地进行即时评价. 关 ...

  • 综合实践活动表现性评价策略研究评价量表
  • 学生采访情况评价表 操作要点:此表的设计旨在对学生的采访活动进行方法上的指导,将评价与指导整合在一起,体现出形成性评价的导向功能及多元评价的思想.此表在学生提出采访要求或采访计划时发给学生,在填写前注意指导学生哪些部分适宜于采访前完成,哪些部分适宜在采访中完成,哪些部分适宜于在采访后完成.此表是学生 ...