1
作文题目你懂吗
6月17日那一天是上海中考开始的一天。我从朋友圈看到我的一个学生——已经是一位资深的语文教师,发了她送考的截图,并且留言:
黄梅时节家家雨,
中考之季处处顺。
有信不回莫多虑,
助考失联需三昼。
我边看边笑。随手写下了几句:
黄梅时节家家雨,
学校门口处处娃。
考罢出门问邻座,
作文题目你懂吗?
结果那一天揭晓的上海中考的作文题目是《会心之乐》,有人评价“这个题目不比高考容易。”我想到了2008年,上海是高考作文题目是《他们》,而中考的作文题是《我眼中的色彩》,那一年我被任命去负责中考阅卷。我也觉得“中考作文反而比高考难写。”这一年正值汶川大地震,所以许多学生写了地震那件事。
由于各种原因,我每年都很关心从小学到中学的各种各样的考试。但是,我从来不对各种考试发表评论,有了想法,也只和几个老朋友交流一下。
原因是因为我知道命题这件事不容易。从1999年笔者第一次参加上海的高考语文命题至今,已经快25年了。在此之前,我曾在各种报纸杂志、学报上发表过批评“标准化试题”的文章,而且有的文章观点偏激,语气也很偏颇。
自从参加命题以后才知道命题这件事实际是很难的。资深的特级教师褚老师告诫我:“小赵,你现在知道命题的难处了吧。我们五个人命题,上海有近十万考生,加上家长,几十万人盯住你,稍有差池,影响社会安定。所以,怎么能不稳妥一点呢?”
那时候,网络还不像现在这么发达,手机还没有如此普及。从那以后,我不再写文章批评高考中考了。我常常用宋代杨亿的《咏傀儡》来调侃自己:
鲍老当筵笑郭郎,
笑他舞袖太郎当。
若教鲍老当筵舞,
转更郎当舞袖长。
我们家乡有句话叫:“看人挑担不吃力”。没有命过题的人是无法理解那种紧张情绪的。
2
闲人说说闲话
但是,不发表文章不等于没有想法,特别是上海近年来的高中年级,“大考三六九,小考天天有”,动辄还要“统考”“统一阅卷”,教师已经没有出题目考查自己学生的权力了。

高考以前有“一模”、“二模”,有的还有“三模”,有的三模以后,学校还要加班一次,而且题目越出越难,越怪。这种考试已经有悖“教育评价”的基本原理,严重干扰了正常的语文教学了。使学生处于“高度的焦虑”之中,学习效率降低,严重的还会出现心理问题;教师也不能幸免。
一位老朋友对我说,你是搞语文教育的,你是不是可以从学理上谈谈考试评价问题。
我想到了梅特里《人是机器》里的一段话:“一个明智的人,仅仅自己研究自然和真理是不够的,他应该敢于把真理说出来,帮助少数愿意思想并且能够思想的人;因为其余甘心作偏见的奴隶的人,要他们接近真理,原来不比要比蛤蟆飞上天更容易。”
我听了朋友的劝告,想想也是,我从第一次出高考题以后,为了弄明白“教育评价”这个问题,曾经花了一年时间通读布卢姆的《教育评价》(见书影)一书。

九十年代末,新课改开始时,华东师大中文系受教育部委托,曾对全国30多个地区中考试卷进行评估。这个工作从1999年到2003年,这四年中,我受我们系主任巢老师委托,读过全部考卷,四年的总报告都是我起草撰写,然后由巢老师审阅的。这些报告后来都编成了书,有案可查。布卢姆的书对我帮助很大。
2003年,老友区培民教授出版她的专著《语文课程》一书(见书影),邀请我为她撰写了第八章,字数大约也有五万。

2010年王尚文先生命我为他编写的高等教育出版社的教材《中学语文教学研究》(见书影)一书写《语文教学评价》这一部分,也约有四万余字。

这样说来,我说说语文考试这件事,也不算“思出其位”吧。加上我对中国古代科举考试的种种也比较了解,所以想用通俗易懂的话,讲几个基本问题,给有兴趣的朋友看看。虽然,因为笔者是小人物,讲了也白讲。“谈谈终究不过是谈谈”,不妨闲人说说闲话吧。
3
试题出得越难,水平越高吗?
每年高考前,各地都有“模拟考”,我不太关心外地的考试,但上海的各种试卷还是经常留心的。总觉得现在的考题一年比一年难,不仅仅语文,数理化也是。就语文而言,我觉得各区的试卷要比正式高考难。甚至有时候,一些市示范性高中的平均分还不到90分(其实就不及格)。我不知道这是出于什么动机考虑的。大约是让考生绷紧那根“弦”吧。但是,如果一张试卷太容易或者太难,那么就会失去它的测试价值。更不用说,它的副作用还会影响考生的情绪,增加他们的焦虑感,反而使学习失去效率。
这里简单谈一点原理。上世纪八十年代以来,布卢姆的《教育评价》被引进到中国来,这与他的“教育目标分类学”“为掌握而学习”理论一样,成为大学和研究机构的“显学”。其实他的理论在世界上很多国家流行。其实,理论有没有用,关键看能不能指导我们的实践,而不是单靠宣传。我觉得,布卢姆的教育评价理论和“为掌握学习”(包括为掌握而教)的理论是非常有用的。此处不赘述。严格说起来,“教学评价”是属于“教育评价”的一部分,两者不是同一回事。我讲的主要是前者。
1. 关于试卷的“信度”
所谓“信度”,就是测试的可靠性程度。
简单地说,就是一套试题,测试一个班级学生,成绩分布为“好、中、差”,测试多少次,这种分布,大体都是一样的,这就是有信度的。反之,第一次测试得“A”的人,下一次却得“C”,再测一次,名次又发生变化了,这套试题就是没有信度的。
设计的试题要有信度,有好几个条件,当然最重要的是它题目涉及知识必须准确无误;阅卷要有统一的标准。例如如果把“古体诗”当作“近体诗”考,或者一个阅读题的答案不确定,那么这种试题就没有“信度”;教师单凭字的好坏就决定一个学生文章的分数,也是缺乏信度的。1、所考的东西就是课堂里所教的,须出自教材;(所以,平时考试与作为选拔考试的中考、高考要严格分开,这个问题涉及到不同类型的考试,以后有机会再讲。)2、所涉及的知识是准确无误的。3、每道题的题干要明确,不能有歧义。4阅卷必须坚持公正公平。
2. 关于“效度
效度也称,可依据性,它”依赖于“信度”(可靠性),也就是说后者是前者的必要条件,没有信度或者信度不足的试题,一定没有“效度”或效度不足。但是有信度的未必有效度。
例如,标准化试题的信度较高,但是它测试语文的效度不一定高,因为它只能测试结果,很难测试思维过程,简单地说,缺少写作(布卢姆称之为“论文性试题”)就很难测出学生的写作能力和思维能力。
从实际看,选择题还可以凭藉题干猜测,这就有了偶然性。简言之,检验一次考试是不是有效度,就是看分数是否反映考生的真实水平。以语文为例,得高分的学生要比低分的学生语文水平要高。而且这种分数,可以为后来的教师判断学生作为依据。例如,中考得语文高分的学生,将来到高中时,语文成绩也必须好,这样的考试才有效度,否则就是效度不足的。
3. 再说说“区分度”
这个比较容易理解,即一次测试要把学生(好、中、差)的水平区分出来,有区分度的考试才是有效度的。
所以,一次考试,要有效度,就必须做到这么几点:
一、编制的试题要有信度;
二、难易度要适当;
三、阅卷要有统一的标准,不能有随意性;
四、考试的结果是有区分度的。
太容易的试卷和太难的试卷都是没有测试效度的,因为两者都是没有区分度的。例如,150分的考卷,两个班级八十个人,平均分只有八十分,绝大部分人都不及格,那么这个测试太难了,就是没有效度的;反之,两个班级平均分达到120分以上,百分之八十的人达到130分以上,那么这个测试太容易了,当然也是没有效度的。太难的试卷与太容易的试卷,吃亏的总是那些好学生,而非落后生。
一次考试有没有效度,除了试卷本身的质量以外,还需要阅卷者的公平公正,这对语文试卷来说尤为重要。因为语文的现代文的主观性试题和作文常常是一种 价值判断 ,而不是科学的 真伪判断 。所以有些学校自己组织同年级的任课教师来阅卷,大家相互阅别人班级的试卷,这样的阅卷还有什么效度可言?同理,区组织是阅卷,大家相互阅对方学校的试卷,结果会怎么样?
旧时代科举乡试、会试的阅卷,需要誊录、弥封,让阅卷者认不出笔迹,就是这个道理。
所以,一张试卷出得有没有水平,与试卷的难度是没有关系的。那种认为自己出的试题越难越有水平的想法是可笑的。 【未完待续】