问两个问题:一、我们省或我们国家甚至全世界哪所(些)大学或哪所(些)大学的某某学科最牛?二、你们学校哪位(些)老师最会教书或教学水平高?
不要担心这样的问题很难回答或很难达成共识。老文有个观察,只要谈教育,教育工作者乃至所有关心教育的人,几乎人人是专家,个个说得好。
关于第一个问题,不难发现,很多人能够不假思索地答上来,而且,不可思议的是,十有八九英雄所见略同。
人们靠什么得出“英雄所见”?两个字:感觉。相反,形形色色的大学排行榜,尽管用无比精确的数据说话(精确程度从各大学的各项得分往往保留到了小数点后数位可见一斑),尽管被媒体特别是微信公众号无比推崇和密集推送,却几乎不被采信。
不仅如此,如果某个大学排行榜颠覆了人们的“英雄所见”,例如人们心目中的牛校被名不见经传的大学“逆袭”,那么事实证明,大学排行榜遭诟病的同时,“逆袭”的大学也往往被推向风口浪尖。
例如,前不久,《美国新闻与世界报道》发布2021年度世界大学排行榜,国内某师范大学的数学学科排名亚洲第一,力压群雄(包括北大、清华),引发热议。这样的事例并不鲜见。2014年世界大学学术排行榜发布后不久,中东地区一所新兴大学发现自己突然饱受争议,处于世界舆论中心,起因是,它从2011年还未上榜一跃位列世界151-200强,特别是其数学学科,竟然高居世界第十。
对于第二个问题,正如美国西北大学James Spillan所说,现在的学校充斥着追踪学生进步的数据,评价哪些老师最擅长教学的一个显而易见的方法是比较各位老师所教班级学生的考试成绩。然而,如果学校这么做,结果会令老师们信服吗?
作为大学老师,老实说,老文的意识中从来没有把学生的考分跟老师的教学水平关联起来。近年来全世界的大学普遍有越来越严重的分数膨胀(grade inflation)现象,这难道意味着大学老师越来越会教书了?
也许出乎你的意料,即使在高度关注升学率(分数是硬道理)的中小学,Spillan领导的一个小组在《教育评价与政策分析》(Educational Evaluation and Policy Analysis)杂志发表的一项研究(Constructing “Experts” Among Peers: Educational Infrastructure, Test Data, and Teachers’ Interactions About Teaching),试图找出老师们利用什么信息来形成他们对哪些同事是名师(expert teachers)的看法,结果表明,超过90%的老师提到了学生考分之外的东西。
普遍的答案包括同事的教学实践,例如如何提问学生、课堂组织和流程、激发学生参与主题的热情和兴奋的能力。其他因素包括同事的知识和教学热情,例如向同事解释自己所教课程的能力,以及他们的正式职位和正规培训,例如他们在学校中的作用和他们以前曾受过的专业发展。
研究人员指出,老师们普遍不相信学生的考分是教师总体水平的有效衡量标准;从本质上讲,衡量教学专长被看成是可以感知而不是通过客观数据来测量的事情。
教育评价,无论是评整体(学校、学科、专业),还是评个体(教师、学生),人们宁愿相信自己的感觉,而不采信精确的数据。这是为什么?
在回答这个为什么之前,先判断一下:人们的感觉灵吗?如果不灵,进一步深究显然没有任何意义。实践证明,人们的感觉往往八九不离十,至少远比精确的数据靠谱。
从科学上讲,实现对教育(如个体或整体的实力和水平)的精确评价,至少要满足三个前提(科学上叫假设):
1. 实力和水平是可以被精确定量评价的;
2. 评价者是懂评价的,设置的考题或指标体系能够精确测试出实力和水平;
3. 被评价对象的答卷或呈现的指标是诚实和真实的。
假设1目前看来没法检验,但我们一直在做(例如对学生考试、对教师算工分),姑且算作一种无法摆脱的公设。假设2和3,人所共知,有无数案例可以证明它们不成立。
关于假设2,老文忍不住插个故事。几年前,老文参加高中同学餐聚,班主任老师把我们当年每次月考的成绩册带来了。有位同学的闺女看老文生物成绩28分,问老文如此低分怎么也能考上大学。老文心想,我们当年高考,如果生物满分不是设定为30分,而且与语文反过来,即语文满分30分,生物满分120分,那么老文就可上更好大学了。进一步,即使语文满分120分,但如果不考拼音、古文等内容(老文的语文是由村里的民办教师用家乡土话启蒙的),老文的考分也会有不少提升。
站在更前沿的量子科技上看,把教育评价类比为量子测量,那么就更容易理解了。众所周知,教育的对象(学生)有独特性,教育的目标有多样性,而教育评价的最大威力是同质化、标准化。教育家们早有真知灼见:你只能得到你评价的东西(You get what you measure)。这与量子测量的结果如出一辙。可以说,教育系统就像量子系统,本来是一个由大量本征态组合而成的叠加态,但是,你一测量,就只得到一种状态——坍缩态,也就是说,把一切皆有可能变成只有一种可能。我们现在反对“唯分数”“唯论文”等教育领域的各种“唯”做法,其背后的科学或逻辑或许也在于此。
你只考或加大权重考语文,你得到了语文好的人,但同时排除了像老文这样生物好而语文不好的人;你若只考或加大权重考生物,老文就发了。这就像观察薛定谔的猫,不评,是死是活,又死又活,等等一切皆有可能;一评,或死或活,你死我活。
费曼在其《QED:光和物质的奇妙理论》一书中说:“如果你粗略地进行计算,这个理论(量子电动力学)能给你相当合乎逻辑的结果。但要是想进行更精确的计算,你会发现修正值事实上竟然是无穷大!原来,这个理论不允许你把任何一个量计算得超过一定的精度。”
教育是可以评价的,但正如量子系统一样,是不可以精确评价的,如果精确评价,看似客观公正,实则精之毫厘、谬之千里。更要命的是,精确评价可能导致整个系统坍塌。教育如果非评不可,那么最好的评价竟然是人们的感觉。可能有人担心感觉这玩意儿会因立场、情感等因素而变,但那显然是另一个问题。