LIFE教育创新首届峰会
国际学生评估项目(PISA)专场
注:Andreas Schleicher先生讲话原文为英文,下文根据现场翻译整理。
主持人:我们晚上的活动正式开始,也非常感谢大家今天晚上能够在经过白天一整天的洗礼之后继续在晚上参加我们的活动。今天晚上我们的主题是跟PISA有关,非常荣幸邀请到了在世界上享誉盛名的PISA之父,Andreas Schleicher先生给大家做一场演讲。同时非常有幸邀请到了几位在国内对教育测评、国际测评都有很深研究的几位专家老师来到我们的现场,首先请允许我来介绍一下我们今天到场的几位老师,首先跟大家介绍一下本场讨论的主持人江学勤老师,《纽约时报》的特约教育记者;公众教育研究院院长张勇老师;教育体制改革教育室研究员张家勇;北京师范大学教授、教育部基础教育质量监测中心副主任辛涛,我是本场的协调员吴俊东,目前是哈佛大学公共政策研究研一的学生,也是前21世纪教育研究院的工作人员,我们今天本场的流程大概是这样的,最开始有一个主题演讲,由Andreas Schleicher先生给大家介绍一下,在国际领域目前的教育测评包括大家感兴趣的PISA,目前是怎样的发展状况?之后会由辛涛老师给大家做个简短地演讲,来跟大家介绍一下目前在国内这样一个领域是如何发展的?
接下来就是非常精彩的对谈环节,最后我们也本着交流的原则会给大家20分钟的时间,开放给大家进行自由地提问。我们首先有请PISA之父,OECD教育技能司司长 Andreas Schleicher先生。
Andreas Schleicher:大家好,今天主要给大家介绍一下不光光在PISA的一些研究的结果,同时也希望给大家介绍一下在PISA这个研究背后所体现的一些内容。其实在今天早上的演讲当中,我也提到了,在前世界上对于技能的需求当中有着很大的变化,尤其显著的变化就是对人力的技能的需求,有很显著的降低,比如说,对于单纯的知识认知这个能力的需求,有了非常直线性的下降。所以说PISA测试不单单是人们如何能够将知识进行再体现。
所以在PISA当中,我们越发的着重跟那些非常规的项目进行测评,尤其是来测试学生能否有创造性的去运用这些知识,不单单是简简单单的去记忆知识。所以说在新的一轮的最新的PISA当中,我们也尝试对学生的社交能力进行测试。所以说最新的这个观念就是,不仅仅是去测试学生,对过去知识的掌握,而是去测试学生如何使用知识。所以我们可以看到,很明显的评估文化之间的差别,我们可以看到在一些文化当中可能比较着重于总结性文化,比如说在一天的结束时,看学生学到哪些东西,而另一些文化却比较看重在右边的形成性的能力,看他如何将这些知识能够得到运用。
这个垂直的这条线上就表现了哪些人是参与到这个评估文化当中,最下面是表示外部的参与,在上面是内部的评估。在这个左下角也提到了,我们会对这些评估进行标准化,同时也会借鉴在别的领域的一些评估,同时在右下角,我们会对这个检测性的评估进行研究,同时这项研究对于学生的交互性能力进行检测。
接下来我将谈到在国际测评当中的一些趋势,同时我会对进行多层次的探讨,这种层次包括学校、社区,整个区域以及国际化的这样一个多层次的维度。同时我们也希望建立一个体系,能够支持在教育系统的各个层面的人都能够从中受益,比如说,像学生、老师、学校等等。我们对学生的测评,不那么的在乎于他是否将这个问题解决正确,而更加在乎于他是用什么样的方法将这个问题得以解决,其实很多时候学生从解决方面上能够学到更多。学生也会更好的学习如何的整合知识、合成知识,同时在这个过程当中学生们也会对自己之前的很多误解得到更好的理解,这其实也让我们对于我们的教育方法得到了更新的理解。
其实我们这样做的更多的是模拟学生在现实生活中所遇到的问题,其实在现实生活中学生们遇到的不仅仅对与错这样的问题,而更多的可能是要遇到不同种解决方法。同时我们也希望让我们的测试能够更具有适应性,来适应社会的不断变化,有些人认为,如果要更好地来衡量一个学生,在不同时期的变化,我们的评价指标不能够变化,但是我觉得其实为了让我们的评价指标更为好的去评价学生,我们要不断地适应新的知识和能力的变化。
举个例子来说,以阅读为例,大家试想一下,2000年前怎样阅读呢,像书等等这些读物当中获得我们的知识,我们如今很多时候是碎片化的阅读,现在阅读能更多的是对知识的重新建构,所以这种阅读能力的要求是不同的,我们的测量体系也需要有所不同。在2000年的时候,学生们获得知识更加信息化的阅读文本,现在来说大家更多的是通过电子化等等的手段来进行阅读。所以说阅读的结构其实发生了很大的变化,2000年的时候大家看到了纸面上的知识,很容易去相信它,大家到如今需要对你看到的知识做出自己独特的判断,所以说我们的评价也需要有所不同。所以在制定新的测评的时候,我们也向多方面来去看,我们该如何去做,我们比如像学生、老师、校长等等多方面来看,我们如何更好的提高我们的测量水平。
其实要建立一项新的测评来说,非常得艰难,非常的耗时,如果仅仅要把很多不同的任务强加给学生来完成,这其实是相对比较简单的框架。但是如果要对学生更加有区分度的进行测评的话,其实是需要大量的时间和成本的投资,我们要建立一个体现测试内涵的量表,这需要至少四到五年的时间,同时也需要另外一到两年的时间去建立这样一个测试。
我们在理解如何建立好的评价体系的时候,也需要在对过程和结果之间做很好的权衡,如果仅仅是对于结果过分的在乎的话,可能会产生剥夺的这样一个效果,如果仅仅是对于过程缺乏关注的话,可能造成很多外部的困扰。评估可以有两个手段,第一个手段就是看过程,像芬兰非常重视过程,学生在思考的过程是怎么样的,可能有些国家会比较重视结果,中国更重视结果,你考试成绩怎么样,这两个都有自己的好处和坏处,两个综合起来会好一点。所以在我的经验中,评估很多年了,主要有三方面,你的评估必须跟学生的学习有连接,学生怎么去学习,跟评估必须要连接起来;第二方面就是评估体系应该多元化,因为学生本来学习的就不太一样,可能思考、学习是不一样的,所以不能用一个评估方式来去衡量大家,最好就是用多元化的方式;这个效果可能几十年后才可以看到,不能一次或者短期的来做完,必须连续性的来做,而且做很多年,才能看到你的评估是不是有效。
举一个例子,就是科学课程,教学生一个科学思维,也可以利用科学思维去了解这个世界,学会那个思维之后,在社会中也可以用到,了解这个思维之后,找到一些证据,利用这个证据更好的去理解这个世界,学生要学会知识,这是第一的。学生可以在课堂上,生物、化学学到一些知识,更重要的是学到那个科学的思维方式,这是更重要。学会科学思维方式是一方面,另外一方面,真的去热爱科学,真的对科学有一种好奇心、一种好感,利用科学的思维方式去更好的了解这个世界。最后就是看学生能不能用科学思维解决社会中经历的一些问题,他们能不能用科学的思维方式去了解或者解决世界中的问题。
首先需要知道应该学什么东西,然后再去评估,在评估过程中需要决定什么是好的评估和不好的评估,什么是好的表现和不好的表现。这个是一个评价体系,你可以看到,好的学生怎么使用科学思维,不好的学生有什么缺陷。所以可以看到,在每个过程中,有一些标准在里面,不是那个结果,更重要的是过程,建立一个新的评价体系需要注意过程,通过很多年的试验才能把这些标准定下来。最重要的是找科学思维,数学也是一样,数学是找逻辑思维,而且不是简单的算法。教育是为了让学生更好的去理解社会中的一些问题,评估的时候,考试的时候,想知道学生能不能把一些题联系到社会现实中的问题。所以数学也是语言,数学是逻辑的语言,让你更好的了解这个世界,不知道学生能不能懂这个道理,让数学了解世界,让世界更好的了解数学逻辑。数学是一门语言,让你更好了解这个世界的语言。
这是美国的数学成绩,这些国家教数学教的很不好。还有一个比较关心的问题,教育的重要性,在一个社会中,学生有不同的经济背景,想去看教育体系是不是能够帮助所有的学生。所以在评估的时候,不仅看学生表现,还要看学生的经济背景,这两个是不是连接在一起。在这边所有的教育体系表现得很好,而且教育资源比较均衡,在这边是反过来的一个例子,这个例子就是说,表现很好,可以说评估差别很大的,这边是表现很不好,教育资源性是保持的。所以在评估过程中,可以了解到很多信息,很大问题就是想了解那个信息,而且怎么把这个信息连接在一起。
大家有什么问题想提出来?
提问:中国怎么样?
Andreas Schleicher:上海的表现是非常好的,均衡性还可以,不像其他国家。
提问:我的问题是分两个趋势,非常规的分析能力越来越重要了,这部分能力的评估是融合在他们的一个学科里,还是有一个单独的评估体系?
他说其实两个都是有的,既在他的学科里同时也有一个单独的体系,比如说像有创新解决问题的能力。
提问:非常希望能够知道一些PISA测评的表格或者一些内容,我搜了一下只有一本书,PISA测评的理论和实践。
Andreas Schleicher:官方网站可以看到很多考试题。年来我们大概做了17种教材,这个图片是阿坝州的羌族的学校。
提问:(英文)。
Andreas Schleicher:(英文)。
江学勤:这位女士问了两个问题,上海可能和其他国家来比更有钱,做个比较,是不是公平?第二个问题,上海很多学校上补习班,补习的因素可能大一些,其他国家的学生也不上补习班,到底能不能比较一下一些国家的考试表现。下面有请辛涛老师。
辛涛:非常感谢会议的主持方,提供这样的机会让我能够简单地介绍一下,我们现在做的一些简单的工作。当然我介绍的并不是我们中心做的技术的细节,而是我们中心所做的关于国家现在政策方面有关的一些内容,因为时间很仓促,我并没有做PPT,抱歉。如果我们在座的各位,大家对中国基础教育的评价改革这块非常关注的话,可能在最近由大到中到小的几件事情,一个是高考改革方案正式公布了,第二件事情在4月15号,教育部有一个新闻发布,正式建立我们国家义务教育质量监测的体系,这样一项制度,这是中评的。还有是从2014年,在我们国家整个义务教育阶段,基础教育阶段我们开始开展了关于中小学质量教育综合评价改革的一个试点。所以这几件事情实际上跟我们现在在政策方面关于教育评价是非常有显著的三件事儿。因为高考改革,我并没有参与,后面我这个参与了,就向在座的各位同仁感兴趣的可以介绍一下。
我所代表的是教育部基础质量教育监测中心,我们通过长期的努力在我们国家能够初步建立义务教育的质量监测体系,为什么建立这样的教育体系呢?主要有几方面的原因,第一方面是我们国家九年义务教育已经取得了飞速的发展,普及了九年义务教育,一般来说,这个点大家在2010年左右,有的早一点,有的晚一点。2013年国务院开过一个会,标志着我们国家九年义务教育的普及已经基本完成,正式完成了。在那个时候面临一个最紧迫的问题,当国家义务教育这样一个投入,有学上的问题解决了以后,接下来政府也罢,社会也罢,越来越多的声音对教育质量提出更高的诉求,这是一个大的背景。
但是在解决义务教育的时候,投入这方面,我们可以简单的来算一下,我们盖了多少房可以去数,但是说到进入质量的时候,我们现在在当时我们国家并没有非常完善的体系,告诉国人也罢,告诉政府也罢,我们的质量方法到底是怎么样?这是一个背景。第二个背景,与这几年我们国家政府管理职能的转化,特别是在座的各位有人注意到关于国家的大政方针的时候,无论十八届三中全会还是四中全会,都强调了一个方面是教育治理能力,依法执教的问题,怎么基于科学的有效的推动教育的管理,进而推动教育质量整体的提高,促进我们国家均衡的发展。这是第二大背景。
我们可以看到,无论对质量本身的诉求还是我们国家教育治理的现代化的问题,其实这些都要求我们建立起一个国家层面的这样一个监测体系有了这样一些数据,无论对国人、对政府包括对社会的环境有一个先试,这是一个简单的背景。我们面临的另外一个方面很现实的问题,因为我们国家无论是文化的因素,社会的因素,包括人口的因素,我们每个人感觉到孩子受到了很大的压力,这些因素导致国家最近这些年比较大的推动试点建立国家的义务教育质量监测体系,标志性的文件这个月15号正式发文,我们国家义务教育质量制度正式发布。
目前所涉及到的监测体系是什么样的框架呢?简单地说来,Andreas 已经讲了关于教育评价的一个二维的象限,从这个角度,我们管理的评价在国家政策的层面上来说,对于我们国家教育质量整体把握的数据来做的。所以从测试的内容来说,在业务教育阶段,目前的内容包含六大领域再加相关的因素,这六大领域分别是语文、数学、科学跟PISA的阅读科学和数学非常相似的。但是我们国家还有本国的一些特色,这个特色里面就是我们在国家层面上真正的去评价、监测、去测查学生的体育、体制健康状况,监测学生的艺术的素养,包括监测德育,也是最近公布的正式文件里面是明确的。我们今年主要集中在数学和体育,名面我们会涉及到语文和艺术,后年是科学和德育。所以整个国家义务教育质量监测体系,我们基本上三年一个循环,每年两次一个大的框架。我想简单的介绍一个方面,这个方面聚焦的话,就是在国家的方面,在区域政府的层面对于我们国家整体和区域整个教育质量的一个整体把握。
另外一个事件,教育部二次来推动的我们国家中小学教育质量综合的评价和改革,因为在中央层面,在政府层面做的这样的监测和评价最带有某些刚性的和某些含义的。真正学生的评价,来推动我们的教育从内部自发,从结果性的角度形成这样一个评价,由于教育力度的管理,二次推动中小学教育改革,更多的基于区域内部建立这样的机制,这样的机制可以通过全面发展的评价能够引导我们国家现在正在做的整个工作。比如说,我们国家关于课程改革这块很多的理念,能够使我们的教学回归教学的常态,能够引导我们学生更加健康的发展,能够减轻学生相应的负担,并且为未来从劳动力的素质来说培养更加健康更加有素质的劳动者的诉求。当然评价的改革还有很多,从我们的中心教育来说,是这样两项,这样两项分别在国家的层面和在学校的层面来推动一些工作,我想利用这样一个很简短时间介绍一下。
如果把我们国家的评价跟世界范围的一个评价做一个简单的比较,有些什么样的特点或者有些什么样的值得进一步关注的问题,当然角度很多,我们国家现在的评价里面,因为在我们国家当下的义务教育或者基础教育质量的发展里面,我们成就是巨大的。但是依然从社会的各个角度有一些问题,在成就和问题并存的情况下,我们对评价的诉求就非常高,评价本身达到这个功能,随着评价定位不一样,可能有差别的,但是现在整个来说,我们在国家的层面,我们试图社会或者政府或者这样一个大的环境似乎都要求我们评价更加符合的综合的一个功能,就像刚才Andreas所说的,这样的评价大体有三个特征,一个是一致性,第二个是综合性,第三个是连续性。在我们国家,包括PISA本身,从它的定位和发挥的主要功能来说,还是更多的综合比较来影响到这个国家政策决策的调整。但是在PISA,他刚才讲的时候,并不是讲到冷冰冰的刚性的这样一个国与国的比较,谁高谁低的问题,通过多方面的信息的收集反映这个国家教育特征,为这个国家教育改进进行服务,无论在国家层面义务教育监测的系统还是学校层面,其实现在是广为使用的,我们国家无论在国家层面还是区域的层面,包括学校层面的评价大家不仅仅是强调政策方面的诉求,更多的评价促进教育的改革发展来解决教育中关键问题的一些问题,这是一个特点。
第二个特点,我们国家现在评价体系跟国外的评价体系一个差异,就在于因为评价任何时候都是服务一个国家的教育目标。而且跨国的评价其实也服务于这个评价本身原设计的目标,PISA层面很重要的一点,试图比较各个国家,特别OECD的发达国家未来人口的质量,未来劳动力的质量问题,更重要在九年级或者15岁的时候,这些孩子如果按照未来的社会和市场对人们的需求是怎么样,达到什么样的程度,这是PISA的需求。但是在我们国家,我们国家的教育方针里面,强调最大的是前面发展。所以我们看到在我们的评价内容里面包含了一些东西在教育评价里面并不是大规模的涉及的,像体制的问题、健康的问题,包括艺术的问题,还有德育的问题,在我们国家政策背景下面是高度的诉求。第二个特点,跟世界上和其他国家相比,跟国际相比我们很大的一方面我们所建立这样的评价体系,涉及的内容范围更加广泛,试图利用评价引导社会,引导社会,是全新的一个教育质量观,这是向在座各位说的第二方面的特点。
第三方面的特点,我们在技术的规格包括技术的这样一个规范上来说,我们一直力图PISA是我们学习的榜样,所以在技术的规格或者技术的做法的时候,我们也一直在以PISA包括刚才涉及到国家大的评价项目的时候,通常涉及到三四个。这些项目包括其他国家的项目,在技术参数和技术规格上面大体是一致的。比如说,怎么样去发展这些东西,因为整个背后的专家大概的知识体系的结构是非常相似和相近的。所以第三个特点,如果我们来说,尽管我们现在切入比较晚但是我们做这些工作的时候,一直在向世界主要评价项目在学习,学习他们的技术方法。可以抽象地说,大的技术规格和框架我们基本上技术试图是靠近的,但是知识的话,60年代到现在大概50多年的历史了,因为中国后走,我们现在有更多的信息了解到内部到底怎么设计的,包括我们跟PISA,跟Andreas 也有很多地交流,中间也分享他们的一些经验,推动我们国家在学校方面的评价也都有很多的帮助。
因为时间关系,非常简短地介绍这么多,谢谢大家!
文化遗迹,所以我们要依据这个历史文化
主持人:非常感谢辛涛老师。下一个环节是对谈环节。
江学勤:我会问一些问题,要建立一个全国的教育评价体系。我会问这些专家关于考试评价的问题,我们先从PISA开始,PISA是全世界最有影响力的评价体系,这是怎么做到的?为什么PISA有那么大的影响力,而且会影响到整个国家的层面,这是怎么做到的?
Andreas Schleicher:其实关于为什么PISA能够对这么多国家政策产生影响,最开始是由于PISA在制定的时候,抱着走出去的战略。所以说在制定的时候,不仅仅某一个国家或者某一个公司在制定这种政策,更多的是一种合作的力量,PISA和很多国家学校采取了广泛的合作关系,所以才制定这样一种PISA的测量方式。
江学勤:第二个问题,一个国家表现好与不好,在PISA里好与不好的表现,对那个国家有什么后果呢?
Andreas Schleicher:所以说其实刚才江老师所问的问题,是关于这种激励措施是否对学生有用?其实我们的研究发现,最开始我们尝试用一些激励措施或者惩罚措施对于学生们在PISA的测试中的表现进行不同的反映。但其实我们发现这样的激励措施是没有用的,在我们的研究当中发现最有效的对学生的激励措施,其实是制定一个非常有趣、生动能够吸引学生的这样一个PISA测试的题目,这样才是最为有效的。
一些非常有趣的事情就是,其实我们在制定PISA之前,可能会担心会对PISA长达两个小时的非常冗长的测试感到非常的厌倦,甚至有可能在最后的时候,有很多学生会任意地去勾选答案,但是出乎我们意料的是,在大多数的国家,大多数PISA的测试当中,学生们都对PISA非常非常认真,非常好的完成这两个小时的测试。所以在这个过程当中我们发现,最好的方式其实就是将教学和测评,让学生的学习和测评有机的结合起来。
江学勤:这个很有意思,能不能讲一讲写考试题的过程,你怎么能保证这个考试题是很有意思,而且能去考验学生真正的水平?
Andreas Schleicher:这其实是一个非常非常漫长的过程,最开始的时候可能会在一些地方进行团队合作的进行完成,我们会进行很多的试验,最开始最重要的是我们需要有一个非常强有力的框架,这个框架体系包括我们需要去测量学生的哪些水平,我们根据这些水平去寻找与之相匹配测试题可能在一天当中选出很多测试题,在一天结束的时候,我们会看这些测试题是否匹配我们希望测试学生的能力水平,如果不是的话,我们就会把它删除,我们最终会制定四倍的选择题目的数量。
很有趣的是,我们会在一个和长期的范围内去考量我们的测试是否是科学的,比如说,我们从2000年开始对一群加拿大的学生进行测量,在长达十几年的时间当中,我们通过PISA预测他们的能力措施,是否在进入大学和找工作的过程中得以体现,通过长期的观察能够更好地来看我们如何制定一个更好的更为科学的评价体系。
江学勤:我现在问一下辛涛老师的评价体系,大家都比较关心中国的评价体系怎么样。第一个问题,高考跟你们的评价体系会有什么联系?
辛涛:我们目前国家正在开始实施是义务教育质量监测的制度,所以我们还没有延伸到高中,从目前来说,我们要和这个阶段的体系跟高考有多大的连接,可能还为之尚早。但是高考改革非常大的动因是在于把考试和我们国家的课程关联起来,减轻学生的负担,并且能够筛选出富有创造力丰富多样的这样一个未来的人才。所以从这个角度来说,国家的监测也是基于国家的课程标准和依据的,因此内在在未来应该是一体的。
江学勤:你现在怎么保证你的评价体系有影响力?
辛涛:因为我注意到江先生用到影响力,似乎在解释里面有不同的含义,如果说我们这个测试本身的(英文),包括现在在宣传,我们国家的义务教育质量本身它的目的是服务于国家对教育质量整体的把握,去导向我们有一个全面教育质量观。另外,我们不是对学生个体和学校进行排名排队,我是想如果用(英文)这个词,我们用做各种各样可能的预案防止可能产生的一些问题。如果对我们国家教育体系的影响,我们在中国有影响的话,因为这个制度的建立本身就是它影响的一个体现。
江学勤:张勇老师,您讲一讲你的工作,怎么看中国的评价体系?
张勇:我们当时选择的时候也答对的非常好,教育部发展研究中心,评价制度,这方面起草研究是他们做的,辛老师不用说了,课程教材评价,他的学生基本上占了主流,包括在二四线正在主持部门工作的张山,都是辛老师的学生,辛老师主持是全国教育质量监测,更关注的是宏观质量层面给政府提供决策和国家教育质量的保有化等等。我的工作跟他们不一样,简单来说,我是个工匠,更多的是做国家中小学教育质量综合评价,它的基础这个层面上改革实验,也就是美国80年代以后,从原来的标准化考试,单一化评价逐步转向到综合评价,综合评价的模式在美国是GPE这一块,也是通过对学生记录的行为,合成一个类似成长的一个特制,包括一些情况,综合素质评价。第三方面对学生未来做出一个预测,这三项合起来的综合评价,我的工作主要在技术层面和实验层面上,给他们提供依据、数据,提供操作方式,还是给国家政策提供依据,继续指导我们干活。
辛涛:我虽然做这项工作,但不是主持,因为在中国的影响主持是很严肃的事情。
张家勇:大家好,很高兴有这个机会跟大家分享。我主要做政策,去年9月份刚出台的实施意见,大家都知道,有四个人起草,我是其中之一,出来的这个文件实际上跟我们起草的原始的文稿有很大的不同,出来的这个实施意见实际上是三个文件合在一块的,一个是促进公平的,第二个是公平的份量很重,还有一个就是原来做的整个框架体系,三个合在一块,很多的内容因为文件的篇幅略掉了,怎么体现呢,由配套文件来体现,高考出现了四个配套文件,今年还要出台中考的文件。我必须要说一下,我们做的中考也好,高考也好和PISA完全两种的考试,PISA评价整个国家教育质量的,这个目的和中考、高考选拔人才的目标是完全不同的,过去中考、高考把两个功能合在一块,既评价学生又评价学校的质量,所以我们的评价还是很落后的,停留在很落后的一个水平。现在尤其近几年,我们在质量评价监测方面做了很多工作,包括辛教授监测中心,包括张勇博士做了很多的评价方面的一些实实在在的工作,这种工作并不是体现在考察学生个体,主要是诊断教育体系、教育制度,这个制度到底怎么样,我们要对整个制度,整个体系,我们主要工作诊断这个教育体制有没有问题。
我们的实施意见,很多人评价,尤其像有识之士的评价,他说走了半步,本来期待走一大步,但走了半步,我们期待在体制上进行改变,而不是期待于在技术上,做一些小修小补的工作。但是这么重大的任务没有完成,目前只是停留在技术层面,甚至大家关心的外语考试,一年考两次,我们当初的政策出发点,不是单独的外语一年考两次,而是为学生高考提供多次考试几乎,像SAT一样,不仅仅是语文、还有数学,都是一年多几次考试机会。大家都理解成英语了,其实不是,我们通过地方招办来作为中介人,相亲不能直接相亲,要通过中介人,我招学生就像相亲,要通过一个中介,自主招生也不是自主的,完全半自主的,招生的时候非常不自主的事情,这个体制现在没有变动,所以我们只走了半步,未来的路还很长。我没有太多时间细解释,下一步去哈佛大学就高考的改革问题跟他们做一个简短的报告,因为我是起草人,会后有兴趣大家可以了解起草的过程,究竟方向是什么,因为那个文本读不出方向来,不知道方向是什么,我可以给大家做更详细的解读。
江学勤:谢谢。辛老师,我想再问你一个问题,中国这个国家很大,很多元化,如果做这个评价体系,是不是用统一国家的标准还是各个地区有不同的评价体系?
辛涛:这是一个很好的问题,也是很难的一个问题,如果你说差异区域的话,咱们整个国家管理会有一些问题。从评价本身来说,我们的目标是把我们这个评价尺子做得足够精确,这样我们在国家层面上有这把尺子,不能说有足够精细的刻度刻划出发达的地区和不发达地区的整体表现,至于整体表现,从我们监测角度来说并没有特别明确地指出合格和不合格,更多是把这块放给区域,他们来认定,在他们这个区域里面到底是怎么样的。但是从监测,我们的技术角度来说,好的区域不好的区域从尺子范围内量出来。我们这个跟它是有不同的,因为考虑到我们国家巨大差异,我们并没有一个统一的standard,而是有一个统一的framework。
江学勤:国家已经建立了国家的评价体系,能不能讲讲那个国家的例子或者面临什么问题,他们现在的表现怎么样?
Andreas Schleicher: 去了很多国家,绝大多数国家都有或多或少有他们国家的评价体系,有一些是在国家层面,有一些是在地方层面,正如刚才所说的有一些国家确实有国家层面的颁布的体系,这个也是有必要的。但是不不管是否有国家层面的评价体系,最为关键的就是这种国家体系必须和教学是相一致的,不能让学生跟从一种不同教育的目标,却是按照另一种教育目标的方式去考试、测试,这二者必须进行统一。这个统一是非常难做到的需要做到很多权衡和取舍,比如说有效性和准确度之间的一个权衡,还有相关性和有效性之间的一个权衡。
江学勤:谢谢。我们现在可以提一些问题跟大家进行交流。
提问:我有两个问题,第一个就是我们知道PISA国际每年测完以后,其实会把这个数据公开给国家或者给政府,我们都能看到,我们也很关心,在我国如果举行这样类似的质量监测的话,我们这样的数据是否可以公开给我们的民众包括我们的教育系统?跟这个问题相关的一个事情就是如果我们这样的数据未来公开的话,在可见的三五年或者未来的这样一个时间内,我们会看到不管在哪个级别的教育体系县级或者到省级、中央,可能会发生或者学校本身发生哪些变化?
辛涛:第一个问题,大家注意那个发布会的话,在那个发布会上教育部的领导明确地说,我们未来监测的结果会向全国公布,这是我们监测报告。第二个问题,现在教育本身对未来的,特别学校教育有什么影响,我们做了一些,特别像Andreas Schleicher的研究和关注,我们国家力图强调的,包括我们的技术设计,我们整个组织的设计都是避免对学校教育带来额外的负担。所以我们首先在未来的时候保证,我们本身不造成另外一种很大压力的测试。第二个方面从积极的或者正向的影响力来说,很大的一个方面,我们在国家监测这块,我刚才测试范围比较宽,更大的关注了全面发展,我们希望通过这样的一个导向能够让基层的学校,让基层的教育系统,除了中高考的比较短时间的选拔之外,能够注意到更加宽的教育质量,因为以前从概念来说是重视的,但是操作的时候可能有一些忽略,但是有了这样一个方式,我们希望在学校和基层的教育管理部门能够更加重视这方面,能够真正落实全面发展的政策。
江学勤:我们公布的是学校的?
辛涛:我们公布的是国家的。
张勇:我补充一下,辛老师把结构和原理都讲了,可能有一些基本概念做一些区分,我们日常说的评价主要针对学生、学校、教师,监测的数据主要是政府,向社会进行公布,社会的评判或者参与的一种需求。像考试,我们传统意义上的考试,最早从选拔国家公务人员开始,现在更多的是一种社会性的选拔,体现了一种社会需求,要说评价、监测、考试,我们做一下区分,目的还是有区别,功能区别也大,这个不要搞混了。我们说评价导向作为非常重,包括教学、科研,像监测是后期,主要是70年代以后,逐步发展起来,发展起来以后主要给政府提供一个决策,教育的公平性、均衡性,包括投入产出,研究层的优化性能等等,它的性质目的是不太一样的。刚才这个问题,怕把它的概念搞混了,起到导向的作用,监测不存在这方面的问题。
提问:第一个问题关于PISA有没有对于成人以及对于大学之间的这种测试?
Andreas Schleicher:对于大学的测试正在研发当中,对于大学来说考量因素太多了,他们的知识比较丰富。对于成人的研究现在是有的,叫PIAAC。
提问:第二个问题,这位老师说美国有一句口号法令,不让一个学生掉队,美国设定了这样一个法令,但是我们在刚才看到PISA测试当中,看到美国表现并不是很好,他们的社会教育并不是很均衡,这是为什么?
Andreas Schleicher:答案是确实美国很多孩子掉队了,虽然有不让每个孩子掉队的法令,这个掉队的原因?在美国和中国大家对于学生的要求是不一样的,对于美国来说可能并没有那么多望子成龙,望女成凤,对孩子没有那么高的期许,对中国家长可能不同。中国把首要的资源 投入到身上,先保证好的教师,中国好的教师都可以教很大的班级。但是在美国把有限的资源首先投入到小班上,都先上小班,每个教师就很好的收入,这就是造成差距的原因。还有一个原因,在美国社会阶层对于学生的学业水平有很大影响,住在很好地方的人很可能上更好的学,住在很差地方的人就上很差的学,这是很重要的原因。
张勇:像美国一样,甚至美国更为严重的是我们中国的乡村教育,这是唯一一个通路就是高考,这几年随着高考政策的调整,我们随着清华、北大陆续的升学比例上,基本上走向了终结,这种教育不公平并不是美国存在,并不是美国比我们严重,我们一定要认清这个现实。随我们国家区域经济差的拉大,社会阶层的分化,教育不公平恐怕在未来几年还在蔓延。而且还有一个很严酷的现实,我们在中国教育人才上的严重不足,优质人才,不仅仅教育不公平的分化,中国政府在很大程度弥补不公平的出现,质量教育监测有一个很周期的功能就是教育发展均衡。所以在探讨这个问题的时候,我建议不要忽略我们的背景,光看报纸或者一些杂志上的文字,因为那个现实意义并不太足。
提问:综合素质评价制度在中国全国推进的状况是怎么样的?执行下来有效性是什么样的?结果使用状况是什么情况?有没有达到综合制度评价阶段性的目标?
张勇:我现在在最低层,政策的程度叫中小学,首先有一个范围界定,并没有涉及到大学和职教类,改革是从基础入手的,教育质量综合评价改革实验,为什么提教育质量呢?1999年我们国家出全面推进素质教育决定,有五个关键词,第一个关键词是素质教育是基本的支柱,但是素质教育怎么落地?或者怎么转化的问题?马上提出第二个关键词,用教育的质量,提升教育内涵,内涵的扩展来承载这个素质的指标。这种改革到2013年6月9号,教育部二司《推进中小学教育质量综合评价改革的意见》,也给出了一个指导框架,我估计辛老师应该参与这个工作了,这个文件做得相当不错的文件,提出的要求,大家有时间可以查一下美国的文件,1983到1989,研究室的同志知道,这也是人类第一个比较完整的系统的我们称做教育大纲,包括第一套科技教育标准呈现,我们国家很大程度上参考美国上个世纪尤其80年代以后的改革它的先进或者优良的做法。全球有一个共识,美国每四年总会做一次改革,每次改革悄无声息,见不到成效,现在不像80年代一样,没有什么好的收获,现在是提升教育质量。
我用了几句话来概括,我们国家这一次教育评价改革应该是雄心勃勃,怎么体现雄心勃勃呢?因为我们国家在这次并没有评价这一说,就是一个测验,相当于欧美的一九三几年到1943年以前测验运动时期,用分数来代替评价,以升学率来代替教育质量的一种评定。综合评价这一块,因为这个文件出的第二个关键词是综合评价,美国80年代以后逐步成熟起来,这次教育改革跨越60年到70年的旅程,但是有一句话,历史解决不了这些问题,只能通过积累来发展,意味着我们有很大的空白,资源的空白无法支持或者短时间内无法支持这次教育评价改革。举一个很简单的例子,我们国家是2010年好像才有第一个教育评价学的博士生点,这个教育评价学的专业作为博士生专业第一次列下来,我们国家发展比较弱,人才比较缺乏。实际上我们国家的测验,尤其评价领域,一句话就是值得大家注意,这是基本的测量方法。另一句话就是知识和技能来做,这种测验技术在美国记得很清楚是1952年,在欧洲有早一些和晚一些的,我们国家一直延续到去年,今年可能好一些。所以说这次教育质量综合评价改革,其实充满了很多困难,实际上各地现在都有点不知道该怎么办,教育综合评价改的目标、标准、方式等等,正处于一个前期的解读时期我举个简单例子,我们这次文件上明确列出一个结构,目标、指标体系体系和评价结果的应用,对这次评价改革的保障机制,列的非常全,但是在各级理解文件上的结构是离散的,几乎没法实施,辛老师应该有颇多感受,这种工作正在做着一种地方和专业指导单位、支持单位共同努力的过程,到底怎么样,还得看未来的两年之内具体能不能取得比较可靠有效的这种落地的经验,这是我所能看到的。与此配套的,更高一个层次就是教育职能监测,辛老师正在做。
张家勇:这位同志问的可能更多是侧重于综合素质评价。我想补充的是针对学生的综合素质评价,有一个配套文件,从2005年开始,对学生进行综合素质评价,原因就是为了打破我们高考选拔标准,唯一的一句就是分数,我们就出台了两个,一个是学业水平考试,是2003年出的,2005年有一个综合素质评价,这个到目前为止大概有30个省份都已经开展了,其中有20个省份开展了五年以上了,目前是这么一个状况。评价的内容六个方面,德智体美都有,都涵盖了,分五个等级,怎么用呢,现在浙江用了,浙江三位一体的高考录取模式,这部门折算成分数,占的比例由高校定,但是有一个总的线,高考的分数不能低于50%,另外的50%怎么分,高校自己定。
辛涛:这个话题很大,刚才听了两位老师发言以后,不知道该表示什么了,但是我是这样想的,简单一句话,无论综合质量评价还是综合素质评价,当然很难,但是不是绝望。其实这几年无论在评价的体制机制方面,评价的管理和操作方面,包括评价的整个这些方面都有一些进展,当然确实我也比较认可,确实是很难的,但是没有那么复杂,包括这次的高考改革的方案里面两个依据一个参考,参考本身就是综合素质。所以我想这是有一个进步的过程,大家不要着急,对改革来说是一个过程,今天说了马上就实现,这也是我们大家在认识过程中需要注意的,也是发展的迫切性,大家可能比较着急,但是教育的事儿,可能不一定那么着急的去说,一定对或者不对的,这个东西得有一个过程。但是我确实很难去评价现在到底是怎么样的,我知道方方面面的,从政策到管理、到实践、到学术,大家都在参与,都在努力。
江学勤:我问Andreas Schleicher两个问题,我很好奇,因为2012年PISA在上海已经开展了,PISA两大改革会影响中国,第一个,全国的成绩要算进去了,以前上海单独拎出来的,以后中国的成绩要公布出来。第二个,PISA更重视的合作能力,大家都知道中国合作能力是有限的,我想知道以后Andreas觉得在中国怎么样,是不是会影响中国的PISA成绩?
Andreas Schleicher:这些数据都还没有收集,无法用数据来回答你的问题,只能够基于在中国的课堂当中的见闻来回答你。我在中国课堂中的见闻非常有意思,看到中国的学生其实非常有合作精神,他们这种合作精神在课堂当中得到很好的彰显。另外一个,有一些人可能会有一些成见,大家会觉得中国上海的学生可能在创造性的能力当中表现并不是很好,但是我们的测试结果显示的是,尽管上海学生的创造能力确实比不上他们在数学能力上表现的那么优异,新加坡这样的国家表现的会比较好,但是我们的测试当中同样彰显上海学生在创造力这方面确实有很多很多非常值得称赞的地方。所以说最好的证明这些事情的方法就是要到课堂当中去观察,PISA测试的成绩,上海获得如此的成绩,并不是凭空而来的,一定会有事实的根据。
我想说的是成如很多人认为的,上海确实无法代表整个中国,正如大家不会将巴黎代表整个法国一样,但是同样是在很多的课堂当中,走访了很多中国的农村地区,这些地区有些地方教学成果,学习成果非常的不错。所以说我觉得在PISA这样的测试当中,这些结果确实在一定程度上也能够反映这个地区的水平。
提问:谢谢能给我最后一个提问的机会,我来自北京农民工的子弟学校,蒲公英学校的,刚才听Andreas Schleicher老师对学生如何进行评估以后,对学生评估是参与式的评估,就是内部评估,还有就是外部评估,什么是内部评估,什么是外部评估,有点疑问,在组织学生做一个小课题的过程中,有一个小组,这个内部评估可不可以理解为就是让学生对自己在这个学习过程中,自己可以给自己做一个评估,给自己一个打分,而外部评估是不是这个小组,整个团队对他在小组学习过程中一个表现的评估,在别人眼中怎么表现的,是不是认为老师对他怎么评估?
Andreas Schleicher:非常感谢你这个问题,确实问得非常好。这个内部的评价其实指的是在教室范围内跟教室的边际范围内所产生的评价,比如说老师对于学生们的评价,比如说你在户外进行一个团队活动,你作为老师,你给学生们进行打分,这些属于内部评价。外部评价指的是教室范围边界以外别的机构,他来对你的学生进行评价,比如说教育部或者谁独立的构给你进行评价,这二者确实有其独特的作用,比如说内部评价,你作为老师可能更加知道学生们哪些些方面应该得到赞扬的,你可能更加了解你的学生,内部评价很重要。同时你需要看外部评价,这样才能够更好的去其他的学生进行对比。
江学勤:谢谢各位嘉宾,谢谢大家。我们的专场到此结束!谢谢大家!
——结束——