武夷山
2007年4月16日
1 评价什么?我们思考这个问题时不要限于任务书的要求。是绩效评价?学科地位评价?还是项目进展评价?我们是每种评价都做,还是只做一个?能否有一个适合各类评价的通用模型?还是每一种评价需要一个模型?
2 评价模型的含义是什么?比如,我不知道有多少课题的题目都叫什么什么“机制研究”,在很多情况下,我都怀疑这些课题的某些设计者是否知道自己在说什么。同理,我们自己知道评价模型的含义吗?
3 模型建构方式
似乎模型建构的缺省方式是自上而下的,其实也可以是自下而上的。人们在实践中是怎么做评价的?被较普遍认可的评价方式是什么?它背后的意义是什么?
关于中国科技论文质量问题。我提出,要与日韩比较。我这个提议背后的思路是什么?科学计量学研究,一定要坚持同类相比。我提出中日韩比较,不单单是因为三者都是论文大国,也不单单是因为三者都是亚洲国家,而是因为,三个国家都经历过论文猛增的时期。
我们过去关于2020年若干指标预测的研究报告(https://ishare.iask.sina.com.cn/f/350AfiR2ipA.html)说:人均GDP超过多少美元的国家,专利数没有低于多少多少的。这一概括我很满意。这仍然属于同类比较。
模型建构也可以是移植借鉴。教育评估历史最长,最值得关注。比如,考试就是一种评价呀。只要没人作弊,考试还是很公平的。我们在做科技评价时关注公平了吗?比如,大学排行,不管大学的规模大小,都放在一起排序,这样公平吗?为什么高校在疯狂合并啊?原因之一:合并后对排行有帮助。南京大学和中国科技大学似乎是著名高校中至今仍没有将任何医学院合并进来的,但我认为南大和科技大有定力,很聪明。当然,现在按照总量数据搞排行,它们吃亏。若是考察人均产出指标和按经费平均的产出指标,南大和科技大十有八九要超过北大清华。
自然,也可以是自上而下的模型建构。比如,从抽象的理想状况出发,该怎么评价所考察的对象?比如,一些单位挂着“精神文明建设先进单位”的牌子,但我没看到某些挂此牌子的单位的精神文明有多好。如果我们要评价一个单位的精神文明状况,就要问精神文明表现在哪些维度上?只是窗明几净吗?肯定不止这些。你们单位的文体活动得比较丰富吧,你的员工不能有刑事犯罪问题吧,不能有很多人练XX功吧,等等。
4 评估指标
评估指标存在很大的问题。在很多情况下,没有现成指标可用,只好采用一些替代指标。但那些指标的“替代性”怎么样呢?我们脑子要清醒。
5 技术体现
就我们这个课题而言,技术水平主要体现在数据清理、数据挖掘等方面。我们这个子项目是整个大项目的龙头,一定要做好。