前文中呼吁了需要改善的“软件”基础设施建设包括更加优质的网络知识百科、开源操作系统与开源软件等。这样的呼吁其实一早有之,但是执行起来却比较困难,我们依旧没有一个很好的科技内容中文百科与问答网站。开源操作系统的主流依旧是欧美的,最大的开源软件网站github的确有不少清华交大北大等名校的欧美校友的卓越贡献,但是国内提供的优质的软件代码依然不多。我们如何实现这样的“软件”基础设施建设,但又不用耗费巨大的人力物力呢。本文的标题已经剧透了“鸡肋”的毕业论文正是解决这些问题的一个参考方案。
毕业论文的理念本身便侧重于学术性,但是大学的人才的培养目标应该更加广泛,可以有农工商、人文艺术、工业设计等等的普通从业人员,未来企业的管理人员,研发项目的领军人物,等等多元的培养目标。以毕业论文的学术理念去要求和评价学生,本身就是一件类似赶鸭子上架的吃力不讨好的事情。尤其对于大多数学生而言,毕业后进入社会工作,花一个学期写一篇只有自己、导师和答辩委员会五人阅读的论文,是明显的“形式主义”,而缺乏动力。
为了让毕业项目变得更加有用,毕业论文(设计)应该进行“6/3/1”分流(这个数字的绝对比例,并不是这里的重点)。六成的学生进行公开项目的调研小结、或者实践,可以建设中国的网络知识百科,开源的软件与实践、或者其他普通人可以用到的项目;三成的学生,会是未来读研的人才储备(一成多的大学毕业生最后读研,三成左右的学生报名考研),可以重复或者适度改进前人学术研究的项目,针对科研中的可重复性危机(replication crisis,reproducibility crisis),而且过程中培养自己的研究素养;一成的比较有学术倾向的学生,与高年级的研究生、博士后共同交流,尝试选择一些与科技前沿接轨的挑战性课题进行研究,确认是否真的对科研感兴趣。大学生的毕业论文的“6/3/1’”分流正好与前文所述的软件基础设施建设的需求互补,形成闭环。
互动网络百科的形式的想法是很好的,通过网络上不同人的协同编辑,从而得出最好的结果,因为不同人的专业爱好都不一样,各自修改自己的专业领域,那么最后可以形成一个群体的智慧(the wisdom of the crowd),其中尤为典型的便是维基百科,它的科技方面的内容专业性和科普性平衡的比较好。但是这个形式在中国却没有办法很好地执行,因为每个人都可以编辑,就有一小部分为了图利,修改文本,或者故意搞破坏。其中有两个典型的事件,2014年的清华大学学生维护百度百科的PX词条中毒性的新闻[1],以及2016年魏则西去世的新闻[2]。清华大学学生关于PX毒性的专业性和知识性都是更加具有权威的,但是却抵挡不了太多的网民想要去更改内容。而魏则西的事件有三个方面的因素:1)莆田系外包的科室的非法行医,2)百度搜索的竞价排名,3)百度百科关于滑膜肉瘤的内容被窜改。如果当时网络百科的医学内容更加正确专业,或许魏则西不一定会被骗。因为每个人都可以修改百科,所以导致了谚语中所述的“一颗老鼠屎,坏了一缸米”。对比而看,字幕组的成员很多时候也都是普通志愿者组成,但是他们的翻译质量基本有保障,主要原因就是在于有比较好的质量控制(quality control)。我们如何通过质量控制建设管理每个人都会用到的公共知识百科呢?
同行评审(peer review)的审核、以及专业性的编辑这两个因素使我们可以办好网络知识百科的主要措施。同行评审,就是互相批改作业的意思,但是由于科研界研究新的问题,不一定有标准答案,所以通过在这个领域工作的前沿人物互相批改。当然由于有竞争关系,也有不少遏制创新,阻止对方发表的问题。但是构建一个网络知识百科,并没有过多争议性的原始创新的东西,所以同行评审的方式是比较适用的。其次、网络百科的质量由编辑的专业性决定。就类似国际电影数据库(IMDB)的评分更侧重于普通大众和烂番茄(rotten tomato)电影评分的权重则更多给专业的影评人。电影由于是艺术可能比较难以决定大众喜好和专业喜好的优劣,但是网络百科的科学内容,其正确性往往还是掌握在专业人士手中。所以不同条目的编辑,应该由对应的数学系、物理学、计算机专业的学生等等进行编辑,和互相修改,从而保证质量。而大学教师只要做个大致的监督,通过同行评审的方法,节省教师的时间,可以更多做一些前沿的科研。同样的类似的问答平台,也可以给所在专业或者答题质量较高的人以更高的评分权重,从而合理地对答案进行排序。本科生中未来不准备从事科研工作的人,可以做一些这样的基础设施建设,未来自己用到这些知识的时候,也可以快速检索,而且给广大普通人一个值得信赖的知识网站来源。其他外语学科的毕业生,也可以将这些互动知识百科的内容转化为其他语言,尤其是小语种的国家,因为作为小国没有那么多的专业人士编辑百科,翻译的百科可以给他们提供更加优质的网络百科知识。
同样的、开源的操作系统与开源软件也可以交由这些本科生和研究生来做。前文提到,一个跨公司的开源操作系统才能让中国的智能手机与计算机硬件制造商更多一些议价能力。但是暂时也不会有硬件制造商放弃与微软谷歌的合作,让一部分员工去进行开源操作系统的研发,所以这个起始的一步便只能交由学生来做。理想主义的学生磨练自己的编程技能,更好地了解系统,而不用担心工作的进度。在学生们协同合作三五年以后,这个开源操作系统主要架构搭建起来的时候,这样一些领头羊,在后面的职场也会担任更加重要的作用。如何开展呢?这个可以采用大学生挑战杯的模式,以及美国疾控中心邀请赛的模式,每年提供若干个主要竞争单元的计算机软件系统等设计比赛。由一些大学的计算机与信息技术科系的学生提供一个初期的操作系统(或者符合要求的软件系统),经过竞赛评比,选择最优秀的若干个进行下一步的发展与优化。而得奖的团队需要即时在自己学校内公开源代码,保证下一年学生的继承性;一年两年以后在全国公布源代码。这样既保证了优胜团队的一定程度上的领先,又保证透明性,从而增加竞争与合作。希望这样的开源竞赛可以让计算机等专业的学生做一些切实的有用的毕业实践。相对而言,没有那么多竞争的项目,也可以建立起github一般的开源网站,当其他程序员发现代码中的小故障时,可以提出拉取请求(pull request)一般,从而保证持续的进步与提高。这些开源网站的内容与更新作为毕业论文的评价,从而减少形式主义的努力,做了也没有什么用或者没人看的论文。
这一部分60%学生毕业论文的修改措施解决了软件基础设施建设的主要问题。下一步便是如何提高中国研发水平和科研人才的培养。科学很重要的一个特征在于它的可重复性,但是从21世纪开始人们注意到随着论文数量的增加,有更多的科研结果无法被重复,尤其以社会科学和生命科学领域的研究为甚。美国国家医学院院士约翰·艾恩尼蒂斯专门写了文章解释为什么这些发表结果难以重复[3],他与合作者后来发表了论文,检视在论文发表压力下研究结果的可信度[4]。三成的学生可以试着去重复一些比较重要的研究结果,这对于他们全过程的实验设计与分析都有助益。
如何更加合理地安排资源进行重复实验呢?《自然》杂志鼓励大家去尝试,甚至建议期刊去发表一些这样的重复内容[5]。但是实际上让期刊发表重复工作有些勉为其难,这些结果应该以开放获取论文(或者报告)的形式发表。选题是比较重要的,首先这个结果必须是有一定影响力的,其次这个结果是与自己实验室的研究方向比较接近或者相关的,这样如果重复成功,对于自己实验室可能转变方向也有一定助益。我们知道科研是走弯路的过程,尝试了不同的方向,最后发表科研论文的时候,为了让别人少走弯路(或者为了不显示自己的过程中的失误而尴尬),只把成功的数据提供出来。还有一些论文为了保持领域的先进性,论文时忽略掉一些细节内容,增加其他人重复时的工作量,所以重复别人的实验也是很重要的。有趣的是,一些失败的数据常常不能发表在期刊上,但是对于指导如何正确做实验很有帮助[6]。这样这些科研储备人才的工作也可以很好地总结发表在重复试验论文库中,补充里面没有描述的细节,从而增加未来研究者少走弯路,而且对自己也是很好的锻炼。
至于大学毕业生中那很有科研倾向的10%的学生,只要有合适的老师与高年级的学姐学长指导,可以做些创新问题,每个人的培养方式都不同,而且教授们更有经验如何培养这些学生,也不在此赘述了。
当然也有一部分学生更加倾向于去公司实习,这也可以鼓励。但是我们应该考虑到,大学生的学费便宜,因为受到了政府的补贴,而且连食堂的饭菜都比外面便宜,这对于没有进入大学的初高中毕业生算是不公平。所以大学生也应该铭记自己有服务社会的义务。共建知识百科,开源与创新项目,重复性实验都是大学生的一个义务的体现,因为享受了政府的补贴。那些选择做实习的学生,可以考虑将实习工资的一般交给学校,作为这些知识网站、开源项目等服务器与网络开销,以体现他们的义务。这些实习的同学也可以考虑,更高地商议自己的实习工资,取得双赢的结果。
《假如记忆可以移植》,是高考作文题目的一次突破,但是记忆包括了情感与知识,情感的移植会导致多方面的问题,但是我们可以完成这个科幻的思路中的知识的移植。其他人可以站在专业人士审核的可靠的知识、开源系统、开源软件、可重复实验等等的基础上。《统计学习基础》这一本书在序言中引用了威廉·德民的一句话“我们相信上帝,其他人带来数据”,来强调数据的重要性,但是最后却发现没有任何数据来证明德民讲过这句话[7]。或许人类的知识就是这样,到底进化到什么程度,突然有一天谁能够开口讲了第一句话,我们没有证据去考证。我们能够做的便是把前人的知识整理出来,传递下去。在这知识型社会,普通人也可以触手可及值得信赖的知识,而这便是大学毕业论文改进的一个方向。
引用文献:
[1] 向晖、闫乃之、付海亮、周博,毒性之争引发的PX“词条保卫战”, 来源:CCTV新闻联播 2014-4-7
https://www.tsinghua.edu.cn/publish/news/4207/2014/20140408165830063831040/20140408165830063831040_.html, 2020年2月9日最后访问。
[2]魏则西之死 拷问企业责任伦理,人民日报海外版2016年06月28日,http://tv.cctv.com/2016/06/28/ARTIKCdDlKKGMqKO2QnQaBJg160628.shtml, 2020年2月9日最后访问。
[3] 约翰·艾恩尼蒂斯,为什么大多数发表的研究发现是错误的(原因),PLos 医学, 2.8卷,e124, 2005年。Ioannidis, John PA. "Why most published research findings are false." PLos med 2.8 (2005): e124.
[4] 大卫·罗伯特·格莱姆斯,克里斯·T·鲍驰,给发表或是毁灭压力下的科学的可信度建模,开放科学皇家学会,5卷,171511页,2018年。Grimes, David Robert, Chris T. Bauch, and John PA Ioannidis. "Modelling science trustworthiness under publish or perish pressure." Royal Society Open Science 5.1 (2018): 171511.
[5] 往前走去重复,自然,536卷,373页,2016年, go forth and replicate,Nature vol 536 (2016), page 373
[6] 保罗·拉库格里阿等,利用失败数据的机器学习辅助的材料发现, 自然533卷,73页,2016年。Raccuglia, Paul, et al. "Machine-learning-assisted materials discovery using failed experiments." Nature vol 533,(2016): 73-76.
[7] 特拉佛·哈是提,罗伯特·提布西拉尼,杰罗姆·弗里德曼,统计学习基础:数据挖掘,推测与预测,斯普林格出版社,2009年。Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer 2009.