今天在朋友圈无意发现百度正在组织螺旋桨RNA结构预测竞赛的新闻,而且12月20日就开始注册了,并且把我们最近的一个工作(Nature Communications 10, 5407 (2019))作为学习材料,算是小惊喜。在deepmind公司的AlphaFold于2018年蛋白质结构预测一炮打响的推动下,国内外多个科技大公司如百度、阿里、腾讯、华为、微软等也开始进入生物计算领域。而AlphaFold2前不久在第14届蛋白质结构预测比赛上所获得的突破性的进展让科学家们既高兴、又不安。高兴的是原来以为还需要10年的功夫,居然让Google从AlphaFold起,4年就突破了,充分体现了当一个领域成熟到一定程度,把科学问题当工程问题来解决的重要性。不安的是一个缺经费、少人才的小科研团队怎么能和几乎可以说有无限的计算资源的几十人的大兵团竞争?可以想象,今后各国政府对蛋白质结构预测的经费将大幅度下降,尽管问题还没有真正的解决(见以前的博文)。
现在百度组织RNA结构预测竞赛,这是在蛋白质结构预测比赛之外开辟另外一个战场,的确是一件好事情。其实,科学家也组织了类似于蛋白质结构CASP比赛的RNA结构预测竞赛。它称为RNA puzzles,在过去的大约十年里有四届了,但能用于鉴定计算结果的、实验解出来的新结构也就几个,参加团队不多,进展不明显,所以一直没有蛋白质结构预测那么热闹,这次百度组织RNA结构预测竞赛能不能打开新局面呢?
怀着激动的心情,进入百度网站看到的却有点失望。挑重要的说说:
1)首先网站一开始表明的目标就有问题:“本赛题旨在解决RNA结构预测这个世界级难题,要求参赛选手基于百度发布的世界上最快的RNA二级结构预测算法LinearFold和世界上最快的RNA配分方程算法LinearPartition,预测给定RNA序列在每个位点上保持不成对的概率。”在我看来“旨在解决RNA结构预测这个世界级难题”与要求“基于百度发布的世界上最快的RNA二级结构预测算法LinearFold和世界上最快的RNA配分方程算法LinearPartition”是相互矛盾的。LinearPartition我们用过,的确比较准确、快速好用,是我们发展的方法SPOT-RNA2二级结构预测及RNAsnap2溶剂可接触面积的输入特征的一部分。但是这次比赛,事先画了一个圈,让大家在圈子里面搞创新,能够创新到哪里去?要是真正想解决RNA结构预测这个世界级难题就必须利用一切可能的工具、让参赛人全力发展全新的方法。现在给人的感觉是为自己公司的工具做植入广告。
2)号称“本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等均可报名参赛”,但虽然看起来有英语版本的link,但实际上这个link里也是中文版本,看样子只限于看得懂中文的人才能参加。要想解决世界性的难题,不让世界各国的人才参加,这样的比赛结果会是世界认可的突破吗?
3)比赛请了David H Mathews教授作为生物计算指导专家。Mathews是RNA二级结构预测方面的前辈,但好像并没有利用深度学习这方面的经验,是不是也应该邀请一个有深度学习经验的人来指导一下,毕竟训练集、测试集数据的建立非常有讲究,弄得不妥,就会“garbage in, garbage out”,也就是说,给垃圾数据来训练,出来的只会是垃圾方法。如果最后比赛第一的工作是偏向某方面过度训练的方法,不就变成了国际笑话?
4)比赛要求使用百度的深度学习平台飞桨进行模型的设计、训练和预测,难道百度没有和其它平台比赛的勇气?
5)最重要的是比赛的目标居然是“Unpaired Probability”,这个“不参与碱基配对的几率”,仅仅是一维的信息,碱基配对的几率还是二维的,RNA puzzles比赛的是三维的结构,这个比赛怎么倒退到一维去了?估计是百度准备用实验方法测量某些RNA的一维结构信息,但一维结构信息的实验方法的精度是很有限制,背景噪声大,是不是真正能够发现最正确放映出三维结构的在一维的投映方法非常难说。
不过有一点值得表扬的是“大赛主办单位中有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不可领取任何奖项,且参赛队伍命名中不可出现“百度官方”,“飞桨官方”,“paddle官方”,“官方baseline”等字样”,至少不会出现既是裁判又是运动员的情况,想象一下deepmind公司的AlphaFold2在Google自己组织的比赛中获得第一名的效果。
不管怎样,百度想砸钱听点响声也是可以的,值得提倡,但竞赛的目标不能说是为了RNA的结构预测,因为预测的不是结构,而仅仅是一维无结构配对的这个信息。