今儿得按惯例,上来先啰嗦个几句。2月5日上午我在写这篇博文,刚写了一小半看见朋友们在转Dr. James Lyons-Weiler的博文,当时评估了一下重要性,感觉James的博文误导性更大,所以先写了篇《新冠病毒不是源自实验室》来驳斥,贴出去之后就在琢磨,James为什么会出错,不会真的是BLAST用错了吧?因为BLAST的不同程序,用起来有那么一点点小区别,如果用错有可能就掉坑里去了。第二天早上起来一试,晕,还真是BLAST用得不对,所以赶紧又补了篇《关于“新冠病毒不是源自实验室”的科普》,把这个问题讲清楚。James用错BLAST这个问题,事实上国内外生信学者看出来的不少,我贴出第二篇博文之后,发现很多朋友之前就已经察觉了。话说BLAST的使用其实没什么技术含量,James碰到的问题,我做生信十几年来从来没有遇到一次,当然这个问题肯定是要收录到教案里,例如今年给学生们讲《生物信息学》这门课的时候,就有了典型案例来讲解BLAST不同程序如果用错可能会出什么问题。
=================================================
今儿废话不多,我们讲正事。昨天上午有朋友转来一则新闻,法国有位诺奖获得者宣称新冠是人造的,到中午的时候就发现饶毅老师写了帖子出来批这位诺奖得主的说法“有很强的欺骗性”,其人“从事伪科学多年”。这里面有两个问题,第一,这位诺奖得主是不是在胡说八道?第二,此人是否真的从事伪科学多年?
我们先讨论第一个问题,先说结论,那就是这位诺奖得主的确在胡说八道。这位诺奖得主是法国著名的病毒学家吕克·蒙塔尼(Luc Montagnier),1983年与团队成员、女科学家Françoise Barré-Sinoussi首次报道了一种从患者体内分离出的新病毒,即艾滋病病毒(HIV),2008年两人因HIV的发现获颁诺贝尔生理学和医学奖。1984年,美国科学家Robert Gallo也独立发现了HIV,当时命名为HTLV,后来发现其实就是HIV。这个诺奖有一点点争议,因为1982年的时候Robert Gallo首先提出艾滋病的病因可能是一种逆转录病毒,后来他也分离了很多HIV的毒株,结合血检实锤HIV是的确是艾滋病的病因。当然,吕克·蒙塔尼首次报道HIV的分离,这个没有争议,虽然Robert没有拿诺奖,但他自己说“吕克和我是共同发现”。
吕克·蒙塔尼认为新冠病毒是人造的,他的理论依据是什么?是印度学者之前的一项未经同行评议的论文。2020年1月31日,印度理工大学和德里大学的科研工作者在生物预印本网站上贴出一篇文章,题目为《新冠病毒Spike蛋白中独特插入与艾滋病毒gp120和Gag的蜜汁相似》(Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag,文章显示已撤回)。文章题目里的“Uncanny”,意为“神秘的、可怕的、怪异的,或危险的”,因此翻译成“蜜汁”是精确的。根据百度百科的信息,印度理工大学“被称为印度‘科学皇冠上的瑰宝’,是印度最顶尖的工程教育与研究机构”,德里大学“在印度的高等学府中,是地位最高、影响最大的大学”,因此这俩凑合在一起,大约就相当于印度版的清华和北大合一起在线贴了篇文章。据史料记载,这可能是有史以来清北被黑得最惨的一次。
这篇文章的主要工作,是通过序列比对,发现新冠病毒的长钉蛋白(Spike)序列,具有4个独特的、非典病毒SARS中不存在的插入片段(Insert)(见下图)。通过结构模拟,推测这4个片段可能是受体结合位点的组成部分。这4个片段与艾滋病毒HIV-1的gp120和Gag的蛋白质序列存在相同或相似的部分,因此长钉蛋白和gp120/Gag之间存在“惊人的关系”(an astonishing relation)。这篇文章贴出来之后,立即被学者批驳,其中一篇是美国德克萨斯大学埃尔帕索分校Chuan Xiao和美国杜克大学Feng Gao正式发表的论文,题为《HIV-1 did not contribute to the 2019-nCoV genome》(HIV对新冠基因组没有贡献);另一篇是结构信息学领域顶级学者、美国密歇根大学张阳教授课题组在BioRxiv网站贴出的文章,驳斥三哥的荒谬观点。另外,张老师去年和我校的两个研究团队合作,从微生物组大数据中发现新的蛋白质结构,这项工作入选2019年度“中国生物信息学十大应用”。
在三哥的文章里,三哥的文章,问题在哪里?三哥认为新冠的4个独特插入可能来源于艾滋病毒,这个说法对不对?如果不对,那这4个独特插入从哪儿来的?新冠的4个独特插入为什么会与艾滋病毒的蛋白质序列有相似性?我们先放最后一个问题的答案,那就是:
**********************************
“纯属巧合”(Randomly matched)。
**********************************
要理解这个问题,我们需要一点点概率论的知识。考虑两枚硬币,我拿起一个掷出来个正面,问理论上你平均掷多少次也能和我一样掷出个正面?这个问题很好理解,硬币有正面和反面,各有50%的概率会出现,所以理论上你随机掷两次,“预期”会有一次是正面。再考虑四枚硬币,我拿起两枚硬币,第一次掷出正面,第二次掷出背面,问理论上你平均掷多少次也能得到第一次正面第二次背面的结果?这个也很好理解,第一次掷出正面的概率是0.5,第二次掷出背面的概率是0.5,所以随机掷出一正二背的概率就是0.5*0.5=0.25,因此理论上你要随机掷4次,使得概率P=0.25*4=1。假如我们把硬币换成20面体的色子,数字从1到20,我掷出一个数字比方说15,那理论上你平均掷20次能得到一次数字为15的面。如果两枚20面体的色字,我第一次掷出来15,第二次掷出来7,那理论上你平均需要随机掷20*20=400次,才能得到一次我这样的结果。如果你随机掷了400次,我们把每一次掷出的数字记录下来,按先后排序,这就是随机序列(Random sequence)。
我们知道常见的氨基酸有20种,这样可以类比成20面体的色字,每个面上标一种氨基酸名称,投掷若干次,记录下每次得到的结果,按先后排序就成了随机得到的蛋白质序列。这样,对于三哥讲的第一个插入“TNGTKR”,我们可以计算,当随机产生的另一条序列长度为20*20*20*20*20*20=64,000,000时,我们预期可以看到一个能够与这个插入完美匹配的片段。我们从公共数据库UniProt上下载人类蛋白质组数据集,总共包括20,607蛋白质序列,写个简单的Perl代码就可以算出来总长度为12,952,278个氨基酸,这个数字大约是6400万的1/5,所以瞎猫碰死耗子没准在人类基因组里也能搜到类似的片段。所以我们利用Expasy的BLAST工具(注意,又是BLAST哦)将TNGTKR片段在人类蛋白质组里检索,果然发现有一个完全相同的片段,来源于人类组织相容性复合物II型抗原蛋白质中(下图A)。同理,对于第二个插入“HKNNKS”,理论上随机序列长度为6400万个氨基酸的时候,应该也能随机匹配上一个片段,但是这次我们在人类蛋白质组里没有找到,反而是在小鼠里找到一个完美匹配(下图B)。按照类似的方法,我们可以发现第三条插入“RSYLTPGDSSSG”可以在大腹园蛛中找到相似度较高的片段(下图C),而第四条插入“QTNSPRRA”则可以在杂色曲霉中找到完全相同的匹配片段(下图D)。这里需要注意,第三条插入在数据库中找不到完美匹配,最主要的原因是片段比较长,有12个氨基酸,这就需要随机序列总长为20^12=4,096,000,000,000,000的时候,理论上才可以找到一条完美匹配的序列。但无论如何大腹园蛛中找到的片段,与新冠第三条插入的相似性,要比HIV里的高。
这样,我们就很容易讲清楚,第一,新冠的4个插入在其他物种里也能找到相同或者高度相似的片段,有没有可能是某个三哥捐献给新冠的呢?有没有可能是小鼠的片段跑到新冠里面去的呢?不能是蜘蛛爬到新冠里面吗?或者是长霉了?都没有可能。这就是随机匹配的结果,也就是纯属巧合;第二,这4个插入与艾滋病毒的序列有一定的相似性,自然也是纯属巧合;第三,这4个插入哪儿来的?答:自然变异(Natural variation)。病毒是不断演化的嘛,演化的过程中自然产生突变,那就有喽,跟人造没有一毛钱的关系。
所以,三哥的文章,问题就在于数学没学好。《概率论和数理统计》这门课是大学里比较基础的课程,一般大二的学生都上过。当然喽,我没有想明白印度版的清华和北大究竟有没有开设过类似的课程。由此看来,山寨跟原版还是很有差距的。三哥的这篇文章,从根儿上就错了,这样吕克·蒙塔尼的理论基础就崩溃了,那自然他的说法就是胡说八道了。
本篇絮絮叨叨讲了这么长,那就先讲到这里吧,关于吕克·蒙塔尼是不是多年从事伪科学,我们先讲结论:是的。具体内容只能下篇再谈了。