作者:大魔狮
转载请注明:解螺旋·临床医生科研成长平台
近年来,测序技术飞速发展,在科研中更是十分普遍。大家一定发现,随便翻开几篇文章都能找到microarray、RNA-SEQ等熟悉的字眼,没个高通量测序都不好意思说自己搞了个课题!
然而涉及到这些生信方面的技术,满屏幕的代码,看起来杂乱无章的数据,是否让你头大呢?科研经费紧张的你是否没有办法涉足大数据科研呢?没有过硬的关系网,是否很难搞到临床样本做大数据分析呢?
没关系,让我来教你怎么利用自己的电脑,运用NCBI的GEO数据库、EXCEL等软件,傻瓜式的进行初级的大数据挖掘和分析,甚至找到一个2-3分的课题!
下面以癌症为例,我们可以这么想:紫杉醇(paclitaxel)是一个常见的癌症用药,但是经常因为耐药性而失去应有的疗效,那么其中的分子机制是否有研究的价值呢?
首先,打开NCBI(https://www.ncbi.nlm.nih.gov/),如下图选择GEO Datasets,输入paclitaxel cancer,点击Search搜索。
出来以下结果:
一共105个是Series,也就是别人做了测序并发文章以后上传到NCBI上的数据,后面的是测序平台、还有各样本的信息,大家有兴趣可以自己摸索以下,这里不涉及了。如果搜索到的结果较多,你也可以点击页面左侧的series来只显示我们需要的条目。我发现第七个搜索结果有点意思。
点进去看看。
等我们阅读完摘要和实验组的处理方法,确定该数据符合我们的需求,就可以点击Analyze with GEO2R,进入下面的页面,利用NCBI提供的工具进行数据分析。
接下来,我们点击Define groups,输入两个分组,分别是normal和resistant,并分别将普通的细胞系和耐药细胞系点击分入这两组,分组完毕后,点击save all results,获取两组之间的差异表达基因(稍等几分钟)。
得到如下的结果,把他们全选并复制,粘贴到记事本中,保存为result.txt。
接着我们将result.txt导入到EXCEL中(数据->自文本,选择results.txt按默认设置导入即可)。
待数据导入完成,我们全选数据表,点击EXCEL的筛选功能,准备对数据进行筛选。
下一步,我们需要对差异表达基因的数据进行进一步的筛选。在这里,我们将p.value(p值,象征着差异的显著性)和logFC(log2处理过的fold change值,象征着差异的倍数)设定为: p.value<0.01,><-2 or="""" logfc="""">2。即差异表达非常显著,并且差异表达在4倍或-4倍以上。具体做法参见下图。
筛选p.value:
筛选logFC:
最后我们可以在EXCEL左下角的状态栏看到,一共筛选出来46个条目。
让我们回过头来看筛选完的数据表GB_ACC这列可以看到很多类似NM_开头的序号,这些序号可以在NCBI上直接查询到对应的基因是什么,可以认为是该基因的身份证。
我们尝试一下,将第一个序号放到NCBI上搜索:
这就是一个在耐紫杉醇细胞中差异表达的一个基因。到这里,其实已经可以作为一个课题的开头了,但是为了我们高(zhuang)大(da)上(bi)的追求,我们还有很多事情可以做。
给大家带来一个神奇的网站:DAVID (https://david.ncifcrf.gov/)
这是一个可以做GO分析,KEGG通路分析,基因功能的批量注释等等非常实用的网站,操作很亲(sha)民(gua)在这里我简单介绍一下用法。
点击Functional Annotation进入如下页面。把我们刚才筛选出来的数据依下图指示操作,然后点击submit list提交并分析。
稍等片刻即可得到分析结果页面:
在这个页面里面我们可以看到许多跟我们筛选出来的基因相关的信息,由于篇幅关系,我只挑一个来做个示范,其他的大家可以自行学习。
我们点击最下方的Functional Annotation Table按钮,弹出窗口会出现一个表格(如果没有弹出,请查看你的浏览器是否屏蔽了弹出窗口),里面囊括了大量我们筛选出来的基因的相关信息,具体参见下图:
最近几年长链非编码RNA(LncRNAs)研究很火热,正好结果里面有一个long intergenic non-protein coding RNA 470(LINC00470),我们就把他抓住,看看有没有可以挖的课题。
我们将LINC00470放到PUBMED上进行搜索,发现没有相关的文章!
那么下面怎么做,大家懂得,赶紧给老板写开题报告吧,嘿嘿嘿。
谁要想做的留个言,别闷声发大财哦!发了SCI,记得请我吃鸡腿啊。