小编为大家写这篇帖子之前,查阅了市面上很多关于GEO数据库基因表达谱差异基因分析的帖子,发现几乎千篇一律的是直接使用整理好的矩阵文件来操作的。大家都知道,GEO数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是GEO数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理。今天小编将从GEO芯片的原始数据进行分析,也算是一篇另辟蹊径的帖子吧!
首先,进入GEO的首页,还是两种方式任选:1、NCBI官网的GEO DataSets或GEO Profiles进入(进入NCBI数据库后下来搜索框);2、GEO数据库主页。输入:Cervical Cancer。点击search。
跳转界面后可以依次查看基因芯片注释,点开里面有关于这张芯片的简介,找到自己研究所需的即可。
本帖选择了宫颈癌的表达芯片“GSE89657”来分析。
点击芯片的标题,就能看到芯片的全部信息了(这点英文还是能看懂的)!
将页面下拉至底部,这里有三个红色方框框起来的,第一个是平台文件(也就是探针信息),第二个是矩阵文件(GEO分析最常用的),第三个是原始文件(数据最精确的)。虽然说矩阵文件分析最简单,但是因为GEO不对芯片数据做质量控制,因此矩阵文件在某些时候并不是十分准确的。
下面开始下载数据了,首先我们需要下载原始文件,也就是格式为TAR(OF CEL)的文件,点击http下载原始文件后解压,下载平台文件GPL6244-17930(打开整理一下)。这样我们分析的数据就准备好了!
今天为大家介绍一个包分析GEO原始数据的affy包。
打开Rsudio,安装R包。
将解压好的CEL文件所在的路径设为工作目录,加载R包,读取数据(ReadAffy函数可自动读取CEL文件),然后对数据集进行回归计算。
下一步需要进行数据质量的控制。
首先,上一幅灰度图,灰度图中颜色明显偏白的数据代表质量不好的数据。
权重图:可反映数据在整体中的重要程度,可以看出,本芯片数据较好,芯片质量较高。
残差图:主要是在回归分析中看数据的分布情况。
符号残差图:和残差图差不多的意义,只是图片在色彩上看着比较绚丽。
质量控制:相对对数表达(RLE),指一个探针组在某个样品的表达值除以该探针组在所有样品中表达之的中位数后取对数。反映平行实验的一致性。
质量控制:相对标准差(NUSE),指一个探针组在某个样品的PM值的标准差除以该探针组在各样品中的PM值标准差的中位数后取对数。反映平行实验的一致性
比RLE更为敏感。
质量控制:RNA降解图,它的原理是RNA降解从5’端开始,因为芯片结果5端荧光强度要远低于3’端。
GEO的芯片质量控制方法主要是上面几种,下面开始对数据进行整理归类。首先将解压好的CEL文件再次解压,然后建立两个文件夹:cancer和normal。根据芯片的注释按肿瘤组和正常组将解压好的CEL文件放进新建的两个文件夹里面。
对正常组进行背景标准化处理
输出结果
同样的方法对肿瘤组进行背景标准化处理
再新建一个文件夹命名为cel,将上述用RMA法处理的得到的两个txt文件放在cel文件下面。 然后将两组文件合并,得到cancer.probeid.exprs.txt的文件。
将平台文件GPL6244-17930也放入CEL文件夹里面。对平台文件与刚刚得到的标准化文件进行整合。
对genesyb这个文件我们需要补充缺失值,本帖采用KNN法,依照表达谱相似性加权来填充缺失值。
通过以上方法,就可以整理出一个真正属于我们自己的矩阵文件,最后,对自己的矩阵文件求差异基因——使用R语言“limma”包。
可以看到,差异基因已经输出在cel文件下面了。
打开EXCEL文档。这些便是进入我们求出的差异基因,通过P-value来设定CUT-OFF值后便可得到上下调的差异基因,这些差异基因可以继续进行生信分析(且听以后分解)。
这就是小编今天为大家带来的GEO数据库基因表达芯片分析流程,虽然有点小复杂,但是仔细钻研,还是挺有意思!下期,我将为大家介绍无代码版的GEO数据分析方法(不会R语言如何分析GEO基因表达芯片),敬请期待,尽在百味科研芝士!
关注公众号