在TCGA项目中,使用Affymetrix SNP 6.0芯片来分析CNV, 首先使用DNACopy这个R包来计算拷贝数,然后用GISTIC2根据CNV来评估基因的变化情况,识别loss还是gain, 流程示意如下
对于CNV分析的结果,提出了SEG这种存储格式,内容示意如下
第一列为样本ID, 第二列到第四列为segmentation分析后划分好的拷贝数相同的基因组区域,第五列为该区域包含的探针数,第六列的值称之为segment mean,计算公式如下
log2(copynumber / 2)
类似转录组中log2foldchange的转换,对于二倍体生物,拷贝数增加时,该值大于0,拷贝数减少时,该值小于0。
SEG格式的文件可以导入IGV中进行查看,以TCGA中的一个拷贝数分析结果为例,从以下链接下载seg格式的分析结果
https://portal.gdc.cancer.gov/files/60778de0-458a-4b58-91cd-fdb879235c0c
导入IGV之后,效果如下所示
IGV在读取SEG文件时,首先读取前4列的信息,第一列作为track name, 二到四列作为染色体位置,然后用最后一列的值作为segment mean, 其他列则忽略。默认情况下,用热图的形式来展示segment mean值的分布,热图的图例可以通过菜单栏的View->Color Legends进行查看,示意如下
也可以在这里修改热图的颜色。SEG格式格式可以同时存储多个样本的CNV分析结果,不同样本可以通过第一列的ID来进行区分,对于每个样本,都会用一行来展示其segment mean值的分布。
将SEG导入之后,不仅可以查看不同样本间CNV分布的异同,还可以快速定位基因或者特定染色体区域的CNV情况。
·end·