ChIP-Seq分析之ChIPQC结果含义

如题所述

举报该问题

其他回答

第1个回答 2022-07-08

示例结果可以看： https://www.dropbox.com/s/sn8drmjj2tar4xs/ChIPQCreport - full dataset.zip?dl=1

首先映入眼帘的是总体报告：

其中有一些指标见过，一些没见过，像是SSD, RiP and RiBL这几列就是ENCODE计划提出的指标。就是评估了信号的分布，在富集区域、整个基因组、已知的artefact regions

总而言之，这些全部的指标可以分为4类：

切记：通过这些指标也不意味着实验就是成功的，相反亦然

包括了：read depth, read length, duplication rate

如果read depth, read length在样本间差异很大，就要引起注意了

由于之前已经过滤掉了重复reads，所以这里的duplication rate没什么用

包括了RiP, SSD, and RiBL

也叫FRiP，表示：the percentage of reads that overlap ‘called peaks’，也就是peaks包含的reads数占reads总数的百分比

可以理解成：信噪比（signal-to-noise）

根据感兴趣蛋白（POI，protein of interest）的不同，RiP值也差异较大：

上面图中看到，Nanog比Pou5f1的RiP值要高，而Pou5f1-rep2更是低的可怜，可以说明的是：Nanog样本富集效果更好

有两张图可以反映：

不过看箱线图发现，虽然Nanog的RiP较高，但这个分布和Pou5f1也相差太远，推测可能与read length 、 depth有关

表示基因组中信号值的标准差，可以反映reads在基因组中覆盖度一致性，越大越离散，就是高的越高，低的越低

我们希望看到：IP样本中这个值较大，说明富集区域信号很强 ，非富集区域信号较弱，因此它的标准差很大；而control样本最好就是标准差较小，不要有太大的波动

SSD值高虽然说明有的区域信号强，但不一定是ChIP的富集区域，一些blacklist区域也会存在较强的信号

【关于blacklist：】

我们这里的数据显示：Pou5f1比Nanog的SSD值要高，可能说明Pou5f1的富集效果更好，但不能确定，因为还需要确定Pou5f1的SSD高不是由于未知的artifact造成

有一张图可以反映：Coverage histogram

好的富集结果一般是：有一条尾巴（依然存在很多位点具有较高的测序深度）；而像input样本这种低富集的，主要是包含背景，因此它的y轴很高，同时x轴很低

我们这个数据集中，尤其是 Nanog rep2样本，具有更粗壮的尾巴（Heavy tail，意思就是在曲线以下具有更大的空间） 。Nanog样本具有更多高深度的位点

综合考量：

Pou5f1的coverage不如Nanog，但SSD高于Nanog。说明Pou5f1存在某一块区域深度较高，但不是整体都高，可能存在blacklist区域

那么是否真的存在blacklist区域呢？还有再看一个指标：

也就是与已知blacklist有交集的reads占比。这个值越低越好

黑名单区域一般也是唯一比对，因此常规的去重复操作对它无效。这些区域一般是：着丝粒，端粒和卫星重复序列

黑名单区域的危害是：confound peak callers and fragment length estimation，因此需要追踪并去除比对到这些区域的reads

我们的数据中，RiBL的比例看上去还比较合理，并没有出奇的高。因此高SSD可能是因为存在更多容易破碎的开放染色质区域，或者存在hyper-ChIPable区域，与很多不相干的蛋白也能产生富集，导致假阳性

当然，如果在peak calling之前去掉了黑名单区域，就没必须分析RiBL了

主要包括：FragLength and RelCC（又称Relative strand cross-correlation coefficient or RSC）

一般，RelCC在所有的ChIP样本中大于1，表示具有较高的信噪比；FragLength也应该与文库制备过程中设定的片段长度接近

一个高质量的ChIP实验，会在POI附近形成非常显著的reads富集，会在正负链发现双峰分布

Cross-Correlation scores的计算：Pearson’s linear correlation between coverage for each complementary base. These Pearson correlation values are computed for every peak for each chromosome and values are multiplied by a scaling factor and then summed across all chromosomes，就是先在正负链生成两个向量，表示某个碱基位点的reads数量，然后求这两个向量的相关性，并逐渐沿着shift size移动，最后得到一个相关性表

最后这个cross-correlation值算好，就会画在y轴上，x轴就表示shift size

一般这个cross-correlation plot会产生两个峰：

我们这里的数据中，Nanog 和 Pou5f1都能看到两个峰：

它就是根据cross-correlation的最大、最小值计算的

RSC值低可能是由于ChIP的质量差、测序reads质量差导致错配多、测序深度不够【其实可以理解为：RSC值低=》就是相关性计算的值低=》正负链没有足够的reads =》也就是上述原因】

另外，数据集的结合位点太少（比如小于200）也会导致低的RSC【这个也很好理解，结合位点少，更别提位点正负链富集的reads数量了】。结合位点少的原因可能是生物因素（比如某一个因子在某一个特定组织中就这么几个位点）

Cross-Correlation Plots的例子

强信号：

下面这个例子是人类细胞的CTCF 转录因子(zinc-finger transcription factor)。使用一个好的抗体，转录因子一般会富集45,000 - 60,000个peaks。红线表示真正的peak，蓝色线表示read length

弱信号：
抗体不是特别有效，得到的峰也比较分散，在185-200bp间存在真的峰，另一个蓝色则是read length。对于弱信号的数据，read-length peak将占据主导地位

没有信号：
表示实验失败或者input样本，基本看不到fragment length这个峰
也就是在特定的结合位点附近，没有富集到reads

将peaks与基因组注释结合起来，看看reads主要富集在哪些区域

我们的数据中，“Promoters500” and “All5UTRs”的富集程度最高，也符合预期（Nanog和Pou5f1作为转录因子应该结合在这块区域）

这个形状根据抗体的类型存在差异：transcription factor, histone mark, or other DNA-binding protein such as a polymerase

相似回答

我的ChIP-Seq(1): FastQC报告解读答：新手，刚做完一个ChIP-Seq项目的分析，来记录一下，会分好几篇。首先是下机数据fastqc之后会生成一个html格式的报告，根据报告可以看出自己数据的特点，便于之后clean的参数设置。以下是fastqc（v0.11.5）报告的内容说明（以自己的数据为例，经公司粗过滤后的下机数据）有网上搜索到的也有自己的体会：...

chipseq原理及分析答：ChIP-seq，指的是结合位点分析法，作为研究体内蛋白质与DNA相互作用。染色质免疫共沉淀技术（Chromatin Immunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效...

02高通量测序-ChIP-Seq简介答：ChIP-seq代表“染色质免疫沉淀结合高通量测序”它能识别基因组中蛋白质结合的位置。例如，我们想要识别基因组中所有被绿色的东西结合的区域。这是我们从ChIP-seq reads中创建的“轨迹”(track),很多reads都映射到下图中间地区,相对来说，只有很少的reads被映射到其他区域。下面那条“轨迹”来自一个对照...

一文读懂 ChIPseq答：这里需要知道，ChIPseq是利用抗体去结合特异的靶蛋白，进而去沉淀靶蛋白结合的DNA。理论上，只要抗体设计的好，与蛋白质结合的 DNA 的都可以检测到。我们一般用 ChIPseq 检测转录因子的结合，以及检测组蛋白修饰，二者有着截然不同的峰形：转录因子结合的特征峰，峰型高，而且窄：组蛋白修饰结合的特征峰...

chipseq峰图怎么看答：蛋白质与DNA的结合情况。在ChIP-seq峰图中，y轴代表ChIP-seq的信号强度，x轴代表基因组坐标。基因组的某个位置蛋白质结合的概率越大，检测到的DNA片段堆叠就会越高，在峰图中，峰值就会越高。没有蛋白结合，就会几乎没有DNA片段堆叠，峰值就会很低。峰图中的峰就是DNA片段堆叠，叫Peak。

易基因 | ChIP-seq技术简介答：染色质免疫沉淀后测序( ChIP seq )是一种针对DNA结合蛋白、组蛋白修饰或核小体的全基因组分析技术。由于二代测序技术的巨大进步，ChIP-seq比其最初版本ChIP-chip具有更高的分辨率、更低的噪声和更大的覆盖范围。随着测序成本的降低，ChIP- seq已成为研究基因调控和表观遗传机制不可或缺的工具。原理：...

什么是CHIP-PCR?什么是CHIP-chip?答：chip-chip是染色质免疫共沉淀技术（ChIP）及与芯片方法的结合。应用 ChIP-chip技术对于大规模挖掘顺式调控信息成绩卓著，同时它可以用于胚胎干细胞和一些疾病如癌症、心血管疾病和中央神经紊乱的发生的机制。研究人员还可以利用这项技术开发一些治疗方法。ChIP-chip技术研究主要集中于两个领域：及转录因子的...

大家正在搜

结果的含义是结果的含义是什么意思结果的含义与理解化产品分析QC成果奖 QC分析研发分析和QC在一起 QC仪器分析主管研发分析与QC的区别 QC分析专员