数据原理——1、ChIP-seq
文章目录
-
-
1、背景介绍
-
2、测序对象:三种类型组蛋白(组蛋白、转录因子、转录调控子)
-
3、测序原理
-
4、检测蛋白质与DNA序列的结合峰
-
-
- (1)测序片段匹配到参考基因组
-
-
(2)检测峰
-
(2)提高峰质量
-
5、影响ChIPseq测序结果的因素
-
-
- (1)免疫共沉淀的影响
-
-
(2)测序的影响
-
(3)酶断裂方法和超声波打断的影响
-
ChIP-seq(研究体内DNA与蛋白质相互作用的方法)
1、背景介绍
ChIP-seq测序方法:
- ChIP 指染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)
- seq 指的是二代测序方法(ChIP-seq比ChIP-chip具有更高的分辨率、更低的噪声和更大的覆盖范围)
作用: 识别蛋白质与DNA互相作用情况
原理: 染色质免疫共沉淀 + 二代测序
应用: 常用于转录因子结合位点和组蛋白修饰位点的研究
2、测序对象:三种类型组蛋白(组蛋白、转录因子、转录调控子)
①组蛋白 与DNA的结合是结构性的,结合强度非常大,分度高,是最容易做的蛋白
②TF 直接与DNA结合,有序列特异性,比较短,只有几个bp,TF与DNA的结合牢固度,弱于组蛋白
③转录调控子 :不直接和DNA互作,与TF或组蛋白互作,和DNA间接结合在一起,容易在交联剂上脱落(第一步),通常作为大蛋白复合体中的一员起作用,表面抗原容易被蛋白复合体中的其他蛋白组分所阻挡,从而影响抗体的富集(第二步)。
-
交联时间
- 研究表明;在DNA上的停留时间短于5秒的蛋白质无法用甲醛交联
- histone:10 min
- TF:10-30 min
- cofactor:30 min
- 不超过30min,防止影响解交联及后续的过程
-
对剪切条件的敏感性
- histone:low
- TF:medium
- cofactor:high
3、测序原理
(1)甲醛交联 整个细胞系(组织),即使用甲醛将目标蛋白 (组蛋白,转录因子等)与染色质 交联固定起来

(2)从细胞裂解液分离基因组DNA ,并用超声波将其打断成一定长度的小片段 ;

(3)添加与目标蛋白质特异的抗体,该抗体与目标蛋白 形成免疫沉淀免疫结合复合体 ,收集这些沉淀;
免疫结合复合体 = 靶蛋白 + 抗体 + 靶蛋白结合的DNA

(4)去交联,分开蛋白与DNA,纯化DNA即得到染色质免疫沉淀的DNA样本,准备测序;

(5)将准备好的样本进行深度测序,测序完成得到数百万个reads,通过与参考基因组匹配后,实现完整序列的构建

4、检测蛋白质与DNA序列的结合峰
(1)测序片段匹配到参考基因组
- 将测序得到的 DNA 片段(sequenced fragments)匹配到参考基因组序列上。有一部分短序列不能匹配到参考基因组上,有可能是未知的基因组序列;另一部分是能够匹配到基因组上的短序列,通常要对这些短序列进行覆盖度计算。
- 从匹配到基因组上的短序列中进行富集区域的扫描。通常扫描到的富集区即被认为是蛋白质与DNA相互结合的区域(也有假阳性位点等的影响)如果在基因组的某个位置蛋白质结合的概率越大,那么在该位置检测到 DNA 片段堆叠就会越高。反之,如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠。为了研究方便,我们将这些DNA片段堆叠叫做峰 (Peak)。

(2)检测峰
将覆盖到参考基因组的DNA片段堆叠用柱状图画出来,就会看到峰。
这里需要知道,ChIP-seq是利用抗体去结合特异的靶蛋白,进而去沉淀靶蛋白结合的DNA。理论上,只要抗体设计的好,与蛋白质结合的 DNA 的都可以检测到。
我们一般用 ChIP-seq 检测转录因子的结合,以及检测组蛋白修饰,二者有着截然不同的峰形:
转录因子结合的特征峰,峰型高,而且窄:

组蛋白修饰结合的特征峰,峰型起伏,而且分布广泛:

对扫描到的富集区做深度分析,包括基因,GO注释,利用基因浏览器进行可视化浏览,研究与基因结构的关系等。在UCSC基因组浏览器中显示。

(2)提高峰质量
一般在做ChIP-seq时,会加入一组空白对照(control),提高峰质量,那么为什么?
- 一般检测出的峰值会有背景噪音,也就是文库会夹渣一些没有用抗体捕获的DNA片段也被测序了。
- 开放的染色质区域比封闭的区域更容易断裂
- 序列在基因组中分布不均
- 允许我们在比对的控件中与相同区域进行比较
- 消除 ENCODE 的 Black list的影响
所以会准备空白对照,排除假阳性,对照组有有两种类型:
- input DNA:不用任何抗体捕获的DNA
- mock IP DNA:用不含有抗体的DNA
这样一来,就会让我们检测到的峰更明显更接近真实的生物学特征。
5、影响ChIPseq测序结果的因素
(1)免疫共沉淀的影响
- 高效特异性抗体
- 起始样本量
- ChIP DNA 产量
-细胞类型
-标记或蛋白质丰富程度(组蛋白比TF具有更高的结合覆盖率)
-抗体质量
对于组蛋白,使用来自T细胞的20ug染色质DNA作为起始材料,总共会得到15-50ng DNA。
对于TF,通常从2500万个细胞(200ug染色质)中得到5-25ng。
染色质片段
- 片段大小:影响ChIP-seq中的信噪比
- 因细胞类型而异
- 偏向启动子区域的片段会在ChIP 和对照样品中的启动子上引起ChIP-seq富集
(2)测序的影响
Reads 长度
* 较长的 Reads 和双末端 Reads 可提高匹配率
* 对于等位基因特异性染色质事件,转座因子研究是必需的
避免分批次
序列输入对照的深度等于或大于IP样本
测序深度
* 对于转录因子:最小5-10M
* 对于组蛋白修饰宽谱图则更高:标准为20-40M
(3)酶断裂方法和超声波打断的影响
酶解法:核小体间信息
最常用的酶类如MNase,即:微球菌核酸酶,是一种能降解核小体连接区的DNA序列的核酸酶,最初从金黄色葡萄球菌中分离出来。MNase消化染色质可以释放出一个个独立的核小体。
超声波法:核小体蛋白组分上的完整性
超声打断不如酶裂解法温和,由于打断的不均匀性,导致测序结果背景噪音高,影响后续数据分析
两种方法对实验结果有影响,各有优劣
如果所研究的蛋白质高丰度表达且与DNA结合紧密如组蛋白,那么样本无需交联,这时可使用酶解法
如果所研究的蛋白质表达丰度较低或与DNA结合不紧密如转录因子 等,往往需要用交联试剂将样本进行固定,稳定蛋白质和DNA的形态,这时最好选用超声法进行断裂。
参考:
https://www.abcam.com/epigenetics/studying-epigenetics-using-chip
https://academic.oup.com/nar/article/42/9/e74/1248114
https://www.jianshu.com/p/e894626cbcbd
[()
[()
