NGS项目三:ChiP-seq数据分析workflow
核心内容涉及全面覆盖基因组范围的研究活动:包括DNA结合蛋白的相互作用机制、表观遗传特征及其相关技术;这些技术的研究有助于揭示染色体功能结构与基因间调控网络的关系[1,2]。
外延:
几种技术的特性比较
| 技术名称 | 主要区别 | 共同之处 |
|---|---|---|
| Chip-seq 和Chip-chiq | 测序和芯片,开放性 | 免疫沉淀 |
| Chip-seq 和RNA-seq | 结合蛋白,全RNA | 高通量测序 |
| MeDIP-seq 和RRBS | 免疫共沉淀和酶切 | CpG位点甲基化信息 |
原理:通过在特定时间点上采用甲醛交联等方法使细胞内所有DNA结合蛋白的活性得以保持,并在此时点上记录了细胞内蛋白与DNA相互作用的具体关系。随后进行裂解处理以分解细胞膜并释放其中的DNA。随后将这些分解后的混合物与相应的特定结合蛋白抗体进行孵育处理。随后通过洗涤步骤去除未结合的部分并获得特异性结合的蛋白质-DNA复合物。最后通过洗脱反应分离出特异性结合的蛋白质-DNA复合物,并在此基础上进行蛋白质与 DNA 的解离及纯化处理以获得最终所需的 DNA 片段作为研究对象
应用主要应用于两个领域:一是转录子结合位点(Bindingsites)的鉴定工作如顺式调控元件的鉴定;另一项则聚焦于表观遗传学领域涵盖研究基因组甲基化组蛋白修饰和核小体定位状态等问题。
基本数据分析流程中包含定位读长定位这一过程(即Read Mapping),该过程旨在将所有测序 reads准确地校准至参考基因组序列上。能够被正确校准的 reads 被定义为标签(Tag)。这些标签与 read 通常具有相同的含义。当前常用的工具包括 Bowtie 和 BWA,在处理大型基因组数据时更为广泛使用,并特别适合具有较多 insertions 和 deletions 的情况。
Bowtie2使用方法与参数详细介绍
懒人必看
用法:
必须参数:
由所生成的索引文件的前缀。首先
在当前目录搜寻,然后
在环境变量
中制定的文件夹中搜寻。
双末端测寻对应的文件。可以为多个文件,并用逗号分开;多个文件必须和
中制定的文件一一对应。比如
测序文件中的的长度可以不一样。
双末端测寻对应的文件
非双末端测寻对应的文件。可以为多个文件,并用逗号分开。测序文件中的的
长度可以不一样。
所生成的格式的文件前缀。默认是输入到标准输出。
bwa软件使用
基于 FASTA 格式的参考序列文件和 FASTQ 格式的输入读取文件进行操作。执行三步操作后将生成一个 SAM 格式对齐结果(其中第一列表示 ID 场域、第十列表示序列域)。配置过程包括以下步骤:首先建立 BWA 指针索引(bwa index -ais/bwtsw ref.fa is: <2Gb>),随后进行映射操作(bwaaln ref.fa short_read.fq > aln_sa.sai),最后通过 bwasampe 命令将多个索引对齐到目标 SAM 索引(bwa samse ref.fa aln_sa.sai short_read.fq > aln.sam),并通过管道连接各参数完成整个操作流程。
MACS软件使用
Using MACS to Identify Peaks from ChIP-Seq Data[6]
参考文献:
Park P J ChIP-seq:探讨该方法的优点与挑战[Nat Rev Genet 2009;10(1):669-680].
该研究涉及...在ChIP-seq和RNA-sequencing研究中的计算方法应用
3生物通《掌握技巧,做好ChiP-seq并不难》来源:mcmillipore
http://www.ebiotrade.com/newsf/2014-10/20141023170853830.htm
4高山及其团队. 基于下一代测序平台的ChIP-seq数据分析方法[J]. 《遗传》, 2012, 34(6): 773-783. DOI:10.3724/SP.J.1005.2012.00773.http://wenku.baidu.com/link?url=nc21dLfsJsSlEvp0PtgkG3zecWAbN8cy7gJYarKm2PJoCUNYg55CU0E-2PYHf2yvFmcnbzaPf4FxNCuduCVkZGAQM1NG3Pn99y5m7NxhV6y]
5Analysis ofChIP-seq data in Galaxy
该研究的详细信息可见于以下链接:http://jura.wi.mit.edu/bio/education/hot_topics/galaxy/GalaxyNov2012_ChIP-seq_toPost.pdf
6 Using MACS toIdentify Peaks from ChIP-Seq Data
http://www.researchgate.net/publication/51185206_Using_MACS_to_identify_peaks_from_ChIP-Seq_data
