Advertisement

minfi 分析甲基化芯片数据-数据导入篇

阅读量:

minfi 是一个用于分析DNA 甲基化芯片的R包。官网如下:

http://www.bioconductor.org/packages/release/bioc/html/minfi.html

如果希望使用该包进行分析,则应在R环境中导入我们的芯片数据,并将其放置于预设目录下以便后续处理。从功能设计角度来看,minfi的核心逻辑是根据预先定义好的文件路径,在指定位置自动生成各个样本对应的原始数据文件,并完成信息记录。

在 illumina 官方网站上,我们能够获取相应的SampleSheet 模板文件以及测试数据集。

  1. 850K:

此链接无法进行有效的同义改写以降低重复率

  1. 450K :

访问该网页下载此产品包

450K 芯片的SampleSheet.csv 模板示例如下:

在SampleSheet文件中, 开头几行属于注释信息部分;这些内容位于[Data]下的样本相关信息。

一张甲基化芯片的最大容量可达12个样本,并将每个样品按照其对应的特定位置信息进行标记(Sentrix_Position)。一旦超过12个样品就需要配备另一张芯片,并对每张芯片都采用唯一标识符(Sentrix_ID)进行标记。该系统通过这两个关键字段来检索原始数据。

在每一个样本中,会包含有 两个 .idat 文件,并基于 SampleSheet.csv 对应的文件名称为...

复制代码
 200514040030_R01C01_Grn.idat

    
 200514040030_R02C01_Red.idat

我们只需要整理成如下所示的目录结构就可以了

复制代码
 SampleSheet.csv

    
 Sentrix_ID/
    
 ├── Sentrix_ID_Sentrix_Position.Grn.idat
    
 └── Sentrix_ID_Sentrix_Position.Red.idat

在顶层目录中包含SampleSheet.csv文件。每个芯片都有一个对应的Sentrix_ID目录。位于每个Sentrix_ID目录下的是一个特定芯片的所有原始数据。这些文件遵循 Sentrix_ID_Sentrix_Position.Grn.idat 这种命名规范。

minfi 读取数据

对SampleSheet.csv文件及其相关目录结构进行归档后即可方便地导入到R环境中进行分析处理。

read.metharray.sheet 函数用于解析SampleSheet.csv 文件中的数据。
其第一个参数指定该文件所在目录路径的位置。
第二个参数指定文件名。
该函数支持通过正则表达式实现精确的数据匹配。
如果用户不太熟悉正则表达式的使用方法,则建议直接输入对应的文件名即可完成匹配。

read in the sample sheet for the experiment

targets <- read.metharray.sheet(dataDirectory, pattern=”SampleSheet.csv”)

read.metharrpt.exp 函数读取样本的.idat 文件, 参数 read.metharray.sheet_name 返回的数据对象

读取来自IDAT文件的原始数据,并将其赋值给rgSet

通过上面两步,就实现了数据的读取。

总结

在SampleSheet.csv文件中设置专门字段用于标识芯片信息,在此字段体系下可快速定位到每个样本的具体位置,并通过这些位置信息进一步确定文件名称。对于原始数据目录结构来说是完全符合minfi要求的,在实际应用中可能会遇到一些特殊情形需要特别处理:当遇到不符合条件的数据时(比如从GEO数据库下载来的芯片数据),通常会发现仅有对应的.idat文件存在;此时可以通过样本信息生成对应的SampleSheet.csv文件,并利用该信息完成后续的minfi读取操作。

全部评论 (0)

还没有任何评论哟~