Advertisement

国科大实用生物信息学期末复习

阅读量:

期末考题题型老师会说(以大象为例)

考题是 选择、列举、简答、实验设计

23年选择题有10道,列举题3道,简答题2道,实验设计题是给4道自选一道题回答

接下来敲黑板

可以考虑在东区购买打印店提供的学习资料。由于老师的PPT内容多为英文呈现,而打印店提供的资料相当于对英文内容进行了翻译工作。对于英语基础较弱的同学来说,这是一个不错的选择。通过浏览一遍PPT后基本能够解答三道典型题目。值得注意的是,在2023年的考试中出现过三个题目(相对不难),其中包括一个关于'基因数据存储中常用的格式'的问题。

另外:

建议查阅DNA测序、RNA测序以及转录组测序的相关内容,并深入掌握其基本操作流程。这对于后续研究工作具有重要的参考价值。考虑到本人并非生物学背景,在此仅作初步了解即可。因此对于生物领域的学者来说此内容可能略显基础性。

简答题 隐约记得是:

双端序列对接即指库长小于二倍reads长度的paired-end reads组合成一个完整序列;为了实现paired-end reads的有效拼接,请简述配对读数据为什么需要进行对接?如何完成配对读数据的拼接操作?在实际操作过程中可能会遇到哪些问题?

23年没有考计算题,但是22年听师姐说考了UPGMA,所以还是要看看的!!!

在实验设计中选择四选一或五选一时,请注意以下几点:首先,在采样阶段应充分考虑物种特异性、基因表达动态以及潜在生态位重叠等问题;其次,在研究方向上可重点关注基因组学、转录组学以及功能表观遗传学等模块;再次,在测序策略上需根据具体目标选择相应的测序深度与技术手段;最后,在数据处理阶段需具备多组学数据整合分析的能力,并掌握必要的生物信息学工具集以支持后续分析工作

祝学弟学妹考出成绩,别忘了给学姐点点👍喔!!!

—————————————

具体重点内容及答案参考:

双链读取策略是指 library length 低于两倍的reads长度时采用配对-end reads方法整合成一个完整的DNA序列其机制包括对两条反向互补链的同步捕获与随后的精确拼接步骤这一步骤不仅能够提高测序效率还能有效减少数据存储的需求

请阐述为什么必须进行 paired-end reads 的连接操作?请说明如何进行配对读端的连接操作?请描述 paired-end reads 的连接过程及其重要性。

过程中可能产生什么样的问题?(18 分)

为何需要对 paired-end reads 做对接?

采用拼接技术 优化 reads 的连接效果 以实现对基因组和转录组的有效覆盖。 拼接过程有助于恢复其原有结构 尤其是在含有重复碱基序列或复杂结构的区域中。 拼接操作 可以有效减少因读取长度限制而导致的信息缺失和读码错误的可能性 尤其是当读取长度较短时。

如何对 paired-end reads 做对接?

  • 数据质量评估 :在读取对齐之前,在实验流程中首先要完成数据的质量评估工作,并剔除不符合标准的数据片段以保证后续分析的有效性。
  • 对齐操作 :将每一对reads分别映射到参考基因组或转录图上,并定位到基因组或转录组中的具体位置。
  • 重叠情况分析 :通过分析两个reads的重叠情况来确定是否存在重叠区域。
  • 拼接过程 :将相邻且有交集的reads连接起来形成连续序列段,在此过程中需结合错误校正技术,并处理插入或缺失的数据点。
  • 验证与修正 :经过拼接后的长序列需进行准确性验证,并修正可能出现的位置偏差。

对接过程中可能产生的问题

读取对的重叠区域识别不准确:如果两个 reads 的重叠区域较短或序列相似度不高,则可能导致对接出现偏差。
* 插入或缺失事件的处理效果可能会影响读取对对接的准确性。
* 测序数据中存在一定的序列错误率,在对接过程中需要采取相应的校正措施。
* 在某些情况下,一对 reads 可能会由于实验条件或测序技术的原因,在某一端的质量可能远低于另一端,这对对接的效果会产生不利影响。

目前我国已成为全球范围内胃癌分布最广泛的国家,在每年约有68万名新的胃癌病例被报告出来的同时也导致每年约有50万患者英年早逝

1. 采样方面需要注意的:

伦理规范性:在采样之前进行操作时,请确保所有研究均已获得伦理委员会的批准,并要求每位受试者签署知情同意书。

标本规范化处理:通过统一标准流程和一致的取样方式进行癌组织、癌旁组织及正常组织标本采集,以确保研究结果的一致性和可靠性。

信息记录:精确记录每一个标本的采样时间和采集位置以及病程信息等元数据,并在此基础上采取适当的编码方式以确保患者的隐私。

取样后应立即进行样本的处理与存储工作例如在处理过程中加入适量的RNA稳定剂并将样本置于-80℃的冰箱中进行冷冻保存以确保RNA与DNA分子结构不受破坏

2. 可进行的研究、测序技术和生物信息学数据分析:

a. 差异表达分析(DEA):

测序技术:通过RNA-Seq技术对每位患者的癌组织、癌旁组织和正常组织分别在四个不同时间点采集样本,并构建相应的mRNA文库后实施测序操作。
生物信息学分析
数据质控:运用FastQC软件系统地对600个样本的原始测序数据展开质量评估,并剔除低质量片段。
比对流程:采用STAR或HISAT2算法将测得的读段与参考基因组建立匹配关系。
定量分析:借助featureCounts或HTSeq工具统计各基因在不同样本中的表达水平。
批次效应校正:若检测到批次影响,则选用ComBat或limma包进行修正处理。
差异表达分析:运用DESeq2或edgeR软件系统比较同一患者体内不同时间点及不同组织间的基因表达变化情况。
功能注释分析:将筛选出的关键差异基因经过GO和KEGG通路富集分析以揭示其生物学功能。

b. 非编码 RNA 分析:

  • 测序技术:采用小RNA测序或全转录组测序方法,并特别关注非编码RNA的分析。
  • 生物信息学分析
    • miRNA及lncRNA鉴定:通过miRDeep2或LncTar工具对miRNAs和lncRNAs进行鉴定及定量分析。
    • 共表达网络建模:基于WGCNA方法构建基因共表达网络模型,并以探索癌症相关的关键调控通路及其作用机制为目标进行研究。

c. 单细胞转录组测序分析:

测序方法:通过特定患者群体开展单细胞RNA-Seq检测,并解析肿瘤内遗传与表观遗传异质性。
生物信息学分析
单细胞测序数据预处理:采用Cell Ranger或Seurat平台完成标准化处理流程,并对质量情况进行评估。
群团构建:基于降维算法对样本数据进行分类建模,并鉴定不同功能或特征的群团。
差异基因表达分析:通过多组学比较框架,在各独立群团间系统评估关键基因的功能特性。

d. 变异分析:

  • 测序方法:针对所有患者实施全基因组测序(WGS)或 wide exome测序(WES),旨在检测与胃癌相关的基因突变和结构变化。
  • 生物信息学研究
    • 基因突变及结构变化的检测:可采用GATK平台、VarScan软件或MuTect算法对DNA-seq数据集进行高通量测序数据处理,并完成SNP和indel类型的鉴定工作。
    • 复杂基因突变和染色体异常的解析:借助Manta平台或DELLY软件实施复杂基因突变及染色体异常特征的解析工作。
    • 功能位点鉴定:可结合ANNOVAR工具和VEP平台对发现的突变及结构变化事件进行功能位点鉴定。
    • 潜在影响程度评估:借助PolyPhen-2.1和SIFT等计算工具开展相关变异常异的功能预测及潜在影响程度评估工作。

e. 与年龄和病程的关联分析:

    • 生物信息学研究
  • 相关性分析 :运用多元统计方法探究年龄、病程及分子标志物间的相互关系,并采用线性回归模型和混合效应模型进行深入刻画。
  • 生存分析 :基于Cox比例风险模型评估分子标志物对疾病进展的影响规律。
  • 动态变化趋势研究 :通过时间点数据观察和解析基因表达动态特征随病程演变的规律。

基于这些研究的成果,在胃癌相关基因及通路的研究中取得显著进展。我们不仅能够鉴定出与癌症发展相关的关键基因及其作用通路,并且进一步加深了对胃癌机理的认识。这些发现有助于确定用于临床治疗的分子靶标。此外,在个性化医疗策略方面取得突破:运用关联分析方法与生存分析手段相结合,在精准医疗方面取得重要进展

全部评论 (0)

还没有任何评论哟~