生物信息学题目整理: 陈润生
生物信息学题目整理:
陈润生:
一、什么是生物信息学?你怎么理解它的含义?
Genomic informatics relates to the field that deals with all aspects of genome information gathering, manipulation, storing, managing, examining, and evaluating.
生物信息学是研究领域之一,在此范围内涵盖了基因组信息的采集、管理和保存,并对资源进行了合理分配以及深入分析与解读。
生物信息学以基因组DNA序列信息分析为起点,在解读DNA序列中蕴含的遗传密码特别是非编码区的功能方面具有重要研究价值;在此基础上通过新发现的基因信息建立蛋白质构象模型并进行预测分析;其核心在于识别和解析基因信号。
生物信息学的研究主要目标是阐明基因组信息结构的复杂性和遗传语言的基本规律;它则是自然科学和技术科学中"基因组"、"信息结构"和"复杂性"这三个重大科学问题的综合体现。
对生物信息学理解的具体实例如下:学习者应掌握哪些技能?例如能够准确识别新的DNA序列中的开放阅读框(ORF)或其他特征定位点吗?能否清晰解释非编码区与开放阅读框之间的主要区别以及它们在遗传调控中的功能差异?是否了解非开放阅读框区域在转录调控和其他代谢途径中的潜在作用机制?此外还需要深入理解RNA干扰(RNAi)现象的基本原理及其在细胞生命活动中的关键作用机制有哪些具体实现方式?例如基于同位素标记的方法用于追踪蛋白质-DNA相互作用过程的研究方法有哪些?针对严重急性呼吸综合征(SARS)病毒的研究是否涉及其完整基因组序列对比分析的技术流程?在疾病治疗方面是否已经取得了一些突破性进展如基于RNAi的新药开发技术有哪些具体应用案例?对于蛋白质结构预测和模拟研究是否已经形成了一套可靠的方法框架并取得了令人满意的实验结果呢
怎么理解:
生物信息学主要以基因组DNA序列信息分析为基础,并着重识别其携带蛋白质和RNA基因的编码区域;同时通过解析其功能特征并揭示潜在的遗传密码模式来阐明大量存在于基因组中的非编码区所蕴含的信息实质;在此研究基础上系统地收集并整合相关的转录谱和蛋白谱数据进而深入解析代谢网络、发育程序以及物种分化与进化机制的各种规律
其还运用基因组中编码区的信息来模拟蛋白质的空间构象并预测其功能,并将其与生物体及其生命过程中的生理生化数据相结合以揭示其实质。最后实现了蛋白质及核酸分子的设计,并成功开发出药物开发及个体化医疗保健方案。
二、发现新基因的两种方法是什么?算法的本质是?
大部分新基因是靠理论方法预测出来的。
借助NCBI中的EST数据库(dbEST)鉴定新基因和新SNPs。
在国际上已出现了若干个基于EST基因索引系统如UniGene、Merck-Gene和GenExpress-index
数据源自众多短小的序列片段,其中EST段幅较小,在此情况下主要关注点在于准确拼接。所采用的方法包括基因组比对、拼接以及组装等多种技术手段。在此领域中常用SiClone策略
主要步骤包括:首先建立数据库系统;其次对实验获得的生物序列进行纯化处理并达到格式标准化要求;然后从种子库中提取相应序列与大数据库中的序列进行对比分析;接着持续延伸种子区间的长度直至无法进一步扩展;最后将延伸后的连续片段归集至contig集合中
建立一系列数据库:包括经过纯化的 EST 数据库(Total Pure EST Database)、种子库(Seed Database)、载体库(Vector Database)、杂质(Impurity)、引物库( Primer Database )、蛋白库(Protein Database)以及 cDNA 数据库。
(2)用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;
(3)用种子和纯化的EST数据库比对;
(4)基于一次比对所得较长片段分别与蛋白数据库、cDNA数据库进行比较分析,并判断其是否存在于已知序列库中;然后将此大片段与纯化的 EST 数据库进行比较分析,并判断其是否存在于已知序列库中;重复上述操作流程直至无法进一步延伸为止。
(5)判断是否为全长cDNA序列。
基于来自大规模基因组测序的数据,在经过严格的基因为基础筛选后发现了潜在的新生物体:在已经构建好的大型序列图谱上结合多种数据分析手段,并通过特征标记定位候选。随后将提取的候选新生物体与数据库中的已知序列进行比对分析以确认其身份。
可分为(1)基于信号,如剪切位点、序列中的promoter与terminator
(2)基于组分分析(group-based analysis),涉及基因家族、特殊序列间的比较以及complexity analysis和neutral network
其核心在于:基于一个特定序列片段的信息,在将其与完整数据库进行对比后,重建整个基因组的真实结构。当进行测序时,我们无法确定获得的一条EST序列来自哪个基因及其具体位置(这是一个不确定的情况),因此在同一个基因的不同EST序列之间通常会存在重叠区域。通过分析这些“重叠”现象,我们能够识别出所有属于同一基因的EST序列,并将它们连接起来形成完整的cDNA序列与对应的完整基因结构相似。
三、研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?
1、构建系统进化树。
主要步骤如下:
序列相似性分析是一种方法学过程。
通过该方法能够识别出与目标序列具有相似特征的其他序列,
然而无法明确这些序列表之间是否存在同源关系。
其基本思路在于将待研究的生物分子(如DNA或蛋白质)与已有的数据库进行比对,
从而推断出其潜在的功能特性,
即识别与此分子具有高度相似性的已知分子类型。
这一过程主要依赖于两两分子间相似性度量的技术。
其中BLAST和FASTA等软件工具常被采用;
(2)通过将待研究序列与其他物种的同源基因组进行多对齐比对,在理论分析框架中占据核心地位的关键步骤是评估该序列为其他已知基因或蛋白质之间的相关性程度。完成这一工作通常依赖于专门设计的多基因比对软件包;
(3)建立系统进化树模型。一般而言,单一方法往往难以充分揭示物种间的进化关系,因此通常需要综合运用多种方法才能实现这一目标。基于序列同源性分析的结果,重新构建能够反映物种间进化的树状图。为了完成这一研究任务,已有大量相关的软件包被开发出来,如PYLIP、MEGA等工具就广泛应用于该领域研究。
(4)分支的确定(稳定性检验)。只有那些具有稳定性的分支才有意义。为了检验构建好的进化树的可靠性,在实际应用中通常会将构建过程重复随机模拟成百上千次,在超过70%以上的重复模拟中出现的分支点被认为是可靠的。常用的方法是采用Bootstrap算法来提高结果的一致性与准确性,并通过这些方法显著提高了结果的整体可信度。相应的软件工具已经被集成到用于构建进化树的通用软件包中。
当前的主要障碍是揭示了基因的横向迁移(LGT)现象。即不同进化阶段的物种之间存在着遗传信息分子的传递,在这种情况下进行进化学习会降低其准确性。
3、解决方法:
(1)纵向思路:该方法通过从所有序列中提取具有垂直进化的特征数据集,并以COG数据库为例进行验证;
(2)横向思路:是用完整的基因组和蛋白质组比较:
A.以whole genome为单位,进行基因组水平上的比对
B.利用生物体的蛋白质组构建进化树
选择特征对比时,在不使用基于长度的序列字符串来进行对比的情况下,则需要随后与该个体的genomic数据进行标准化处理
ORF对比分析中发现一个问题:利用COG分类标准对所有预测出的ORF进行系统分类后,并进一步构建相应的进化树模型以分析其分布特征。在古生物研究中运用进化树方法时会遇到一个问题:样本测序记录的数据来自大约数千万年前,并与现存物种所形成的对照库存在明显的时空差异性。由于这种时间轴上的明显差异性导致的研究对象之间存在不可忽视的时间间隔影响因素。因此需要采取有效措施尽量缩小这一时间间隔的影响范围。具体可行的方法有两条途径可供选择:第一条途径是建立与样本同时期的数据库;第二条途径则是通过模型模拟样品序列在进化过程中的变化趋势。
四、(1)SNP是什么?为何研究SNP显得尤为重要?请列举至少两个与之相关的网站。(2)系统生物学是怎样的一门学科?这种学科对生物功能实现的理解有何本质性的改变?
(1)什么叫SNP?为什么SNP研究如此重要?举2-3个SNP相关的website。
SNP(单核苷酸多态性):不同物种、人种以及健康人与患者之间的基因组序列存在显著差异。这些差异通常表现为一个碱基对的变化。随着研究的深入发展,在某些情况下还可能涉及到多个碱基对的变化、片段缺失或插入现象。值得注意的是,在这一领域中"SNP"的概念已得到扩展,在某些特定的研究中也包含了两个或三个碱基的变化情况;此外还包括一些特殊的缺失事件也被认为属于SNP范畴。
总体而言,“SNP”的初始定义是基因组上单个碱基的变化现象;然而在其研究领域的发展过程中,“SNP”的含义已得到了显著的拓展和丰富。
重要性:由于其能够建立基因型与表型之间的直接联系而被视为纽带,在基因组领域的理论创新与基础研究向实际应用转化中扮演着关键角色。
SNP在基因组中广泛存在,并为人们识别多种与疾病相关的基因突变提供了可能性。
这些未直接导致疾病基因表达的单核苷酸多态性(SNP),位于特定疾病基因旁,并充当关键标志,在识别相关疾病的方面具有重要作用。
3、从实验操作来看,通过SNP发现疾病相关基因突变比通过家系容易;
4、基础研究中重要,如对Y染色体SNP分析有重要成果。
SNP相关的一些网站:
1、SNP Consortium's database(http://snp.cshl.org/index.html)
该NCBI SNP数据库对这些数据进行了系统整理,并去除了重复项。这样的单核苷酸 polymorphisms (SNPs) 被称为 reference SNPs 或 ref SNPs。((http://www.ncbi.nlm.nih.gov/SNP/overview.html)
该基因组数据库(HGBASE)已收集了人类基因组中所有已知的序列变异位置;它涵盖了单核苷酸多态性(SNPs)、插入与缺失事件以及重复序列等。(http://hgbase.cgr.ki.se/)
4、The Human Gene Mutation Database(HGMD)(http://www.hgmd.org/)
The Protein Mutant Database(PMD), this specialized resource, distinguishes itself by focusing exclusively on protein mutations rather than nucleotide changes. It serves as a comprehensive repository for detailed information regarding specific amino acid substitutions within proteins. This database provides extensive data on the structural and functional implications of these mutations, making it an invaluable resource for researchers in the field.(http://pmd.ddbj.nig.ac.jp/)
The Genotype Frequency Database (ALFRED): Known as the Human Genotype Pattern Repository, it is a comprehensive resource for studying genetic variations within populations. The database provides detailed genotype frequency data, which can be accessed at http://alfred.med.yale.edu/alfred/index.asp.
(2)什么叫系统生物学?系统生物学对生物功能实现的本质认识的变化?
系统生物学作为一门学科而言,主要研究基因与蛋白质网络中所包含的各种信息;该领域具有三个核心研究方向。
系统性地将各个层次的信息进行综合分析。
结合早期基因组研究中各层次的知识。
将基因组水平、蛋白质水平以及蛋白间相互作用和pathway网络等多种层次的数据进行系统性结合。
- 基于整合的信息体系构建数学模型以表征生物体的结构与功能特性,并同时建立相应的数学物理模型用于刻画一个活的生命系统的最低级的基本功能单元。
 
通过建立数学模型来分析遇到环境刺激时系统结构的变化情况,并预测其对未来生命活动和外界因素变化的影响
本质变化:从系统学的角度来看, 真正实现生物学功能的是由一系列相互作用构成的网络结构.这些结构不仅不仅仅包含孤立存在的个体单元,还包括它们之间的相互连接与协同作用.
学术概念上的发展:
传统的研究路径是基于基因组序列展开结构分析,并最终探讨其功能;而他则从分子间的作用关系开始构建网络模型,并逐步深入探讨系统的功能。相较于以往的研究方法,在他的工作中特别强调了各组分间的相互作用机制,并将整个生命系统的运作视为一个复杂的网络系统来分析。
对生物功能实现的理解本质变化:
不仅全面认识了复杂生命系统中的各个组成部分及其动态关系,并且能够预判该系统在受到外界干扰后的反应。
他除了单独考察每一个分子之外还深入分析了它们之间的相互影响,并将整个生命系统的运作机制描述为一个由相互作用构成的网络系统。其中基因组序列仅占整个网络系统总量的一小部分而若要真正理解生命系统的功能本质则必须从这些分子间错综复杂的互动关系入手
采用系统整合的方法对生物过程的不同阶段分散数据进行汇总与分析,并将这些关键的数据如基因组、转录组、蛋白组及代谢组等进行有机融合。这不仅有助于更精准地模拟这些复杂的过程(如蛋白质折叠、信号转导及代谢途径),还能深入探究其动态变化规律。
**五、什么是无义区、无义RNA和无义基因?请举例说明人类中这些概念的具体体现。(1)在人类基因组中约98%的区域属于无义区。(2)约50%的无义区会转录为RNA。(3)举两个具有代表性的例子来阐述其重要性:如HO泰特蛋白调控小片段 (HOTTIPs)、线状小片段 (L1S),以及 xist RNA 和 SINE元素等。
非编码序列被称为基因组中不产生蛋白质的特定序列;
非编码RNA是由非编码序列转录而来的RNA分子;
非编码基因通常位于基因组中,并负责存储特定功能信息的位置。
(1)人类基因组中超过97%是非编码序列;
(2)超过90%的转录产物存在,其中绝大多数为非编码RNA,在物种间的差异中,非编码RNA起着决定性作用。
按功能区分:功能蛋白质基因1.7%,功能RNA基因0.5%,总共大约1-3%
内含子:24%
Satellite DNA:12%(主要分布在中心粒和端粒)
Intergene DNA:60-70%
按序列特征分:
编码区(包括编码蛋白质的tRNA和rRNA的基因)占总基因组的2%
非编码区占到98%
其中,简单重复序列 12%
散在重复序列 45%
假基因 1%
非编码非重复序列 35—40%
(3)非编码 RNA 发挥着至关重要的作用,在人类与黑猩猩的研究中发现主要差异位于非编码区域;SINE(短散在元件)在调控基因组中扮演着重要角色,并通过插入到基因组中来调节相邻基因的转录活性;X染色体失活是一种哺乳动物特有的剂量补偿机制,在此过程中导致其中一半基因的转录被抑制进而失活;而这种抑制机制主要是由2kb长的小核 RNA (Xist RNA) 实现的——该 RNA 装配在失活 X 染色体外侧位置并诱导结构变化以完成失活过程;此外,在研究领域中还存在另一关键现象——RNA干扰(RNAi),其机制是由siRN A 和微体 RNA 等分子介导并导致特定细胞内特定DNA片段无法被复制或翻译从而实现对某些蛋白质合成过程的有效控制——值得注意的是,在这一过程中还涉及到了一些小核 RNA 在调控基因表达方面发挥重要作用。
具体:
SINE作为调节源,调节基因重组、交换、丰富多样性、获得新功能;
鸡溶菌酶基因中,位于编码区上游的CR1元件起着转录沉默子的作用
Nc-DNA产物涉及关键性生物学功能,例如tmRNA通过引导错误翻译蛋白的降解机制RNAi进而影响基因表达
Xist通过转录后产生的大片段非编码RNA(LncRNA)介导X染色体失活;而这种机制涉及的是RNA分子与蛋白质相互作用以实现染色体沉默的过程
人CD8a基因在T细胞中的转录受到位于其最后一个内含子内的增强子的调控作用;其中该增强子由Alu element构成。
陈小伟:
一、quantile****标准化
二、FDR
三、RPKM
四、表达谱数据分析流程
Normalization:
Goal: make multiple arrays comparable
The sources of variation among more than one high-density oligonucleotide array may arise from various factors.
Biological
Disease VS. Control
Non-biological
Total RNA preparation, amplification
Sample labeling differences
Hybridization
Scanner differences
Image analysis
Normalization Assumptions
Changes in expression are independent of abundance
A majority of transcripts do not exhibit differential expression when exposed to a specific stimulus.
Normalization methods
Intra-slide normalization (within array).
Adjusts expression data to ensure intensity consistency within each array
Inter-slide normalization (between array).
Normalizes expression values to achieve consistency between arrays.
Differential gene expression analysis
No replicates
Fold change (FC)
Expression ratio between 2 groups
If FC>threshold, then differentially expressed
Replicates
Hypothesis testing
五、测序(NGS**)数据分析流程**
