R语言生物群落(生态)数据统计分析与绘图
R语言以其开源、自由且免费的特点而广泛应用于生物群落的数据统计分析。
生物群落的数据呈现了多样性与复杂性,并涵盖了丰富的数据分析手段。
一:R语言及其基本功能 | RStudio的作用 | 数据可视化基础
- R及其开发环境RStudio
- R语言的基本操作涵盖了向量、矩阵以及数据框与列表的创建与处理,并涉及相关变量的提取
- R语言的数据管理功能包括读入与整理以及存储操作
- R语言的基础绘图功能(包括ggplot软件),涵盖基础绘图与排版
二 数据清洗 | R语言与tidyverse包的应用
1)tidyvese:tidyr、dplyr、readr、%>%等
2)文件操作:不同格式文件读取、多文件同时读取等
3)数据筛选:行筛选、列筛选、条件筛选(字符操作)等
4)数据生成:数据合并、数据拆分、新数据生成(字符操作)等
5)长宽数据转换、空值(NA)等填充及删除、分组、排序及汇总等
三:群落数据准备及探索分析
1)生物群落数据准备:物种组成、环境变量、物种功能属性、系统发育树等
2)生物群落数据检查:缺失值和离群值(outliers)等-避免模型错进错出(GIGO)
3)物种多样性计算:物种多样性(TD)、功能多样性(FD)和系统发育多样性(PD)
4)物种相似/相异矩阵关联测度
四:群落数据非约束排序-PCA、CA、PCoA、NMDS
生物群落数据非约束排序分析简介
生物群落数据约束排序概述:非对称约束排序与对称约束排序之间的比较;案例1通过景观、斑块及生境因子解释蛾类群落分布的情况:采用RDA、dbRDA或CCA方法,并结合变差分析;案例2基于物种有无(0,1)二元数据进行约束排序时使用的方法:dbRDA;案例3探讨物种组成、物种属性及其环境因子间的关系时采用的方法:第四角分析法;六:群落数据分类分析: 等级聚类 (HC) 和非等级聚类 (NHC) 方法; 同时涉及 PERMANOVA 方法用于检验差异显著性
- 对生物群落数据进行分类与异质性分析
- 案例1中对鸟类生境数据进行了层次性和非层次性聚类分析: 采用K-MEANS算法以及层次聚类法(HCLUST)
- 案例2采用了多元统计方法包括PERMANOVA, MRPP 和 ANOSIM, 并结合离散步长检验评估不同组别间的主要影响因素
- 案例3中采用基于距离的一致性检验方法(MRPP), 结合离散度检验评估不同环境梯度下微生物组成的差异情况
- 通过计算物种丰富度变化指数来识别主要驱动因素
5)案例4 药物对肠道微生物群落的作用利用了PCoA和PERMANOVA方法
七节:基于群落数据的随机森林(Random Forest)模型——分类与回归分析
1)随机森林(Random Forest)模型
2)随机森林模型分析基本流程-分类VS回归
3)案例1 随机森林分类及重要变量选择:RFM-classification
4)案例2 随机森林回归模型及变量重要性评估:RFM-regression
5)案例3 物种多维形态属性与生态属性的关联关系:PCA+PCoA+LDA+RFM综合案例
八:一般线性模型(lm)
- 基本结构、理论假设、估计手段、参数检验与模型验证
- 案例1: 不同鱼类游速的回归模型及其方差分析与协方差分析
- 案例2: 海洋植食性鱼类多样性决定因子的选择与模型验证过程
- 案例3: 淡水鱼群落丰度的环境因子选择-逐步回归方法(逐步筛选法)
九:广义线性模型理论框架(GLM)
广义线性混合效应模型的核心概念及其构建过程及操作步骤
案例1基于二项分布的(0,1)数据的逻辑斯蒂回归模型
案例2将二元响应变量转换为比例形式进行分析是研究海豹年龄与攻击行为关系的有效方法
案例3用于分析物种多样性的计数数据包括泊松回归、负二项回归以及零膨胀和零截断等统计方法
十:线性混合效应模型(LMM):用于分析具有层次结构或随机效应的数据
- 混合效应的核心理论及其实施步骤与实现路径
- 案例1研究重点包括针对分层数据物种多样性决定因素展开的模型构建流程、预测结果以及模型验证过程
- 案例2探讨的是多因素实验中基于分层数据设计的多重比较问题
**十一:广义线性混合效应模型(glmm)
1)广义线性混合效应模型的理论基础及其构建路径
2)案例1:蝌蚪发育异常与否(0,1)的多元因素解析——逻辑斯蒂混合效应模型的应用
3)案例2:虫食种群密度影响因素的多元变量研究——泊松混合效应模型的应用
4)广义线性混合效应模型在计数数据分析中的运用及模型选择标准:包括泊松分布、伪泊松分布、负二项分布、零膨胀泊松分布、零膨胀负二项分布、零截断泊松分布以及零截断负二项分布等
十二:空间格局、时间进程及系统发育相关的回归分析——数据自相关(autocorrelation)检验与处理
数据自相关问题概述:涉及时间维度、空间维度以及系统发育过程中的关联性
案例一中采用的方法是针对森林植物多样性分布格局的空间自相关性进行修正
案例二中采用的方法是基于时间序列分析对不同年份鸟类种群数量的时间自相关性进行修正
案例3 研究实例探讨了系统发育相关性对虾类多度分布的影响
第十三章 结构方程模型 (SEM):运用lavaan与piecewiseSEM探讨多变量间的直接效应、间接效应及其因果关系
1)结构方程模型简介:定义、历史、应用、估计方法、模型可识别规则及样本量要求等
2)案例1群落物种丰富度恢复的直接及间接效应(direct and indirect effects):SEM分析基本流程-lavaan vs piecwiseSEM
3)案例2环境异质性和资源可获得性对不同演替阶段林下维管植物多样性的影响:模型调整、比较、评估及结果展示
4)案例3人类活动、环境条件、物种属性对动物领域大小相对贡献(relative roles):混合模型、嵌套结构、分组分析及分类变量SEM实现
十四:群落数据及统计分析结果作图(ggplot)、排版及发表质量图输出
1)群落数据及统计分析结果作图数据准备:结果提取与作图数据整理
2)聚类分析及分组差异检验图:聚类结果图、热图(heatmap)、分组差异检验结果图
3)PCA、CA、PCoA及NMDS等非约束排序图:排序图和双序图(biplot)
4)RDA、db-RDA及CCA等约束排序图:三序图(triplot)和韦恩图(venn)
5)回归和混合效应模型分析结果图:散点图、箱线图、柱状图及提琴图等
6)结构方程模型结果图表达方式
