R与进化生态学
——系统发育比较
概述
张金龙
jinlongzhang01@gmail.com
第四届中国R语言会议报告
2
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
3
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
4
什么是系统发育比较分析?
• 系统发育比较分析是研究物种的性状和适应性在进化过程中变化规律
的一系列分析方法,是进化生物学、生态学、统计学和计算机科学的
交叉领域。
• 需要的数据: 进化树,物种性状或者分布资料,
• 分析过程:建立模型,进行统计检验,
• 软件平台: Mesquite和R。
• 最新的模型和统计方法几乎都是在R中实现的。
5
问题一性状的进化模型
• 耧斗菜性状的进化过
程,距的长度在进化
历史中如何变化?
• 与授粉者的协同进化
关系经历过怎样的变
化?
6
问题二 达尔文地雀
加拉帕格斯群岛的达尔文地雀是从同一种进化而来,其喙的形态各不
相同,已知当前各个种的食性,那么它们的祖先喙应该是什么形状?
是在什么时间,如何分化而来的?各个种的祖先食性如何?
7
进化生态学一些理论问题
(1)为什么有些类群物种数比其他类群多/少?
类群均匀性度量 apTreeshape
(2)物种性状是如何进化的,各性状的稳定性及进化速率是否相
同?
重建祖先状态 ape
(3)物种形成和灭绝速率是否会随时间变化?
随机生灭过程与蒙特卡罗检验 Yule model/Ornstein-Uhlenbeck模型 Ouch, ape,
laser, geiger
(4)物种性状之间在进化过程中是否存在关联?
系统发育独立差 Phylogenetic independent contrast (PIC) ape, picante
8
进化生态学一些理论问题
(6)当前物种的分布从性状的适应性上如何解释?
系统发育气候分布模型与性状的统一性 phyloclim
(7)在考虑进化历史时进化信息的积累及其可能解释?
系统发育多样性PD picante
(8)不同区域之间物种在进化上的联系及其可能机制?
系统发育beta多样性 picante
(9)在一定空间范围内,系统发育距离近的物种容易同时出现,还是系
统发育距离远的物种更容易同时出现?受什么因素影响?
基于多种随机化零模型的群落系统发育 NRI、NTI统计量 picante
9
R系统发育比较分析程序包
• R中进行系统发育比较分析的程序包主要包括:
• ape, apTreeshape, geiger, laser, ouch, phyloclim, picante, vegan, phargorn
• 其中ape是核心程序包,定义了R中进化树的类,进行系统发育比较分
析的大部分程序包都依赖于ape提供的类和方法。
物种多样性形成与进化分析geiger
进化树形状分析apTreeshape
系统进化分析系统进化分析系统进化分析系统进化分析ape (core)
系统发育比较探索性分析adephylo
用欧几里得方法研究生态学与进化ade4
10
R系统发育比较分析程序包
用极大似然法分析物种形成及绝灭速率用极大似然法分析物种形成及绝灭速率用极大似然法分析物种形成及绝灭速率用极大似然法分析物种形成及绝灭速率laser
系统发育比较分析的Ornstein-Uhlenbeck模型ouch
群落生态学程序包群落生态学程序包群落生态学程序包群落生态学程序包vegan
基于生灭过程的进化树模拟TreeSim
群落物种组成与系统发育整合分析群落物种组成与系统发育整合分析群落物种组成与系统发育整合分析群落物种组成与系统发育整合分析picante
气候生态位模型与系统发育气候生态位模型与系统发育气候生态位模型与系统发育气候生态位模型与系统发育phyloclim
系统发育结构及比较分析基础程序包phylobase
系统发育聚类分析phyclust
系统发育分析程序集phybase
系统发育推断phangorn
11
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
12
进化树
• 进化树是表示物种间系统发育关系的树状图,枝长的长短表示
进化距离的差异。系统关系越近的物种,在进化树中的距离越
近。常见的格式有newick和nexus。
13
建立进化树
• 进化树的建立现在大多依据经过比对的DNA序列或者氨基酸序
列。(一般不在R中完成!)
1 距离法
按照序列之间的遗传距离,进行聚类分析
实现软件:PHYLIP、PAUP*、R的ape等
2 极大似然法
当前DNA碱基替换格局最可能从怎样的进化树获得?
建立似然函数,数值求解
实现软件:PHYLIP、PAUP*、RAxML
14
建立进化树(续)
3 最大简约法(MP)
从什么样的进化树拓扑结构才能使各物种发生变化的总的次数最少?
实现软件: PAUP*
4 贝叶斯法
真实的进化树的后验分布, 实现软件: MrBayes, BEAST
分子钟校正
1 首先检验分子钟假设是否成立,再依据该方法建树 (PAUP*)
2 用任意一种方法获得一棵进化树,再用平滑法进行处理 (r8s)
3 松散时间(Time relaxed)的贝叶斯时间推断 (BEAST)。
15
分子钟校正
• 似然罚分法对分化时间进行估算(在ape中完成)
t1
t10
t7
t6
t8
t3
t4
t9
t2
t5
The original tree
t1
t10
t7
t6
t8
t3
t4
t9
t2
t5
10 8 6 4 2 0
The dated MPL tree
16
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
17
连续性状的祖先状态重建
极大似然法: based on Maximum Likelihood (ML)
MLreconstruction <- ace(wingL, geotree,
type="continuous", method="ML")
系统发育独立差:based upon PIC
picreconstruction <- ace(wingL, geotree,
type="continuous", method="pic")
广义最小二乘法:based on generalized least squares (GLS)
18
连续性状的祖先状态重建
• 正在开发之中,部分结果还不准确。
1) corBrownian
应用布朗运动模型;
GLSreconstruction <- ace(wingL, geotree, type="continuous",
method="GLS", corStruct = corBrownian(1, geotree))
2) corMartins
应用 Ornstein-Uhlenbeck (constrained random-walk) 模型;
GLSreconstruction <- ace(wingL, geotree, type="continuous",
method="GLS", corStruct = corMartins(0.5, geotree))
19
连续性状的祖先状态重建
3) corGrafen
应用Grafen修正的布朗运动模型进行等距化
GLSreconstruction <- ace(wingL, geotree, type="continuous",
method="GLS", corStruct = corGrafen(1, geotree))
20
性状进化布朗运动模型
• 布朗运动模型
I 布朗运动 I 有选择的布朗运动
21
Ornstein–Uhlenbeck (OU) model.
• Ornstein–Uhlenbeck (OU) model
• "characters are constrained to evolve around a given value".
22
离散性状的祖先状态重建
• ER模型: 单参数等速率模型
SYMreconstruction <- ace(char1, geotree,
type="discrete", model="ER")
• SYM模型 symmetric model (SYM)
SYMreconstruction <- ace(char1, geotree,
type="discrete", model="SYM")
• ARD模型 All Rates Different matrix (ARD) where all possible
transitions between states receive distinct parameters
ARDreconstruction <- ace(char1, geotree,
type="discrete", model="ARD")
23
Struthioniformes
Tinamiformes
Craciformes
Galliformes
Anseriformes
Turniciformes
Piciformes
Galbuliformes
Bucerotiformes
Upupiformes
Trogoniformes
Coraciiformes
Coliiformes
Cuculiformes
Psittaciformes
Apodiformes
Trochiliformes
Musophagiformes
Strigiformes
Columbiformes
Gruiformes
Ciconiiformes
Passeriformes
祖先状态重建实例
data(bird.orders)
x <- factor(c(rep(0, 5), rep(1, 18)))
ans <- ace(x, bird.orders, type = "d")
plot(bird.orders,type = "phy", FALSE, label.offset = 1)
co <- c("blue", "yellow")
tiplabels(pch = 22, bg = co[as.numeric(x)], cex = 2, adj = 1)
nodelabels(thermo = ans$lik.anc, piecol = co, cex = 0.75)
24
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
25
分类单元随时间的变化
• ltt.plot() Lineages Through Time Plot
-25 -20 -15 -10 -5 0
0
4
0
8
0
1
2
0
Time
N
Lineages Through Time Plot of the Bird Families
-25 -20 -15 -10 -5 0
1
5
2
0
1
0
0
Time
N
Lineages Through Time Plot of the Bird Families
(with logarithmic transformation of the y-axis)
26
物种分化速率分析
• ape、geiger、apTreeshape、laser
mybranchtimes <- branching.times(mytree)
• lineages through time plot
ltt.plot(mytree, log="y")
rate.estimate(time=100, n=1000)
• 纯生过程
yulemodel <- pureBirth(mybranchtimes)
yulerate2 <- yule2rate(mybranchtimes)
• 生灭过程
birthdeathmytree <- birthdeath(mytree)
27
物种数-时间累积曲线的零分布
• 左生灭过程模拟的进化树的物种数-时间累积曲线叠加
• 右物种数-时间累积曲线及其零分布
28
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
29
群落物种组成的机制?
• 群落中为什么有的种很多?有的种很少?物种分布受到什么因
素的影响?从物种的进化关系可以得出什么结论?
30
群落物种组成机制:中性过程vs.生态位
生态位理论:物种的分布受到其适应能力的限制,每一个物种具有
自己适应能力的范围。
中性理论:物种的完全是看个体,不同物种的个体是等价的,物种
的分布格局是由扩散限制,随机生灭过程等“中性过程”造成的。
中性过程的假设看似不符合人们的经验,但是在热带森林中
多个尺度均得到了验证,并且能够较为准确的预测多种格局。而
生态位理论是难以直接验证的。
当前的群落生态学研究,倾向于将生态位过程和中性过程整
合在一起,共同解释群落物种组成的机制。
31
系统发育信号
• 如果系统发育关系接近的物种在性状上也越接近,那么其在适应性上
也越接近。
• 即:性状在进化树上的分布并不是随机的,而是表现出一定的系统发
育信号(Phylogenetic signal)。
32
系统发育信号的检验
• Blomberg’s K是用布朗运动模型模拟性状在进化树中分布,进
行多次模拟后,生成性状系统发育聚集程度的零分布,从而获
得K统计量及p值等信息。
library(picante)
randtree <- rcoal(20)
randtraits <- rTraitCont(randtree)
phylosignal(randtraits[randtree$tip.label],randtree)
33
竞争排斥和生境过滤
• 性状相近的物种,如果出现在同一个地点,则会占据更多的共有
的资源,此时种间竞争作用占优势。种间竞争能够降低近缘种出
现的概率。
• 如果环境对物种存在着较强的筛选作用(生境过滤作用),则系
统发育关系相近的物种更容易出现在相似的生境当中。
• 例如:
• 大部分杜鹃花,均喜生在山顶偏酸性的土壤中(系统发育聚集)。
• 水热条件较好的低海拔亚热带森林中,有大量系统发育关系较远
的物种共存(系统发育发散)。
34
群落物种组成机制的进一步推断
• 核心问题:
1. 群落内物种组成的系统发育关系与随机出现的物种系统发育关
系相比,是更近还是更远?
2. 为此,生态学家建立了NRI和NTI指数进行相应的检验
35
几种零模型:随机化方法
真实的物种组成与什么样的随机化零模型结果比较?
零模型
1. 进化树重排(tip shuffling):物种进化关系随机化
2. 样方中的物种从物种库随机抽取
3. 样方中的物种从进化树中随机抽取
4. 独立交换 ( Independent swap) :物种共存与否随机化,但是每
个样方的物种数和物种的频度不变
36
群落系统发育分析的主要指数
• picante程序包提供的指数
• PD 系统发育多样性:一定区域内各物种间的最短进化路径的
长度之和。
• Comdist:地点A与地点B内部物种两两之间系统发育距离的平
均值
• Comdistn:地点A与地点B内部,各物种距离最近的物种间系统
发育距离的平均值
• Phylosor:地点A与地点B内部物种,共有枝长占总枝长的比值。
37
报告内容
• 什么是系统发育比较分析?
• 进化树的建立
• 祖先状态重建
• 物种分化速率随时间的变化
• 群落系统发育与物种共存
• 生态位进化
38
物种适应性在进化过程中的变化
• 问题
1. 物种适应性在进化历史过程中如何变化?
2. 适应性进化在不同类群之间的差异及可能成因?
3. 进化过程中,气候和地质历史事件如何影响植物的分布?
• 物种的适应性用什么体现?
1. 分布点覆盖的范围以及分布点的环境因子
2. 物种的性状
39
算法与软件
气候分室模型
遗传算法
广义线性模型
最大熵
分类树
潜在分布区
• 潜在分布区预测的过程
物种分布数据
环境图层
年均温、年降水、海拔、
土壤数据
潜在分布区
40
A黑水银莲花采集点 b潜在分布区 c气温升高1℃ d 气温升高2℃ e 气温升高5℃
A齿瓣延胡索采集点 b潜在分布区 c气温升高1℃ d 气温升高2℃ e 气温升高5℃
物种分布点及潜在分布区变化
东北早春类短命植物的分布区预测
41
物种的生态位重叠
• 预测得到每个物种的各环
境因子的分布(自 Evans
2009)
42
生态位重叠的计算
• Warren et al. 2009
• Heilinger distance
43
气候适应性的祖先状态重建
• 年均温适应性在进化树中的辐射进化
44
生态位进化分析在R中实现
phyloclim程序包
library(phyloclim)
data(palmatifoliae_pno)
plotPNO(x = palmatifoliae_pno$AnnualMeanTemperature, xlab =
"Annual Mean Temperature (degree C)")
生态位重叠性及其检验
niche.overlap()
niche.equivalency.test()
bg.similarity.test(spec, n, maxent, mx = 2000)
45
内容回顾
• 定义:系统发育比较分析是研究物种的性状和适应性在进化过程中变
化规律的一系列分析方法。
• 数据:进化树、物种性状数据、分布数据。
• 软件:以ape为核心的一系列R程序包,如laser, picante, phyloclim。
• 主要研究方向:
祖先状态重建
物种分化速率
群落系统发育
生态位进化
46
谢 谢!
敬请指正!