全球人群肾素血管紧张素醛固酮通路内关键基因的空间遗传学的研究——探索“基因节俭学说”的进化生态学证据
全球人群肾素血管紧张素醛固酮通路内关键基因的空
间遗传学的研究——探索“基因节俭学说”的进化生态学
证据
单位代码: 分类号:;呼私罗
密 级:
学
号:幻略弓。竹
?厶茹办孑
硕士学位论文
论文
目:饼僻髓一鳞粲稳一醐酮通胳内 燃困钠空间般尊研宠一撼甚固
榭黻’钓进化。生态学汪垢
协以“如铲献护础龇眦中一触
,
讥僦一吲科邮讥一龇咖肥缈肌
一钐‖船讹聊讹眦沏叩泐峥龇谢加纪 渺撕卿秒呻膨融妙
作 者
查 垄
专
业遣鱼趣鱼里生毖土堂
导
师
蓝垡盘勤趁缝
?,
合作导师
切年 厂月如日一
【?,原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发
或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。
日
论文作者签名: 期:印:曼印
杰选
关于学位论文使用授权的声明
本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段
保存论文和汇编本学位论文。
保密论文在解密后应遵守此规定
期:垫:竺:步
论文作者签名:盟导师签名?山东大学硕士学位论文 目录
中文摘要英文摘要符号说明?
前 月
言??. 舌??.
材料与方法.
一、群体遗传空间数据库的构建??. .空间数据库构建方法?..
.空间遗传学和空间生态学数据库的构建??.. 二、统计分析方法??.
.气候综合潜在因子的提取
.
通路内关键基因的空间遗传结构分析及气候综合潜子的空间生态学分
析?
.气候综合潜在因子与通路内关键基因空间依赖关系的地理权重回归
分析??。
三、统计分析软件??..
结果与分析?
一、通路内关键基因的统计描述??.
二、气候综合潜在因子。
.气候地理因素探索性因子分析?
.气候地理因素验证性因子分析?
三、通路内关键基因地理遗传梯度与人类迁移路线的空间关系分析及气候
综合潜在因子的空间分布趋势分析?
.气候因子和通路关键基因突变位点基因频率的空间自相关分析?. .
通路内关键基因地理遗传梯度与人类迁移路线的空间关系? 四、通路关键基因与气候综合潜在因子的空间依赖关系?. .全局回归关系.局域回归关系?。山东大学硕士学位论文 讨论?.
结
论
创新与不足.
附录致
谢??.
参考文献
攻读学位期间发表的学术论文情况?。
?
?
山东人学硕士学位论文
::..?.??.??..??.?..??...??.?.?..
?
览??.
一、
.
...??...??.??... .二、..
..?.
.??..
.??.
三、
.?.?.?..??.?.?.?.?. 一、
二、
.??..
.??.三、
.?.
.
..?.?.?.?.??.??.?..?.?.?.?.??.?
四、
..
.?.??.??..??.??.??.??.??....
?
?
?
山东大学硕士学位论文
全球人群肾素一血管紧张素一醛固酮通路内关键基因的空间遗传学
研究??探索“基因节俭学说刀的进化生态学证据
专 业:
流行病与卫生统计学
导 .薛付忠 副教授
? 硕士研究生:李骁
中文摘要
年提出了“节俭基因”假说并于年进行了修正,该假说认为引发
糖尿病的易感基因有一定遗传优势,并能使具有这种遗传基因的个体产生某些生存
优势,即“节俭基因”可以使人类在进食期间尽量储备能量,以备饥饿期间消耗,而
在饥荒年代又能够尽可能减少能量消耗的基因。具有这种基因的人群具有相对的生
存优势,即可以通过饱餐期或营养丰盛期尽量将多余的能量以脂肪的形式储备起来,
为饥荒期提供能量供应,抵抗食物短缺。但随着社会经济迅速发展,在原来经常出
现食物短缺的地区,食物突然可以长期稳定丰富供应后,人们在开始接受高
热量食
物同时摆脱了繁重的体力劳动,采用少动的生活方式,节俭基因作用就从有益于人
类变成了人类的负担,促使了肥胖及型糖尿病的发生率显著增加。
然而,节俭基因不应仅包括能量代谢相关基因,水盐代谢等相关基因只要受到
特定选择压力的影响均可成为节俭基因。本研究基于水盐代谢通路肾素.血管紧张素
.醛固酮系统中的几个关键基因,提出如下假设:“人类走出非洲前,为适应
干旱高温环境在通路中存在优势基因,走出非洲后,离开干旱高温环境,优
势基因将成为劣势基因节俭基因学说,带有该基因的人将处于生存劣势,部分被
淘汰。因此,相关基因突变频率应以非洲为中心沿人类迁移路线呈明显的地理遗传
梯度分布,世界人群的通路关键基因突变频率的地理遗传梯度应与全球气候
?
变化梯度存在空间依赖性。
基于上述假设,本研究在空间遗传学、空间统计学和空间生态学的框架内,应
用探索性和验证性因子分析提取全球气候地理因素的潜变量因子,在此基础上进行
了气候因子和等位基因基因频率的空间自相关分析、空间克罩格插值分析、
空间叠
山东大学硕士学位论文
加分析、多元线性回归分析以及地理权重回归分析,以此探索“基因节俭学说”的进
化生态学证据。
研究结果如下:
.全球地理气候指标可提取个潜变量因子:温度因子,支配着年均平均大气
气温
化因子载荷.,温度气候带标准化因子载荷.和地理纬度带标
准化因子载荷.这三个变量,温度因子得分越高,表示温度越高;湿度因子,
一
支配着年均降雨量标准化因子载荷.和地理气候带标准化因子载荷.
这两个变量,湿度因子得分越高,表示湿度越大。
.空间自相关分析显示,温度因子、湿度因子、 等位基因、
等位基因和等位基因的空间自相关系数分别为.、.、.、.和.,
且均有统计学意义,气候潜在因子和肾素.血管紧张素.醛固酮系统关键基因基因频
率具有空间正相关关系。
.
等位基因、 等位基因、 等位基因、温度因子和湿度
因子均存在二阶趋势,分析比较平均误差、均方根误差、标准平均值、标准化平均
等位基因、温度因
误差和标准化均方根误差,分别选取耐模型作为
子和湿度因子、模型作为 等位基因、 等位基因的半方差
?
函数进行空间克里格插值分析。
.气候潜在因子温度因子和湿度因子与肾素.血管紧张素一醛固酮通路内关键
基因突变位点基因频率之间的全局回归模型表明,温度因子、湿度因子与基因
等位基因基因频率、基因等位基因基因频率、基因等位基因
基因频率有关,并且温度因子、湿度因子分别正向和负向影响着等位基因基因频
率;温度因子、湿度因子均正向影响着等位基因基因频率;温度因子、湿度因
子均负向影响着等位基因基因频率。
.气候潜在因子温度因子和湿度因子与肾素.血管紧张素.醛固酮通路内关
键基因突变位点基因频率之间的局域回归模型表明,温度越高,等位基因地理权
?
重回归模型的温度因子系数越大,即温度越高,等位基因基因频率越高;湿度越
大,等位基因地理权重回归模型的湿度因子系数越小,即湿度越大,等位基因
基因频率越低。并且,温度因子与基因等位基因的这种空间依赖关系与人
类走出非洲的迁移路线之间也呈现出明显的空间依赖关系。
结论:
山东大学硕士学位论文
.全球地理气候指标可提取个潜变量因子:温度因子,支配着年均平均大气
气温,温度气候带和地理纬度带这三个变量,温度因子得分越高,表示温度越高;
湿度因子,支配着年均降雨量和地理气候带这两个变量,湿度因子得分越高,表示
湿度越大。通过因子分析,避免了后续回归分析中存在的多重共线性问题。
.基因等位基因的地理遗传梯度以非洲为中心沿人类迁移路线呈现明显
的地理遗传梯度分布。
.综合气候潜在因子对基因等位基因的空间依赖关系呈现出明显的空间
结构性和空间异质性特征,且这种空间依赖关系与人类走出非洲的迁移路线基本吻
合。表明其受到气候因素的自然选择作用。
.通过本研究证明了基因等位基因是一个“节俭基因,这为“节俭”
学说提供了新的进化生态学证据。
创新点:
扩展了“节俭基因概念,认为与水钠平衡调节有关的基因也应该作为节
俭基因的很好的候选者。这为从非能量代谢途径证明“节俭’’基因的存在提供了新
思路。
采用空间遗传学新方法,证明了基因等位基因是一个“节俭基因,
这为“节俭”基因学说提供了新的进化生态学证据。
将空间遗传学、空间统计学、空间流行病学、进化生态学和气候学等学科 的理论方法交叉融合,为探索“节俭’’基因提供了新的进化生态学分析方法。 不足之处:
对于基因和基因的研究,因其样本含量不足和样本点空间分布不均 匀,尚未发现基因和基因能够作为“节俭’’基因的进化生态学证据。进一 步的研究尚需继续搜集数据并优化分布格局,以证明二者是否为“节俭基因。 ?
关键词:“节俭’’基因;水盐代谢;肾素.血管紧张素.醛固酮系统;进化 生态学
山东大学硕士学位论文
?叫
:
?
:
:
‘, ’
.,., .?. , ,‘
’.
, ,
. ,“. ‘
’..
? ’. .’’
,
,
山东大学硕七学位论文 . ,,,
, ,‘’.
:
.
, .., . .. . ..
. ’
,
, , .、.、.、.., ..
., , ,?,, ,
,
..
,
,
.
.
山东大学硕士学位论文行鼯
, , , , ., ,,, ,
.,.
?
:
..
, ,.. .
,..
’
.’.
.
.
‘’,‘ ’. :
. ‘
’,舔 ‘ ”, ‘衄’ ? .
.‘ ‘
’,
’
?
.
.
,
, ,
‘
’.
娟:
山东大学硕士学位论文, 勰‘’,
.
‘’.
:
‘’, ,
,
。山东大学硕士学位论文 符号说明
?
肾素.血管紧张素.醛固酮系统血管紧张素转换酶
血管紧张素原血管紧张素 型受体 地理信息系统
探索性因子分析验证性因子分析温度因子湿度因子
普通最乘法 地理权重回归
?
山东大学硕七学位论文
全球人群肾素一血管紧张素一醛固酮通路内关键基因的空间遗传学
研究??探索“基因节俭学说”的进化生态学证据
业:
专 流行病与卫生统计学
导 师: 薛付忠
副教授
硕士研究生:李骁
?上.一
刖 吾
人类群体遗传学 是一门研究人群的遗传结构及其变化规律
的遗传分支学科,它应用数学和统计学等方法研究人群中的基因频率单倍群频率以
及影响这些频率的选择效应和突变作用、迁移和遗传漂变作用与遗传结构的关系,
由此来探讨人群进化的机制。人群遗传结构是人类群体遗传学的核心研究内容,它
是指遗传变异在人群中呈现某种非随机分布,即遗传变异在群体内或群体间的分布
样式以及在空间、时间上具有其特定的结构性和异质性【】。特定地区内人群的遗传
结构是人口迁移、人群融合、自然选择、漂变、地理和社会隔离、基因突变等众多
综合因素作用的结果。同时,研究人类群体遗传结构,不仅仅是遗传学问题,还与
体质人类学、历史地理学、语言学、文化服饰、迁徙史,姓氏地理学等方面的因素
密切相关。研究人群的遗传变异在空间上的结构性、异质性及其变化规律即空间
遗传结构一直是人类群体遗传学家关注的热点问题,具有十分重要的理论和现实
意义【】:?对于阐明特定地区内人口迁移、人群融合、自然选择、漂变、地理和社
会隔离、突变因素等对人群进化的影响和探讨人类起源与扩展等方面具有重要的遗
传学和人类学意义;?对于开展复杂疾病基因定位的关联研究特别是全基因组关
联研究具有实际应用价值;?对于药物基因组学研究和区域化疾病预防和治疗措
施的制定具有指导意义; ?对于区域化法医数据库的构建具有指导作用。人
类群体遗传结构是人口迁移、人群融合、自然选择、漂变、地理和社会隔离、突变
等众多因素综合作用下的时空随机过程。人群遗传结构及其影响因素的复杂
性和空
间性,
决定了其数据采集、管理和分析方法必须考据其空间属性和空间相互作用。
传统的基因地理学抽样方法非空间抽样方法和数据分析方法如聚类分析、
山东大学硕士学位论文
主成分分析、因子分析、排序分析、遗传拓扑学分析、非参数标度法等】已经
不能满足人群空间遗传结构的精细研究;这类方法由于仅注重高维基因频率矩阵而
忽略了样本群体的地理坐标位置信息,因而不能确切反映群体遗传结构的空间或
,
地理变异规律【?】。近年来随着地理信息系统
的迅速发展,基因地理学这一古老的遗传学分支已经与、空间统计学、分子遗传
学、基因组医学等学科交叉融合,逐渐向更高层次的空间遗传学
?
发展。这为研究人群的空间遗传结构提供了先进而有效的分析工具。
进化是所有生物的必经之路,人类也是经过了千百万年的演变,才与环境相适
应的。事实上,人类到今天为止,也没有停止进化的脚步。大量考古化石和分子遗
传学研究,已经让我们确定,人类在万年前万年前是进化的关键时则挖。这一
时期的进化最为明显,人类渐渐发展出与现代解剖学相似的体貌特征,发展出了大
量复杂的技术,使用了更多更广泛的材料,运输距离也更加远。而大约在、万年
前,这些已经非常接近现代人的人类,已经从非洲向外扩散,散布到了世界各地【】。
推动人类进化的因素包括自然选择、随机漂变等众多因素,达尔文的“自然选择进
化’’理论和根井的“分子进化’’理论分别从不同层面阐明了人类进化的机制。自然
选择和人类进化是无方向性的,也是难以预测的。它是遗传变异和各种环境因素相
?
互作用的结果。而且这种相互作用又存在很大的随机性。同一种遗传变异或表型特
征在不同时间、不同环境,可以具有选择优势,也可能是一种劣势。
“节俭基因”学说就是在这样的理论背景下提出的。该学说由 于年提
出【,该理论认为,在人类社会早期,食物极度缺乏、涉猎非常艰难,人类时刻面
临饥饿的威胁。此时,一部分人由于拥有某些基因突变,使得他们能够比没有突变
的个体更容易储存营养物质。这些贮存的营养物质转化为脂肪,可以在食物缺乏的
时候保障个体的生命需求。所以,具备有这些基因的人,更容易在艰苦的环境中存
留下来,这些基因也就被一代一代地传递下去。到现代社会,每个个体都会携带有
或多或少的突变基因。这些在进化过程中为了适应环境变化而逐渐形成的突变基因,
?
被称为“节俭基因’’,也叫“节约基因型。现在,人类的生存环境已经发生了极
大的变化,食物供应从原来的食不果腹到营养过剩,体力活动从原来的强体力涉猎
到以车代步。节俭基因储存的能量、营养物质,没有被消耗的机会,导致了脂肪大
量囤积、营养过剩。个体携带的节俭基因越多,脂肪和能量的贮存就越多,患肥胖
和糖尿病等和食物能量代谢有关的疾病【孓】,而成为一种选择劣势。
山东人学硕士学位论文
一些流行病学研究结论,支持基因节俭学说。对曾面对严重饥饿及难以摄取足
够食物,而近期生活有极大改善的北美印地安人【】,太平洋岛屿的波利尼西
亚人及
密克罗尼西亚人【。】、澳大利亚土著人【,亚洲印度人【】的大规模调查均显示其对
糖尿病及肥胖症高度易感。其中最为突出的例子是在美国东南部菲尼克斯居住的印
地安人部落。然而,节俭基因在人类基因组中的定位和序列尚未明确,故节俭
基因的存在及作用仍是假说。从群体遗传学和分子遗传学角度,探索“基因节俭”学
?
说的进化生态学证据,不仅对理解人类进化机制、探索疾病遗传易感机制等具有重
要理论意义,而且对应用药物遗传学进行新药发现等方面有实际应用价值。
目前,关于“节俭基因理论的讨论都集中在能量代谢的范围内,也正是
在年首次提出这个理论的原意。然而,“节俭”这个词语可以同样适用于其他
更广泛的情形,例如那些与生长,繁殖和免疫功能相关的特征【,“节俭”的形式也
是多种多样的,包括新陈代谢,心理或者行为机制方面的【】,【,【。结合节俭基因
多种可能存在形式,我们认为节俭基因不应该仅仅局限在能量代谢的范围内,那些
与水盐代谢相关的基因也是节俭基因很好的候选者。特别地,那些在肾素一
血管紧张
素.醛固酮系统中,对于调节血压,内稳态,血管功能和细胞生长起关键作用的重要
基因,可能为“节俭基因假说提供有效的证据。
?
肾素.血管紧张素.醛固酮系统黜认:是肾小球动脉的球旁细胞分泌肾素,激活
从肝脏产生的血管紧张素原,生成血管紧张素,经肺循环的血管紧张素原生成血
管紧张素。血管紧张素作用于血管紧张素受体,使小动脉平滑肌收缩血管
收缩,刺激肾小球皮质球状带分泌醛固酮扩大血容量醛固酮分泌增加,并通过
肾上腺髓质和交感神经末梢释放儿茶酚胺分泌增加,使血压升高,并产生
渴觉【】【。
?很
发
例
传
因
血
,
体中。其中最常见的变异是内含子一段的序列的插入和缺失多态
性【。不同的基因型其血浆中的水平和活性不同,型血浆的水 平和活性明显高于?型和型】,【。大量分子遗传学和分子流行病学研究证
实
基因多态性与高血压,冠心病、脑梗塞、糖尿病等心脑血管病和代谢病具有
关
山东大学硕士学位论文
联性【’?。同时发现,与人的耐力有关,已经用于运动员的选择【。 是中肾素作用的惟一底物,也是目前最有代表性、研究最多的血压 调节候选基因,目前已经发现基因多态位点个以上。基因组全长, 序列全长,共有个外显子和个内含子。基因第外显子存在
个基因突变位点,可分别导致编码产物第位氨基酸由蛋氨酸突变为苏氨酸 和第位氨基酸由苏氨酸突变为蛋氨酸。?基因核心启动子
区域存在一.,及一等变异均可影响基因的转录活
性【。大量研究发现这些突变点与高血压,冠心病、脑梗塞、糖尿病等心脑
血管病
和代谢病具有关联性【】,【】【引。
血管紧张素是己知内源性升压物质作用最强的激素之一,其必须通过与靶细 胞表面的受体结合才能起作用。目前已知主要有两种亚型,即和。 在血管紧张素刺激交感神经末梢释放儿茶酚胺、收缩血管、刺激醛固酮分泌、 促心肌及血管平滑肌细胞增殖和肥厚等功能中起关键作用。人基因长度为 ,只有个外显子,无内含子结构,有个开放读码框,能编码一种具有个 疏水跨膜片段与蛋白偶联的细胞膜受体【】.目前发现该基因的种突变多态
性
,,,与心脑血管病等有密切关系【】,】’【。
?
鉴于肾素.血管紧张素.醛固酮系统在水盐代谢中的重要作用以及与心
脑血管病、代谢病、耐力等方面的密切关系,结合世界人群疾病分布所提供的线索,
本研究提出如下研究假说:
人类在走出非洲前,为了适应干旱、高温环境,在通路中存在优势
基因,走出非洲后,离开了干旱、高温环境,这些优势基因将成为劣势基因基因
节俭学说,带有这些基因的人将成为生存劣势,将部分被淘汰。有证据提示:西
方非洲裔黑人高血压发病水平高于白人,推测可能原因:在用船运送黑奴过程中,
因时间长、缺乏食物、饮水,多数黑奴死在途中;而真正达到目的地的占少数。这
少数人具备很强的水钠储留能力和耐力,因而活下来。但到达目的地后,有比较充
足的饮水和食物,原来的水钠储留优势基因则变为劣势基因,成为高血压等心脑血
管病的致病基因。
通路中的关键基因突变频率应当以非洲为中心沿人类迁移路线呈现
明显的地理遗传梯度分布。
世界人群的通路中关键基因突变频率的地理遗传梯度应当与全球气 山东大学硕士学位论文
候温度、湿度、降水等变化梯度有关。
如果上述假设成立,则可为“基因节俭学说”提供进化生态学证据。为此,
本研
究以地理信息系统】为数据管理分析平台,搜集世界各地人群中上述 通路中关键基因的频率数据,构建世界人群通路中关键基因群体遗传 学空间数据库;进而,将空间遗传学、空间统计学、空间流行病学、进化生态
学和
气候学等学科交叉理论方法,系统分析通路基因的空间遗传学特征,以期从 ??
’
理论上证明上述假说,为心脑血管病的遗传流行病学研究提供理论依据。 材料与方法
一、群体遗传空间数据库的构建
.空间数据库构建方法
设研究区域内,某基因位点由个群体的个基因组成的基因频率矩阵可以表示 为: ?研
?硝
一朋
?
一
以删
,,.........。。.。....../
,?,拧个群体,
式中打为第群体该位点上的第/个基因的频率,
,,?,,单一位点时为该位点上的等位基因个数,多位点时为多个位点上
的所有基因个数。本研究均以单核苷酸多态性作为遗传标记,因此对于每
个位点纳入分析的等位基因仅有一个,并规定取其突变等位基因。
以世界地形图的左下角为原点,经向为工轴,纬向为轴,建立二维空间直角
坐标系,则所有样本群体都落在该坐标空间的第一象限内。设第个群体的空间位置
坐标为薯,,,则其第/个基因的基因频率向量有唯一地理坐标与之对应,由此构
建了该基因位点的空间数据库。将个样本群体的空间位置坐标表示为以×阶矩阵
。
山东大学硕七学位论文
而少。则,在二维空间内所调查的个群体的个基因的基因频率空间数据可表示为
所阶矩阵,则
?
加只。。
.空间遗传学和空间生态学数据库的构建
..空间遗传学数据库的建立
资料收集与质量控制:利用检索系统,在美国国家生物技术信息中心 ,网站://....上检索报
道肾素一血管紧张素.醛固酮系统中关键基因,等频率数据的文献, 并下载全文和摘要,检索词为基因名国家名称。
检索全球所有国家公开发表的文
献资料。对于中国的资料补充了核心期刊的中文文献。本研究收集了基因数
据
?
条,基因数据条,基因数据条。数据的纳入标准为:?正式发 表的具有明确调查时间、地点、群体特征、样本含量的基因频率调查资料;
?样本
量大于或等于;?对每个人群的基因频率数据先进行检验,不符合 ?对同一地点同一位点的同民族的基因频率数
定律者剔除不用;
据,用加权法进行合并。
空间数据库的建立:
地理信息系统 ,是以空间数据库为基础,在
计算机软硬件的支持下,对空间相关数据进行采集、管理、操作、分析、模
拟和显
示,采用地理模型分析方法,适时提供多种空间和动态的地理信息,为研究和
决策
? 服务而建立起来的计算机系统。也可简单地定义为用于采集、存储、处理、分析和
显示地理空间数据的计算机系统。作为信息自动处理和分析系统,的功能涵盖
了数据采集一分析一决策的全部过程。能对空间相关数据进行管理和分析是的
重要标志,并能提供良好的、交互式的制图环境,设计和制作不同类型的专题地图
【。
山东大学硕士学位论文
地图数字化及配准:
采用日图大型扫描仪,扫描世界地图,形成世界数字地图;
在系统中,选取世界地图的四个角点,在其相应的二维空间直角坐标系
内描绘出它们的坐标,并生成空间坐标文件;
添加控制点文件至,添加待配准的栅格数据;
选择控制点图层,将所有控制点显示在地图显示区域;
一
将栅格数据全部显示在地图显示区域;
添加控制点,方向为从栅格到矢量;
更新显示;
保存配准结果。
以.系统为数据管理与分析平台,采用上述构建空间数据库的方法,分
别构建,基因的基因频率空间数据库。样本点的空间分布格局见图,
样本群体分布信息见附录、、.
..空间生态学地理气候资料数据库的建立 资料收集与质量控制:
?
收集、
:网站塾逝;丛坠翌盟:曼堡煎曼:业堑墨:堡个气候监测站的气候
指标包括各地区年均降雨量 ,;年均大气温度 ,;地理气
温度气候带
,;
,;
候带 地理纬度 ,。指标
赋值见表。
表地理气候指标得分
气候地理指标 变量 赋值
、降水量
?降水量
?降水量 ?降水量
?
?降水量
、降水量
??气温
??气温?山东大学硕十学位论文
??气温?
??气温?
.??气温?
.??气温.?
寒带
亚寒带
?
温带
亚热带
热带
大陆性气候
过渡性气候
海洋性气候
低纬度。?纬度。 中纬度。?纬度。 高纬度。?纬度。 ?
?
子往往不能全面反映各
样本点的综合气候特点,本研究采取探索性因子与验证性因子分析相结合的方法,
提取气候综合潜在因子,为进一步分析气候对通路内关键基因的空间遗传结
构影响奠定基础。
..探索性因子分析
探索性因子分析法 ,是一项将具有错综复杂
关系的变量综合为少数几个核心因子的处理降维的分析技术,主要通过协方差矩阵
分析和提取大于的特征根来实现。因此,能够探讨可测变量的特征、性质和
内部的关联性,揭示有多少主要的潜在因子可能影响这些可测变量。本研究利用探
索性因子分析气候因素的核心因子,从而为进一步定义通路内关键基因突变
基因频率与气候因素之间的关系奠定基础。
探索性因子分析的数学模型是:
玉%磊彘?%磊唾,,,?,
其中,五,,..?,五是尼个可测变量;磊,乞,..?,乞是个潜变量因子,;
啦,是待估计的系数,称为因子载荷;是误差项,称为度量误差。
..验证性因子分析
?
验证性因子分析 ,是在探索性因子分析的基础
上进行的。研究者可以根据理论或实际需要对模型施加条件约束,观察不同因子结
构模型与数据的拟合程度,用来检验已知的特定结构是否按照预期的方式产生作用。
理论上,验证性因子分析和探索性因子分析的数学模型是一样的,即山东大学硕士学位论文
点参?%乞,,?,
其中,五,艺,?,?是个可测变量;磊,彘,..?,乞是个潜在因子,?;畅是
待估计的系数,称为因子载荷;蠡是误差项。但是,二者的不同之处在于,在进行探
索性因子分析时,事先假定研究者对可测变量的内在结构以及隐含的潜在因子一无
所知,或知之甚少。因此,估计模型中的未知因子载荷“扩时,需要估计所有的因子
?
载荷,也就是说,探索性因子分析是一种非限制性的分析,其分析结果完全取决于
已知数据。而验证性因子分析是在探索性因子分析的基础上进一步确定每一个潜在
因子对每一个可测变量的影响程度,它不需要估计所有的因子载荷,只需要估计特
定的因子载荷,其余的因子载荷均假定为零。
由于潜在因子无量纲单位,即没有原点和单位,为了使潜在因子之间具有可比
性,必须给每个潜在因子定义它的原点和单位。只要将原始数据标准化,潜在因子
的原点问题就得以解决。在进行验证性因子分析时,标准化之后的潜在因子均值为
即原点为;而解决潜在因子的单位问题有两种常用的方法:一个方法是假定
所有的潜在因子的方差为。这意味着,假定潜在因子的单位等于样本总体的标准
差,简称固定方差法;另一个最常用也是最方便的方法是,在每一个潜在因子所支
?
配的可测变量中,选择一个作为参照变量,并假定该潜在因子在这个参照变量的因
子载荷是,这意味着潜在因子的单位与参照变量的单位相同,简称固定载荷法。
本研究在气候地理因素验证性因子分析中,为使不同单位的变量问具有可比性,采
用变量和因子的双重标准化变换及固定方差法,确定潜在因子的原点和单位。
.
通路内关键基因的空间遗传结构分析及气候综合潜子的空间生态学分析
..空间自相关分析
空间自相关的概念来自于时间序列的自相关,空间自相关描述的是在空间域
中
位置上的变量与其邻近位置上同一变量的相关性,空间自相关的研究提供了空间数
据分析中非常有用的统计技术。如果邻接位置上相互间数值接近,空间模式表现
出的是空间正相关;如果相互间的数值不接近,空间模式表现出的是空间负相关。
空间自相关是指事物或现象具有对空间位置的依赖关系,若某一空间位置的变量值
高或低,则其相邻位置相应的变量值也高或低,这种现象叫做空间正相关;反之,
若其相邻位置相应的变量值低或高,则称此为空间负相关,如图所示。山东大学硕士学位论文
彤., ?..彤。
嵫,, ?。哆。
形., 呢,%
二进制邻接空间权重矩阵定义为:
若第与靳空间单元相邻接
若第与靳空间单元不相邻接
若
盱仨
计算全局’,统计量
设个空间单元,代表第个空间单元的属性值,是平均值。计算全局 山东大学硕士学位论文
‘
统计量要求至闭燹量的分布必须满足正态性的前提假设。全局’ 统计 量从总体上反映了空间变量的空间自相关性。’ 统计量的表达式为: ,刀?打??
一.??..:...?..?????????????????一
%
??‘
其数学期望是乞一,当较大时它的数学期望趋向于。的方差为 ?蒜‘以
枪验统计量为标准化倌。公式为:
一?助
厶一丽
其中,%是空间权重矩阵
最尹.形』
旁缈扩 ,墨手号‘‖驴形‖
兰, 一.,
零假设声明,所分析的属性在研究区域内的要素之间是随机分布的;换句话
说,
用于促进观察值模式的空间过程是随机的,各空间单元的分析属性之间不存
在空间
?
自相关性。如果值小于等于给定的检验水准口一般取.,则拒绝零假设;否则
接收零假设。
全局’ 统计量的值将落在.到的区间内,与传统统计学中的自相
关系数类似,小于表示研究目标存在空间负相关关系,大于则为空间正相关关
系,代表研究目标的空间模式呈现随机分布状态,即不存在空间相关关系。
的大小反映空间自相关关系的强弱,当时表示研究目标存在空间正相关性并且
这种空间自相关关系很强,当.时表示研究目标存在空间负相关性并且这种空间
自相关关系很强。
..
从通路内关键基因的空间遗传结构估计及气候综合潜在因子的空间估计
本研究采用地统计学当中的克里格方法估计黜认通路内关键基因的空间
结构,通过位置等值线图展示各关键基因的地理遗传梯度变异。同时由克里格空间
插值估计获得气候综合潜在因子的空间预测变量。
克里格法是地统计学的主要内容之一,从统计学意义上讲,是从变山东人学硕学位论文
量的相关性和变异性出发,在有限区域内对区域化变量的取值进行无偏、最优估计
的一种方法;从插值角度讲,是对空间分布的数据求解线性最优、无偏内插估计的
一种方法【。克里格法的适用前提条件是区域化变量存在空间自相关性。其方法步
骤如下:
定义区域化变量
当一个变量呈现空间分布时,就称之为区域化。这种变量往往反映某种空间特
?
质,用区域化变量来描述的现象,称之为区域化现象。区域化变量是在某一空间位
置上表示变量的函数厂,在空间坐标系内每一点的坐标毛,‘,‰都有一个
确定的函数值。换句话说,区域化随机变量是随机变量与空间位置有关的随机
函数【】。随机性和结构性是区域化随机变量的两个重要特征。
随机性,是指区域化变量是一个随机变量,它具有局部的、随机的、异常的性
质特征;结构性是指对整个区域而言,存在一个总体或平均的结构,相邻区域化变
量的取值具有该结构所表达的相关关系。
除此之外,区域化变量还具有区域化变量还具有空间局限性即这种结构性表
现为一定范围内、不同程度的连续性和不同程度的各向异性即各个方向表现出的
?
自相关性有所区别等特征。
为兼顾到区域化变量的随机性又能反映它的结构性,.在年代提出
了空间协方差函数和变异函数,为从数学上严格地分析区域化变量的特征提供了有
效的工具。本研究定义通路内关键基因频率和气候综合潜在因子为区域化变
量。
构建区域化变量的变异函数模型
变异函数又称变差函数、变异矩,是地统计分析所特有的基本工具,是实施克
里格空间插值方法的基础。设是系统某属性在空间位置工处的值,曲为一
区域化随机变量,并满足二阶平稳假设,为两样本点空间分隔距离,而与
鼍分别是区域化变 在空间位置而和五处的实测值口,,?,?】, ?
那么,变异函数的离散计算公式为:
?五一置办】
实测半方差值表现为离散的点,应用最小二乘算法对实测半方差值进行不同模山东大学硕士学位论文
型的拟合,所得到的函数被称为实验半方差函数。根据实验半方差函数可以作出半
方差曲线,据此估计不同距离的半方差值,进而对变量进行克里格空间插值分析。
理论变异函数模型是未知的,往往要从有效的空间样本数据中去估计,对
各种不同的值可计算出一系列的,然后用一个理论模型去拟合这一系列的
值。
几种常用的理论变异函数模型简介:
?
球状模型
球状模型是地统计学应用最广的理论模型。球状模型的一般公式为:,川芸一
知?
【
式中,为块金常数,为基台值,为拱高,为变程。当?时,任意 两点之间的观测值有相关性,这个相关性随的变大而减小;当时就不再具有
相关性。
指数模型
指数模型是一个经常被选择的模型,其一般公式为: ?一一:
式中,为块金常数,为基台值,当时,?,因此指数模 型的变程为口。当,时,称为标准指数函数模型。 高斯模型
高斯模型的一般公式为:
~
乃
【?
式中,为块金常数,为基台值,当时,?,因此高斯 模型的变程为?弘。当??盈时,任意两点之间的观测值有相关性,这个相关
性随
的变大而减小,当?口时就不再具有相关性。当,时,称为标准高 斯函数模型。山东大学硕十学位论文
幂函数模型
其形式为:
口秒
式中,为幂指数。当变化时,这种模型可以反映在原点附近的各种性状。 对数模型
对数模型的一般公式:
?
甙
当专时,专,这与变异函数性质?不符。因此,对数函数 模型不能描述点支撑上的区域化变量的结构。
线性函数
线性有基台值模型也是地统计学中常用的理论模型之一。线性有基台值模型
的
一般公式为:
?口
式中,为块金常数,为基台值,彳为常数,表示直线的斜率。当时, ?
。当?,为一条直线。当时,。
进行克里格空间插值估计
克里格法是基于地统计学理论发展起来的空间插值估计方法,是在
变异函数理论模型和结构分析基础上,在有限区域内对待估区域变量进行无偏最优
估计的一种方法,其在地质、遥感、环境、气象等不同领域都已有广泛应用。克里
格法包括简单克里格踟百曲、普通克里格 、趋势克里格
、因子克里格 、协同克里格 妯、
块状克里格 等等。其中普通克里格 是单个变量的局
部线形最优无偏估计方法,也是最稳健最常用的一种方法。
?
空间插值估计基本步骤:
计算变异函数:利用地统计学的变异函数模型,建立耐多药潜在因子及其
综合潜在影响因子空间结构变异函数模型,计算变异函数值,分析变异函数的性质
各向同性或各向异性、块金效应等,为进一步拟合理论变异函数模型、提取测
量耐多药潜在因子及其综合潜在影响因子空问结构异质性的特征参数奠定基础;山东大学硕士学位论文
拟合理论变异函数模型:利用加权最小二乘法建立变异函数理论模型,估
计其参数,推断模型所需要的分隔距离的变异函数值;
建立模型进行空间估计:计算“克立格”估计值及其估计误差。
本研究中应用地统计分析模块进行空间数据分析。根据数据特点,本研
究选用普通克里格插值方法进行表面预测,分别估计通路关键基因的突变基 因频率和气候潜在因子的空间趋势,并进行交叉验证,以评价插值的可靠程
度。一
?
般认为,预测误差均值 和标准平均值
最接近于,均方根预测误差最小,平均标准误差
最接近于均方根预测误差,标准均方根预测误差
.最接近于的模型最优【】。
普通克里格的模型假设为:
?
?
;
‘
?
?五
其中,是随机变在处的预测值,是随机变量在%处的噪声, ?
并且满足‰
利用拉格朗日乘数原理来计算合适的以乩:,....?从而估计出‰: 眠:,,?,‰:五,?,厶,‰:耶而缈知兰五
~最小的矽可以通过求拉格朗日算子的偏导数,得到下述方程组: 掣缸?
.呈丝鱼掣少~一,‰;石。善五.;工。。,尼,,?,? ?
“
毛 而? ,
名一
? 旺
. ?,
?;‰。 ;?.?
.;.厶.‰
厂????川一/
山东大学硕士学位论文
,而?‘, ,
, 名
其中, ,
?,‘??,菇, ?,
.;.丸.‰
模型评价指标
应用普通克里格插值模型计算得到的各空间单元预测值,采用交叉验证方法.
来验证某一插值方法的效果。一般情况下,采用平均误差、标 准化平均误差、平均标准误差、均方根误差和标准化均方根 误差来衡量插值精度的高低以及反映模型是否合理地反映空间变异特征。
?肘,;一
旦
刀
?。厂互,。/
生
刀
?
艘
式中,。为第个单元的实际观测值;乙为第个单元的插值估算值,为第个 单元的预测标准差,刀为用于参与验证的空间单元的数目。 ?
.气候综合潜在因子与通路内关键基因空间依赖关系的地理权重回归分析 ..全局回归分析
全局回归分析是指不考虑变量空间自相关性时的分析,通常采用基于最小 二乘回归的多元线性回归方法。本研究采用多元线性回归分析阐明通路 内各关键基因突变基因频率与气候因素之间的全局关系。山东大学硕士学位
论文
假定因变量与自变量间存在如下关系:
屈五屈屯?尾‰
式中,自变量是由因子分析提取的气候综合潜在因子向量,反是常数项, 层,屐,?尾称为偏回归系数。
..局域回归分析
局域回归分析的目的是在考虑变量空间自相关性的前提下,分析自变量与因
变
?
量间空间依赖性的空间变化关系。本研究采用地理权重回归模型分析气候综合潜在
因子对通路内关键基因依赖关系的空间异质性和空间结构性,并通过克里格
插值的等值线图展示其空间结构性和空间异质性。
地理权重回归 模型是由英国
大学地理学家..及其同事提出的【。地理权重回归模
型允许在不同的地理空间有不同的空间关系的存在,可以在空间上对每个参数进行
估计,其结果是局部性的并非全域性的参数估计,从而能够探测到空间数据的空间
非平稳性。其方法步骤如下:
模型的一般形式
? 模型和多元线性回归模型的不同在于,自变量的回归系数是随着空间位
置而变化的。模型的一般形式如下:
七
;,,?岛蚝,,,嘞
其中,,与五,,,‰是因变量,和解释变量,,?,以在位置材,,,,处的
观测值;系数溉”,,届“,,?,展“,是所研究区域内的待估计的参数,它是关
于空间位置,’,的元函数,通过在每一个位置;,;处使用加权最小二乘法
【】,【对系数进行估计;毛,,?,刀是均值为,方差为万的误差项。
模型参数估计
? 假设在每一位置“,,’,,处的权重为?“,,,,?,刀,那么位置”,,,,的
参数估计需要满足下列最小化条件: 一 七?,% ,‖,一?岛%’,;‰ 』令
山东大学硕十学位论文
?毛
????
?屯
? 并且
:
?..?
而屯;% ?哦
。
以,’, 属咋,,? 屈“,? ,
,’, /,
??%似, 展甜,,哆
据加权最乘法理论的参数估计为 ‖“,,,,: ’,矿%,,
?工;是矩阵的第行于,则在位置“,,的拟合值为:
羹‖, ’形%,%】 ’?】,
多:五,建,?,奠,,会:盒,乏,?, 分别为在万个位置
?,,?,。,占,,?,分别为在个位置“,咋,,,?,刀
.?
少的拟合值向量和残差向量,于是有毒乏 占 一 ,
?吨
,..。..
;
、,、,、
% ’ 。
?黢
权重函数的选择
为了估计方程中的参数,选择一个标准来决定加权矩阵矿是很重要的。在 分析中,一般认为距离回归点较近的观测值对回归点处的参数估计影响较
大,
离回归点的观测值的影响就较小.所以,在估计回归点的参数时,必须给予离 的地区更多的关注,也就是优先考虑较近观测值的影响.空间权重的选取有
以下
两种常见形式,对于第,?,刀个位置的权重如下【】:
高斯距离权重
咖咖?.纠,
山东人学硕七学位论文
扩;;,:,,,?,以
%“,,,一誓
其中,茚为位置掰;,,,与位置,,间的距离,为带宽。
在权重函数中,带宽的确定是重要的,目前有两种确定带宽的机制,一种是 固定权重机制,另一种是自适应权重机制。如果采用固定权重机制,可能在数
据稀
疏的地方导致较大的估计方差,而在数据密集的地方屏蔽了微妙的局部变化;
自适
应机制可根据观测样本数据的密度进行带宽的自动调节,在数据密集的地方
带宽
变窄,在数据稀疏的地方带宽变宽。
本研究将采用高斯距离权重并利用交叉验证法来选择参数,即寻找使得得 分函数达到最小,得分函数形式如下【:
,, . 、
? ,,舶
\ /
其中,,,表示扣除第,个点后由其余的万一个点拟合模型时。的估计值。 等提出了“最优模型其最小”的模型评价标准;认为若模型 ?
与模型的之差大于,则表明即使把模型的复杂性考虑在内,其模 型拟合效果也比模型好【。
三、统计分析软件
..、 .、
上述统计分析所采用的软件包括 .以及..
.。..【】主要用于探索性因子分析和全局回归分析, .】主要用于验 .主要用
证性因子分析,
.】主要用于空间插值分析,..
于地理权重回归分析。
结果与分析 口木司】仍
一、通路内关键基因的统计描述
山东大学硕十学位论文
本研究共选取基因频数资料例,基因资料例,基因
资料例。世界各个大洲的基因,基因,基因的等位基因型频数 分布如图,图,图。
?
一
?
口
?
图
基因各个大洲等位基冈型频数分布
对于基因,北美洲、南美洲和欧洲人群的基因型频数最高,其次是基 因型,基因型频数最低;大洋洲人群基因型频数最高,和基因型频数相差不 多;东亚人群的基因型频数最高,其次是基因型,基因型最低:非洲和西亚
人群中,和基因型最多,基因型最少。
?山东大学硕士学位论文
?
一
?
口..
图 基因各个大洲等位基因型频数分布
?
对于基因,北美洲、大洋洲、欧洲人群的基因型频数最高,其次是 基因型,基因型频数最低;东亚、非洲和南美洲人群的基因型 频数最高,其次是基因型,基因型最低;西亚人群中,基因型 频数最高,基因型和基因型频数相差不大。
?