·112· 垦堡垒塑堡堂王壁垒查2Q!Q堡垒旦笙!≥鲞蔓!塑!坐』璺i!型曼竖:△趔!垫!!:型:ji:塑!墨
基因芯片数据
方法研究进展
梅杰杨凯
【摘要】基因芯片是生物芯片的一种,是最先研究也是最成熟的生物芯片。其产生的海量数据中隐
含着许多有价值的生物信息,人们越来越重视探索和开发用以分析这些数据的方法。目前已有统计分析、
聚类分析、自组织映射等众多的方法用于大规模的基因
达的数据挖掘整理。对基因芯片试验数据现有
的基础分析方法进行综述。并介绍一些新的分析方法。
【关键词】基因芯片; 基因表达;分析方法
中图分类号:Q78 文献标识码:A 文章编号:1673--4181(2010)02-0112埘
MethodsofclassificationandanalysisofthemicroarraydataME/肛,YANG鬣以DepartmentofOral
andMaxillofacialSurgery,TheFirstAffiliatedHospital,ChongqingMedicalUniversity,Chongqing400016,
China
【Abstract】DNAmieroarrayisthefirststudiedandthemostmaturedformofthebio-chip,whichgenerat·
edhugeamountsofdatainanumberofvaluablehiddeninformation.Scientistshaveattachedmoreimportanceto
theexplorationanddevelopmentfortheanalysisofthesedata.Atpresent,manymethodshavebeenusedfor
large-scalegeneexpressiondatamining,suchasstatisticalanalysis,clusteranalysisandself-organizingmap.
Thispaperreviewstheexistingmethodsforanalyzingexperimentaldataeoleetedfromandintroducessomenew
analyticalmethods.
【Keywords】Genechip;Geneexpression;Analysismethod
0引言
基因芯片(microarray),又称DNA芯片或DNA
微阵列,是指通过微加工技术和微电子技术,将成
千上万与生命相关的探针分子以预先
好的排
列方式同化在固相支持物(硅片、玻片、聚丙烯酞胺
凝胶、尼龙膜等载体)的表面,组成密集二维分子排
列,通过检测每个探针分子的杂交信号强度进而获
取样品分子的数量和序列信息,以达到对样本基因
的表达水平、突变和多态性进行快速、并行、准确、
高效的检测分析。它是近几年发展起来的又一新的
分子生物学研究工具,被广泛应用于基因的表达和
调控、新基因的功能发现、疾病的诊断和预后、药靶
的发现、毒理学、微生物检测、农林业生产、食品、环
境保护和检测等领域li-3]。它综合了分子生物学、半
导体微电子技术、激光、化学、计算机科学等众多学
科领域的相关技术,使其具有高通量、快速、并行化
采集生物信息的特点问;同时,大规模、高通量的信
息获得也对“海量”数据的分析及信息的提取提出
DOI:10.3760/cma.j.issn.16734181.2010.02.012
基金项月:重庆市卫生局科研项目(03.2-073)
作者单位:400016重庆医科大学附属第一医院口腔颌面外科
通信作者:杨凯.Email:eqfyyk@yahoo.coln.cn
·综述·
了新的挑战,如基因芯片数据的
化、样本(或基
因)间距离的度量以及样本(或基因)的监督和非监督
分类等分析方法,力图将无机的信息数据和有机的
生命活动结合起来阐释生命特征及基因功能,已经
成为生物信息学的研究课
嘲。这些探索基因功能
的新技术和新方法是目前研究的重点,新的分析工
具和方法不断产生161。本文就基因芯片实验数据现
有的基础分析方法做一个概括的总结,并介绍一些
新的分析方法。
1基因芯片数据的获取及标准化
芯片上的每个点包含2个数值成分:信号值和
背景值。信号值是指芯片数据的真实强度值,这些
数值能提供相关基因表达的量化信息;背景值则指
那些因不真实的生化反应导致的强度值。生物芯片
通过探针与经荧光标记的目标样品进行生物反应,
使用芯片专用检测系统,经荧光共聚焦扫描进行荧
光信号的采集,通过图形分析软件产生每个点信号
及其背景的数据,最终转化成可计算的数字信息;
但标记物的差异、标记效率、空间位置的差异、荧光
标记检测效能的差异以及样品RNA的原始浓度的
差异等,都可能对基因表达结果产生影响。因此,原
始数据需经过标准化,以消除由于系统变量引起的
万方数据
垦堕生塑匿堂王墨苤查垫!Q生垒旦笙!!鲞笙2塑丛』Ei!堂i!韭:皇西!垫!Q:!垡:!!:№:!
误差,使得基因表达数据真实地反映测量样品的生
物学差异f7】。现有的标准化方法主要有:基因中心化、
总强度标准化法、局部加权线性回归标准化法以及
局部均值标准化法等[8-91。基因芯片数据标准化后,
基因表达的变化就表示为样品标准化表达水平与
参照样品标准化表达水平的比值。
1.1基因中心化
基因中心化是把每个基因在各实验中的表达
值减去该基因在各实验中表达值的均数或中位数。
基因中心化后的值就反映了该基冈在不同序列下
的变异;但当参照基因是实验的一部分或要了解基
因差异表达的程度时,不适宜进行中心化。
1.2总强度标准化法
此方法假设2批待标记的mRNA的量相同,相
对于对照组样品,实验组的表达应既有上调也有下
调。这样,扫描所得的所有Cy5和Cy3荧光分子的
光密度值是相同的。通常用于标准化同一块芯片上
杂交的2种样品,在实际应用中,通常采用扣除所
有点的平均值(mean)或者中值(median)。
1.3局部加权线性回归标准化法
这种方法根据是否采用线性回归.分为整体平
均值法(小halmeannormalization)和强度依赖
(intensitydependent)。此方法用于标准化同一块芯
片上杂交的2种样本,并建立于以下的假设之上:
如果mRNA来自紧密相关的样本,那么大部分基因
的表达水平是相近的,因此在以Cy5和Cy3为坐标
的散点图上,这些基因应呈一直线;如果2批样本
的标记和检测效率相同,则直线的斜率也是惟一
的,那么,标准化这些数据就等于用回归的方法计
算其最适斜率。
2基因表达矩阵的构建
在基因芯片标准化后,每一个基因都可以获得
一个代表基因表达水平的数据,如“表达比(ratio)”。
“表达比”计算在芯片分析中广泛应用Ilo一,可以得
到关于基因表型、基因表达模式及其他生物过程的
定量信息。在基因表达应用中,通常利用一个实验
组样品和一个对照样品去探索感兴趣的生物学现
象。“表达比”计算的一般算法是通过2个样品间基
因与基因的比较,反映出在实验条件下基因是诱导
还是抑制。通常采用表达比的对数形式(1092ratio)能
够更直观地描述基因表达上调或下调的幅度,同时
计算机还给出直观的显色图。在样品中呈高表达的
基因其杂交点呈红色;相反,在对照组中高表达的
基因其杂交点呈绿色;在2组中表达水平相当的显
黄色,这些信号就代表了样品中基因的转录表达情
况。
由若干次芯片实验可以得到一个xxy的基因
表达矩阵,用以记录基因在不同实验条件下的表达
谱。通常菇为基因的数目,Y为实验的次数或芯片的
数目。表达矩阵也可以理解为一个表达空间,每一
次实验都代表空间中一条单独的、不同的轴,矩阵
中每一行的数据即为该基因的表达向量。对每一个
基因而言,表达向量描述了其在表达空间中的位
置。这样,一个基因就可以被描述成表达空间中的
一个点,从这个观点出发来解释基因表达,如果2个
基因在每一个实验中有相近的(1092ratio)值,那么
在表达空间中2个基因的点会非常接近;相反,则
2个基因的点会相距较远。
3差异表达基因的筛选
差异表达基因就是在若干实验组中表达水平
有显著差异的基因,也可称之为显著性基因。大多
数已发表的研究都把表达水平增高一倍或下降一
半(即l092ratio>12或≤一2)作为判断是否有表达差
异的标准⋯一31。这种简单方法判断的结果虽然可以
通过重复性实验得到可靠的验证,但却很难发现那
些在表达上有微小改变而生物学意义重要的基因¨卅。
首先由所允许的假阳性FP(falsepositive)的大
小和基因的数目m来计算口值:a=FP/m;通过重复
性实验可以计算每一个基因的尸值,并按照P值的
大小将基因排序,P