偏最小二乘法在傅里叶变换红外光谱中的应用及进展
偏最小二乘法在傅里叶变换红外光谱中的
应用及进展
第25卷,第10期
2005年10月
光谱学与光谱分析
SpectroscopyandSpectralAnalysis Vol.25,No.10,ppl610—1613
October,2005
偏最小二乘法在傅里叶变换红外光谱中的应用及进展
张琳,张黎明,李燕,刘丙萍,王晓斐,王俊德
南京理工大学现代光谱研究室,江苏南京210014
摘要偏最小二乘法(PLS)是一种应用非常广泛的化学计量方法,它综合了多元线性回归法(MLR)
和主成分回归法(PCR)的优势,具有预测能力强和模型相对简单等优点.PLS使傅里叶变换红外光谱的应
用范围不断扩大,同时算法也得到了改进和完善.文章介绍了偏最小二乘法在傅里叶变换红外光谱中的应
用,对改进算法,如移动窗口PLS(MWPLS),稳健PLS(RPLS),加权PLS(WPLS)和非线性PLS等进行
了介绍.同时,对应用PLS时数据的预处理,变量的选择,噪声的处理和非线性模型的建立进行了综述.
主题词偏最小二乘法;傅里叶变换红外光谱;算法改进
中图分类号:0657.3文献标识码:A文章编号:1000—0593(2005)10—161004 引言
化学计量学作为化学与计算机科学,数学,统计学的接
口l1J,运用计算机上实现的数学与统计方法,优化化学测量
过程,并从化学测量数据(信息)中最大限度地提取有用的信
息,这使得它对分析化学的发展具有重要的意义.化学计量 学在分析化学的许多方面取得了成功应用,而应用于傅 里叶变换红外光谱(n,IR)中的化学计量法有经典最小二乘 法(CLs)],卡尔曼滤波法(KFM)""J,偏最小二乘法 (PLS)13],小波分析(wV)以及仿生类算法人工神经网 络(),j,遗传算法(GA)等,其中偏最小二乘法
(PLS)是一种应用十分广泛的化学计量法,主要因为偏最小 二乘法是在多元线性回归法(MLR)和主成分回归法(PCR)的 基础上发展起来的_】,它集MLR和PCR的基本功能于 一
体,在一个算法下可以同时实现回归建模,数据结构简化 以及两组变量之间的相关分析.因此它具有以下优点: (1)建模求得模型的预报残差平方和(PRKSS)小,即模型的 预测能力强;(2)可以很好地处理变量多,而样本少的问题; (3)模型相对简单.
FTIR是一种应用十分广泛的分析手段,具有灵敏度高, 分辨本领高,速度快的特点,同时普适性强,对气,固,液样 品均可进行分析,不破坏原样.但面对生命,环境等学 科,要求对复杂的混合物体系进行快速定性定量分析,擅长 纯组分分析的FTIR遇到了挑战.化学计量学的介人在一定 程度上解决了这类问题.PLS由于上述优点,是FTIR中应 用最为广泛的化学计量方法.PLS的基本原理,可参照文 献[12,22,23],本文将重点对PLS在FTIR中的应用和进 展作一综述.
1PLS在FTIR中的应用
顾炳和等利用FTIR进行有机气体的多组分分析时, 在PLS校正与预测步骤之间加入了诊断步骤,提出了利用参 数SO和SA来判断待测样与分析校正样的相似性,以确保 预测结果的可靠性.利用这种方法对甲苯,苯乙烯,邻二甲
苯,问二甲苯和对二甲苯的混合样进行分析时,相对标准偏 差RSD均小于0.5%.针对样品中含有干扰物质的情况_2, 通过在PLS算法中引入残差光谱的概念及光谱搜索,分别对 含有0,1和2个干扰组分的样品进行分析,RSD没有明显 的差异,这说明PLS可用于含干扰组分的样品进行分析. Emilio等61用PLS辅助的FTIR对油漆中的乙酸丁 酯,甲苯和甲基乙基酮进行了分析.同色谱分析比较,该方 法测量简单,迅速,准确度和精确度高.Perez-Poncel2在实 验中用校正阶段的3组分模型对其中的两组分进行预测时, PLS可只识别出这两种组分.显示了方法的稳健性. 文献[28—31]在利用FTIR对血液中葡萄糖的测定时,均 采用了PLS进行多变量的解析.在近红外区6600,4250 cl11和中红外区1200--950cl11,,Haaland30]对采集的4 个血液样品中的葡萄糖进行分析,平均预测误差为13mg? L,准确度适中.由于血液化学的特殊性,作者指出增加校 正模型中样品的数目,适当提高样品的温度,会提高预测的 准确度.最近,,vis【用PLS方法对葡萄糖的FTIR单光 束光谱建立了校正和预测模型,结合光纤传感系统,发展了 收稿日期:2004.06.06,修订日期:2004.09.06 基金项目:国家自然科学基金(20175008),教育部博士后科学基金和南京理工大学
青年学者基金(Njust200303)资助
作者简介:张琳,女,1976年生,南京理工大学化工学院博士研究生*通讯联系人
第10期光谱学与光谱分析1611
在线,无创伤血液中葡萄糖的测定.
重水是核能反应的中子缓和剂和冷却液,建立对其连 续,可靠的检测方法是十分必要的.Seung_3用FTIR对重水 浓度进行了分析,综合考虑灵敏性和信噪比的关系后,光程 定为0.11TIITI,用PLS建模分析方法的标准校正误差(SEC)
和标准预测误差(sEP)都有很大的改善.
油中的自由基脂肪酸(FFAs)含量是决定其质量和经济 价值的主要指标,对FFAs的快速准确测定是一项具有工业 价值的课题.传统的滴定方法耗时而繁琐,Femando_3对 FFAs采用了红外光谱分析.与CLS校正方法相比,用PLS 获得了更好的检测结果.Manl3'35]用FTIR分析了棕榈油中 茴香胺和湿度,用交互验证(cross—validation)检验方法确定了 PLS校正模型的大小,用2mL的样品在2rain内就可得到 结果.预测标准误差满足美国油化学家协会的要求. 另外,PLS应用于FTIR中解决多变量校正问题,还包 括在食品行业对牛奶中蛋白质,乳糖和丙酮的测定,在医 药行业对扑热息通,水杨酸和咖啡因的同时检测,在交通 行业对摩托车尾气副和飞机引擎排放气体l3的检测等. PLS的辅助还拓展了FTIR在其他方面的应用,如对复杂过 程的优化,构效关系,信号处理,模式识别和动
力学过程检测等.
2PLS使用策略和方法的改进
2.1数据的预处理
用PLS进行多变量数据分析时,数据的预处理是重要 的_129,30,45].预处理的方法主要有均值中心化(Mean—cen— tering),范围标度化(Rangescaling),自标度化(Autoscaling)
和多倍分散校正(Multiplicativescatteringcorrection)[433等,这 几种方法也可以联合使用.其中自标度化是应用最广泛的方 法.Emmal4在用FTIR分析己酸盐酯(EC)和二乙基丙二酸 (DEM)时,对比了均值中心化,范围标度化和自标度化3种 方法.当对50:50的EC和DEM做连续30次的测量时,由 于基线漂移等因素,收集到的原始谱图不能很好的重现.采 用了范围标度化和自标度化对数据进行预处理后,谱图有了 很好的重现性,而均值中心化的预处理方法,对提高谱图重
现性没有明显的效果.重现性的改进可以免去背景扣除这一 步骤,使得在一种仪器上建立起来的校正方法能用于其他仪 器,这对工业应用有很大的意义.另外,预处理的重要意义 还在于它可以使样本点的分布结构更合理,有利于计算,避 免舍人误差,使变量单位一致….EmmaH认为它还可以使 谱图中组分的差异最大化,避免由于浓度过高或过低使谱图 差异变得模糊.
2.2变量的选择
文献阐述了变量的选择对多变量校正的意义,它可 以去除一些不含信息的变量使模型更简单,预测性更好.另 外,相对于紫外与可见光谱,红外光谱对实验条件和样品物 理性能的微小扰动和变化较为敏感,由于某些波长间隔内存 在非分析组分的干扰,因此变量的选择对红外光谱测试具有 更重要的影响.Jiang提出移动窗口PLS(MWPLS)的方 法来确定合适的波长间隔.该方法在一个窗口里建立一系列 PLS模型,然后在整个光谱区移动.根据模型的复杂性和残 余量,确定适合的波长间隔以达到所需的误差水平.MW— PLS最大优势在于:有干扰存在的情况下,模型非常稳定, 而且波长的合适选择可以降低校正模型的大小.他用含不同 水平噪声的两个OP-FTIR谱图数据和一个近红外谱图数据, 验证了MWPLS方法对基于振动光谱的多组分分析具有良好 的性能,其预测性能优于传统全光谱的PLS. Thomas[4503认为,PLS足以从谱图中提取所有信息而 不需要进行变量选择,在随后的研究中又发现:在应用PLS 时进行变量的选择,也可以使模型有更好的预测能力.变量 的选择可以看作是一个求最佳化的问题,用GA算法进行 PLS中的变量选择是一种很好的方法,Lear&在测定聚乙 烯中添加物的浓度时,利用了FTIR和PLS算法,发现模型 的预测能力和可解释性都得到了提高.
Cliffordl4首先从理论上证明了变量选择的必要性,然 后提出了新的变量选择方法.该方法根据信噪比对变量进行 排序,以迭代方式建立PLS模型,在每次循环中计算交叉有 效性平均误差平方和(CVMSE),直至对所有变量完成排序, 确定最小的CVMSE,使预测误差最小.将该方法应用于 FTIR测试葡萄糖等3组实验数据中,3组结果都表明对于有 大的异常值(Outlier)的数据,该方法更稳健,对于微小的噪 声该方法没有明显的优势.作者同时指出使用不同的变量选 择方法时,要考虑到噪声的分布.
2.3噪声的处理
常规PLS校正方法包含了分析误差与噪声服从正态分 布的假设,但这一假设并不总能得到满足.为此,提出了 RPLSl5.Liul5利用FTIR分析去痛片中四组分的含量,比 较了PLS和RPLS的性能,模拟数据和样品测试得出了相同 的结论:在系统没有异常值时,RPLS性能与PLS相当;当 系统共线性很强时,RPLS具有优势.对RPLS方法的研究 有助于拓宽其实际应用范围.
在体系中噪声确定的情况下,可采用WPLS的方法. WPLS的基本思路就是对不同的误差项el加不同的权重,这 样可以保证拟合的精确度.Haaland用真实和模拟FTIR 数据对WPLS算法进行了验证.结果表明,在其他条件相同 的情况下,WPLS算法比未加权的PLS,预测的精确度提高 了9个百分点.
对FTIR信号建立PLS预测模型时,Douglas开展了 一
项用Savistsky-Golay(SG)对潜变量平滑处理的研究,即 PoLlSh.其基本思想是把噪声,从重要的潜变量中移至次重 要的潜变量中,进行迭代.在每一步平滑的迭代过程中,用 DurbinwaStDn(DlW)标准来评估PLS模型中,每个潜变量中
噪声的水平.Douglas用含不同噪声水平的模拟FTIR信号, 进行PoLiSh处理时发现,噪声水平高于10%,20%时,模 型的预测能力提高,相对于传统的PLS,该模型更稳健. Douglas认为这项技术也可以用于建立二维的PLS模型. 2.4非线性PLS的建立
通常的PLS是线性模型,为将PLS拓至非线性的情况, Wold[5,553先后以多项式和样条函数形成内部关系.
1612光谱学与光谱分析第25卷
Emmal4在FTIR对EC和DEM的混合体系进行定量分析 时,对EC和DEM分别建立了线性校正模型和多项式模型, 预测平均偏差分别是4%,14%和3%,9%.Yang1对三 氯甲烷,二氯甲烷和一氯甲烷的混合体系,分别应用ANN, 传统线性PLS,多项式PLS和样条函数PLS算法,ANN得 出了更好的分析结果.李燕l5在用FTIR对谱图严重重叠的 五组分1,3一丁二烯,邻二甲苯,氯苯和丙烯醛的混合体系, 进行多组分同时定性定量分析时,比较了CLS,KFM,PLS 和ANN的分析效果.用RSD和平均相对偏差(MRE)评定四 种方法,结果表明PLS最优.结论的不同在于各研究体系中 的线性和非线性特性的不同.
Yang[5酬同时比较了ANN,传统线性PLS,多项式PLS, 样条函数PLS的计算时问和模型容易使用程度.计算时间排 序为:线性P多项式PLS<ANN<样条PLS,模型容易 使用程度为:线性PLS?多项式PLS>样条PLS>ANN.因 [15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
24
25
26
27
28
29
此可根据不同的使用要求以及体系的不同特性,选择合适的
化学计量模型.
随着对PLS研究的深入,新的改进方法不断出现,
w01dL刨还提出隐含非线性潜变量回归(INLR)作为PLS的一
种简化非线性形式,Bm【将PLS扩充至高维(Multiway)的
情形,提出了高维PLS.
3结论
综上所述,PLS是一种非常有效的化学计量学工具.采
用PLS校正方法使得FTIR的应用领域越来越广泛,具有快
速,准确,便捷和安全等优势.同时,FT1R在不同领域的应
用特性,也促进了PLS方法的改进和完善.随着FTIR应用
范畴的不断拓展以及PLS的不断改进,二者一定可以互相促
进,相得益彰.
参考文献
OttoM(M奥托).Chemometrics(化学计量法)Beijing:SciencePress(~t京:科学出版社),2003.1.
WitjesH,SimonettiAW,BuydenL.Ana1.Chem.,2001,73(19):548A.
,v01dJP,KvaalK.App1.Spectroscopy,2000,54(6):900.
BoysworkM,ObandoL,BookshK.Proc.SPIE,1999,3856:308.
KalmanE,LofvebdahlA,WinquistF.Ana1.Chim.Acta.,2000,403(1,2):31. VanRheeA,StockerJP,CreechC.J.Comb.Chem.,2001,3(3):267.
LinussonA,GottfriesJ,LindgrenF.J.Med.Chem.,2000,43(7):1320. LavineBK,WorkmanJJr.Ana1.Chem.,2002,74(12):2763. HaalandDM,EasterlingRG,VopickDA.App1.Spectroscopy,1985,39(1):73. BrownSD.Ana1.Chim.Acta,1986,181:1.
MonfreSL,BmvmSD.ApplSpectroscopy,1992,46(11):1711. GeladiP,KowalskiB!R.Ana1.Chirn.Acta,1986,185(1):19. NatasaSmola,UrasUrkb.Ana1.Chim.Acta,2000,410(1,2):203.
LIUFang(刘
芳).ResearchontheTechnologyofFTIRSpectraAnalysisaboutToxicOrganicCompoundsi
ntheAtmosphereandtheEstab—
lishmentofDiffusionModelsintheIndoorr[Ph.D.Thews].Naming(南
京),NanjingUniversityofSci.andTech.(南京理工大学),2003.
YuRuqin,JiangJianhui.Chemom.Intel1.Lab.Syst.,1999,45(1,2):191.
LIYan,SUNXiu-yun,WANGJun—de(李燕,孙秀云,王俊
德).SpectroscopyandSpectralAnalysis(光谱学与光谱分析),2000,20(6):
773.
LiuFang,WangJunde.Spectroscopy.Lett.,2001,34(1):13 GeladiP,KowalskBR.Ana1.Chim.Acta,1986,185(1):1. ZHUEr-yi,YANGPeng—yuan(朱尔一,杨原).ChemometricsandItsApplication(化学计
量学技术及应用).Beijing:SciencePress(Jr京:
科学出版社),2003.92.
WangJunde(Yi俊德).TheApplicationofRemoteSensinginFTIR(遥感技术在傅里叶变
换红外光谱中的应用),inModemFourierTrans.
formInfraredSpectroscopyanditsApplication(Vo1.1)(近代傅里叶变换红外光谱技术
及应用).WuJinguangEd(吴瑾光).Beijing:Sciemifi.
calandTechnicalI)"ocumentsPublishingHouse((北京:科学文献出版社),1994.442.
HaalandDM,JonesHDT.AIP.Conf.Proc.,430(FourierTransfoITI1Spectroscopy),1998,2
53.
Ful1erMP,RitterGL,DrapperCS.App1.Spectroscopy,1998,42(2):217.
LIYan(李
燕).FemporallyandSpatiallyExtensionofAnalyticalChemistry[PhD.Thesis].Nanjing,(
南京),NanjingUniversityofSci.
andTech.(南京理:[大学),2003
GuBinghe,WangJundeSpectroscopy.Lett.,1998,31(5):1053. GuBinghe,WangLianjun,WangJunde.SpectroscopyLett.,1998,31(7):1451. EmilioLA,GarriguesS,MiguelGAnalyst,1998,123(6):1247. Perez—PonceA,RamblaFJ,GarriguesJM.Analyst,1998,123(6):1253. JanatschG,KruseJarrresJD,MarbachR.Ana1.Chem.,1989,61(18):2016. HaalandDM,RobinsonMR,KoeppGW.App1.Spectroscopy,1992,46(10):1575. ]i11f1f_11f1f_1i1J1J123456789mUM
第10期光谱学与光谱分析1613
WardJK,HaalandDM,RobinsonMR.App1.Spectroscopy,1992,46(10):959. LewisC,McnicholsR,GowdaA.App1.Spectroscopy,2000,54(10):1453. SeungYC,JaebumC,HodlC.VibrationalSpectroscopy,2003,31(1):251. FernandoAI,JoseMG.SalvadorG.Ana1.Chim.Acta,2003,489(1):59. ManYBChe,SetiowatyG.J.Am.Oil.Chem.Soc.,1999,76(2):243. ManYBChe,MirghaniME.J.Am.Oil.Chem.8oc.,2000,77(6):631. LuingeHJ,HopE,LutzETG.Ana1.Chim.Acta,1993,284(2):419. BouhsainZ,GarriguesS,MiguelG.Analyst,1996,121(12):1935. WangJunde,BianHaiyan.ChenZuoru.Spectrosc.Lett.,1988,21(6):935. AndradeJM,CarriguesS,MiguelG.Ana1.Chim.Acta,2003,482(1):115. WDldS.J.Chemom.,1996,10(5,6):463.
AlifrangisL.HjorthC,IngeT.J.Med.Chem.,2000,43(1):103. NorgaardL,SaudlandA,WagerJ.App1.Spectroscopy,2000,54(3):413. LiangYieeng,YuRuqin.(梁逸曾,俞汝勤).HandbookofAnalyticalChemistry(分析化学
手册),Vo1.10,Chemometries(第十分册,化学计
量学).Beijing:ChemicalIndustryPress(~[g京:化学工业出版社),2000.369.
YanBing,YahHongBin.J.Comb.Chem.,2001,3(1):78.
EmmaSH.AnthonDW,StephenJH.Ana1.China.Acta,1997,337(1):191. LearduR.Seashol~MB,PellRJ.Ana1.Chim.Aeta,2002,461(2):189. aiffordHS,MiehaelJM,MarchelJG.Ana1.Chem.,1998,70(1):35. JiangJianhui,BerryRJ,SieslerHW.Ana1.Chem.,2002,74(14):3555. ThDlnasEV.HaalandDM..Chem.,1990,62(15):1091.
ThomasEV.Ana1.Chem..1994,66(15):795.
YuRuqin(俞汝勤).ResearchonChemometriesMethodology(化学计量学基础与方法
学研究),inAdvancesinAnalyticalChemistry(分析化
学新进展).WangErkangEd.(汪尔康).Beijing:SciencePress(Jr京:科学出版
社),2002.379.
LiuShiqing.WangWelwen.Chemom.Intel1.Lab.Syst.,1999,45(1):131. DouglasNR.AntonioB,IvonneD.Ana1.Chim.Aeta,2001,446(1--2):281. WoldS.Chemom.Intel1.Lab.Syst.,1989.7(1-2):53.
WDldS.Chemom.Intel1.Lab.Syst.,1992,14(1--3):71.
YaugHusheng,GriffithPR,TateJD.Ana1.Chim.Acta,2003,489(1):125. LiYan.WangJunde,YuanWeiqun.J.Enviom.Sci.Health,2000,A35(9):1673. BerglundA.WoldS.J.Chemom.,1997,11(2):141.
BmB.J.Chemom.,1996,10(1):47.
ApplicationandImprovementofPartial-Least-SquaresinFourier TransformInfraredSpectroscopy
ZHANGLin.ZHANGLi—ruing,LIYan,LIUBing-ping,WANGXiao-fei,WANGJun—de
LaboratoryofAdvancedSpectroscopy,NanjingUniversityofScienceandTechnology,Nanj
ing210014,China
AbstractPartialleastsquares(PLS)algorithmisaneffectivechemometrictoo1.Ittakesthead
vantagesofmultipallinearregression
(~
?)andprincipalcomponentregression(PCR),whichmakesFouriertransforminfraredspec
trometry(FTIR)morepowerfuland
usefu1.Accompan捌
withincreasinguseofFTIR,thealgorithmismodifiedandcorrectedunderdifferentcircumst
ances.Theapplica—
tionsofPLStoFTIRwerementbned.Improvedalgorithmswerepresented,suchaSmovingwindowsPLS(MWPLS),robustPLS
(RPLS),weightedPLS(WPLS),andnon-linearPLS.Datapre-processing,selectionofvariable,noiseeliminationandnon-linear
moddofPISwereintroduced.
KeywordsPLS;F-HR;Improvedalgorithms
*Correspondingauthor
(ReceivedJun.6,2004;acceptedSep.6,2004)
?弘"粥?钉档如弱