中国知网查重结果中国知网查重结果
第三章近红外光谱分析中建模方法
多元线性回归(MLR),主成分回归(PCR)和偏最小二乘回归(PLSR)在近红外光谱数据的校准中是三个常用的多元方法。事实上,这三种方法有一个共同点就是使用线性最小二乘拟合技术。这意味着他们建立线性模型在一个独立的(光谱数据)和一个独立的(因变量)之间,然后运用最小二乘拟合结束估计回归效果。当变量数量较少时,以上几种线性方法建模效果会大大不如非线性建模方法,支持向量机(SVM)是一种核方法,以结构风险降到最小为原理的一种建模方法,在非线性回归的问题上占有独特的 地位。
3....
中国知网查重结果
第三章近红外光谱
中建模
多元线性回归(MLR),主成分回归(PCR)和偏最小二乘回归(PLSR)在近红外光谱数据的校准中是三个常用的多元方法。事实上,这三种方法有一个共同点就是使用线性最小二乘拟合技术。这意味着他们建立线性模型在一个独立的(光谱数据)和一个独立的(因变量)之间,然后运用最小二乘拟合结束估计回归效果。当变量数量较少时,以上几种线性方法建模效果会大大不如非线性建模方法,支持向量机(SVM)是一种核方法,以结构风险降到最小为原理的一种建模方法,在非线性回归的问题上占有独特的 地位。
3.1 多元线性回归(MLR )
若自变量的数量为个,(),因变量为,在与之间,我们可以建立一个线性模型,即
(3.1)
(3.2)
(3.3)
在式中,是回归系数 。
在式(3.1)~(3.3)中是仅有一个试样的线性模型,若有个试样即为()它的列向量,的数值是,作为回归系数与原来完全相同,矢量作为矩阵的行,则:
(3.4)
在这种情况下,是试样数,是自变量数。有以下三种情况:
(1),在试样数小于变量数的情况下,通过与对比,则有无穷多 个解。
(2),在试样数与变量数相等的情况下,若矩阵满秩时,则矢量有唯一解。但这种极特殊情况在日常生活遇见的机会几乎为零。此时我们有 :
(3.5)
(3),试样数大于变量数,尽管我们解不出准确解,但是使残差矢量尽最大可能小而得 到解:
(3.6)
这就是我们所熟知的最小二乘法。其解为:
(3.7)
在上面的叙述中,因变量为1个,而事实上可以有很多个因变量。如有两个因变量和,我们可以把它们写成两个线性方程:
(3.8)
若用矩阵
示,则:
由此得到
最小二乘的解为:
(3.9)
当用多元线性回归时,没有一个持续的解决办法当变量比样品多时随着无穷多解存在,这最终导致系统出现弱点。另一种情况,当样品比变量多时,导致一个过渡确定的系统,这使系统没有一个准确的解决方法。因为多元线性回归有很多缺点,这就促使了主成分回归法(PCR)的出现。
3.2主成分回归(PCR )
对于多元校正可以知道的不同回归方法中,基本分析方法包括部分偏最小二乘回归,主成分回归已经在化学计量学里得到关注。为了避免共线性问题,PCR通过减少不重要的主成分而减少系统内现存的噪音从而解决这个问题。主成分回归通过准确的潜在变量可直接用于不理想的数据。主成分回归被广泛的用于对数据已在非独立的或预测变量里有大量协方差的回归模型。代替回归到原始测量变量光谱的测量系统的浓度,PCR实现了光谱数据的分解在将浓度信息回归成主成分数。通过主成分的分析表明:原变量矩阵能够表示为主成分矩阵,而由是本征矢量上投影所得。矩阵与主成分的本征矢量一一对应 ,即 。
设矩阵的阶为,若的阶与相等,则多元线性回归与主成分回归所得结果完全相同,这使主成分回归好的地方不能显示。主成分数一定会比小很多,去掉贡献小的变量,主要是因为这些去掉的变量大部分都是噪声,选择之后建模预测结果比较好,也比较稳定 。
综上所述,可由T来表示:
(3.10)
由此可得线性方程:
(3.11)
其解为:
(3.12)
部分偏最小二乘与主成分回归和多元线性回归有关。PCR的目的是在回归到浓度变量之前找到在数据里捕获更多的方差的因素。而多元线性回归是寻找单一的元素及换人数据与浓度有关的因素。PLS尝试最大化协方差,这样把误差和关联数据联系到一起,当PLS搜索到两个矩阵最吻合的空间因素是,它的预测远远优于PC R。
3.3 偏最小二乘方法(PLS)
3.3.1 偏最小二乘基本原理
然在PLS模型里,隐变量包含基于外部效应的变化,以同样的方式随着未知化学干扰可能包含一个定标方法的模型。在校准集中提供的干扰变化,一个校正模型可以基于在线性和未知干扰的变量情况下建模精度较好。在全校正模型里表明:光谱变量的新来源可以通过包含一个限制的额外的PLS因素的模拟。由于增加了校准模型的维度,为了参数做一个更好的估计而改变的条件下测量大量的样品是有必要的。当高非线性效果在光谱里出现时,许多额外的因素对于模拟光谱差异是有必要的,有时模拟这些光谱的差异是不可能的。
偏最小二乘回归和主成分分析很相似,相似之处在于代表变量中因子的同时也能用于代表变量。为了实现这一问题,在数学理论上我们用矩阵的列来预测矩阵中的变量,与此同时矩阵的列用来算出矩阵的因子[30]。其数学模型是:
(3.13)
(3.14)
此处,和的矩阵元由和计算出来的,而和的矩阵元是和的装载,和运用偏最小二乘回归模型法去修正和所造成的误差。
(主成分分析)
(因子分析) (3.15)
在理想的理论情况中,中的误差和中的误差的来源基本相同,即影响和的因素相同。但实际上,中误差与中误差不一样且不相关联,因而,但当用两个矩阵同时确定因子的时候,则和的因子有以下关系形式:
(3.16)
式中所表示的为和间的内在关系。
为了让因子既能表示矩阵,同时又可表示矩阵,则需采用了折中的
,即将进行坐标的旋转。显
然,坐标旋转之后的因子对于矩阵的表达已不再是最优的状况 。3.3.2 偏最小二乘模型的建立
首先我们从一个最基本的模型开始,然后求出偏最小二乘的完全算法。若仅有二矩阵块(block),
即块和块[31~33]。对于:
(1)将某赋值给,即=;
(2)
(3);
(4);
(5)比较步(2)和步(4)中的,如果二者完全相等,则停,否则转(2)。 对于:
(1)将某赋值给,即=;
(2);
(3);
(4);
(5)比较步(2)和步(4)中的,若二者完全相等,则停,否则到步(2)。 在上面的算法叙述中,和是分别完全独立进行计算的,为了建立和的内在相关性,则将和在步骤(2)
中的位置相互交换;
(1)令=;
(2) ;
(3) ;
(4) ;
(5);
(6);
(7);
(8)将步(4)中与上一次的迭代进行对比,若两者相差无几(有一定的误差),则可以停止,否则进入步(2)(若为一维,即仅有单变量,这样就跳过第(5)~(8)步,并置=1 )。此方法通常来说都有很快的收效,计算得出的是和的经过旋转而成的主成分,即不互相正交,是因为在主成分的算法中运算程序发生了混乱。 因此,将权重替代,并在其收敛之后,再加入: = (3.17)
就可以算出正交的值。由,则可计算新的,,其实此即为 。
的相互正交并不是绝对的必要,但当它与主成分回归相比较时,正交的各种条件还是需要被满足的。当预测时,需将做相同的的
化处理:,否则,将引入其他误差。然后,可以被用于内部的相关性:=(下标意为对于因子,大小为),此处。
其残差的计算公式分别为:
; (3.18)
; (3.19)
将代入(3.19),则得到混合方程:
(3.20)
由此混合方程可使模型参数用于测试集的预测 。
3.4支持向量机回归(SVR)
3.4.2基于核函数的支持向量回归
为了寻求非线性回归函数,只需要引进如下形式的 变换:
(3.21)
这时便得到了原始问题
(3.22)
(3.23)
(3.24)
(3.25)
为导出它的对偶问题,引入Lagrange函数
(3.26)
其中,是Lagrange乘子向量。则有原始问题的对偶问题为如下最优化问题: (3.27)
(3.28)
(3.29)
(3.30)
将最大化问题(3.27)用最小化问题代替得,
(3.31)
解得上述最优化问题的解,在计算出原始问题的解
(3.32)
或 (3.33)
求出的结果后,就可以算出在空间H中的变换函数,于是x在空间上的决策函数表示为
根据核方法[34]原理,就可以选取合适的核函数以及合适的精度和惩罚参数,则原始问题的凸二次规
划问题(3.30)就可以写成
(3.34)
解得解为,的分量为零,则它的输入是支持向量。而解可以计算得出 (3.35)
所以构造的决策函数是
(3.36)
非线性支持向量回归机的算法主要分为以下几 点:
(1)指定训练集,其中,是实数,i=1,???,l;
(2)选择适合的参数和惩罚参数;
(3)构造并求解原始问题的凸二次规划问题(3.34)~(3.36),得解
(4)计算原始问题的解
(5)构造决策函数
3.4.3支向量机参数的选择
考虑原始问题(3.21)~(3.24)。其解为,则的分量之和的大小表示了决策函数在训练点处的误差。
所以很明显,
(3.38)
原始问题(3.38)中包含,这使所有训练点的损失的和尽可能的小。所以采用的损失函数是 (3.39)
这里是给定的一个正数。如(3.37)的损失函数被称为-不敏感损失函数,它记作 (3.40)
图3.5画出了-不敏感损失函数的图像 。
--不敏感损失函数
图3.5 -不敏感损失函数
本文档为【中国知网查重结果】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。