




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
偏最小二乘回歸
PartialLeast-SquaresRegression2偏最小二乘回歸方法的產生背景PLS最先產生于化學領域,在利用分光鏡來預測化學樣本的組成時,作為解釋變量的紅外區反射光譜的波長常有幾百個,往往超過化學樣本的個數,所造成的多重相關性使得人們很難利用傳統的最小二乘法。基于這個應用的需要,S.Wold和C.Albano等人于1983年首次提出了PLS回歸方法并首先在化工領域取得了廣泛的應用。3
在實際問題中,經常遇到需要研究兩組多重相關變量間的相互依賴關系,并研究用一組變量(常稱為自變量或預測變量)去預測另一組變量(常稱為因變量或響應變量),除了最小二乘準則下的經典多元線性回歸分析(MLR),提取自變量組主成分的主成分回歸分析(PCR)等方法外,還有近年發展起來的偏最小二乘(PLS)回歸方法。
4偏最小二乘回歸的基本思想
設有p個自變量{}和q個因變量{}。為了研究因變量和自變量的統計關系,我們觀測了n個樣本點,由此構成了自變量與因變量的數據表X={}n×p和Y={}n×q。偏最小二乘回歸分別在X與Y中提取出成分t1和u1(也就是說,t1是的線性組合,u1是的線性組合)。
5
在提取這兩個成分時,為了回歸分析的需要,有下列兩個要求:(1)t1和u1應盡可能大地攜帶它們各自數據表中的變異信息;(2)t1和u1的相關程度能夠達到最大。這兩個要求表明:t1和u1應盡可能好地代表數據表X和Y,同時,自變量的成分t1對因變量的成分u1又有很強的解釋能力。6
在第一個成分t1和u1被提取后,偏最小二乘回歸分別實施X對t1的回歸以及Y對t1的回歸。如果回歸方程已經達到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被t1解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對X共提取了m個成分t1、t2、…、tm,偏最小二乘回歸將通過實施yk(k=1、2、…、q)對t1、t2、…、tm的回歸,然后表達成yk關于原變量x1、x2、…、xp的回歸方程。7偏最小二乘回歸的特點1.PLS是一種可以處理多個因變量對多個自變量的回歸建模方法。特別當各變量集合內部存在較高程度的相關性時,用PLS進行回歸建模分析,比對逐個因變量做多元回歸更加有效,其結論更加可靠,整體性更強。2.PLS可以較好地解決許多以往用普通多元回歸分析方法無法解決的重要問題。例如自變量之間的多重相關性問題和樣本點容量不宜太少等問題。8偏最小二乘回歸的特點1.PLS是一種可以處理多個因變量對多個自變量的回歸建模方法。特別當各變量集合內部存在較高程度的相關性時,用PLS進行回歸建模分析,比對逐個因變量做多元回歸更加有效,其結論更加可靠,整體性更強。2.PLS可以較好地解決許多以往用普通多元回歸分析方法無法解決的重要問題。例如自變量之間的多重相關性問題和樣本點容量不宜太少等問題。93.PLS可以實現多種數據分析方法的綜合應用。它可以集多元線性回歸方法、主成分分析法和典型相關分析的基本功能為一體。在一次PLS計算后,不但可以得到多因變量對多自變量的回歸模型,而且可以分析2組變量之間的相關關系,以及觀察樣本點間的相似性結構。這使得數據系統的分析內容更加豐富,同時還可以對所建立的回歸模型給予許多更詳細深入的實際解釋。104.PLS允許在最終模型中包含原來全部自變量,最大限度地利用數據信息,使得PLS在相同的數據信息情況下比普通多元二乘回歸模型具有更高的有效性。5.在建模的同時實現了數據結構的簡化,可以在二維平面上對多維數據的特性進行觀察,圖形功能強大。因此,許多統計分析專家稱PLS為第二代回歸分析方法。11二、偏最小二乘回歸的建模步驟Step1.將X與Y進行標準化處理,得到標準化后的自變量矩陣E0=(E01,E02,…,E0P)n×p和因變量矩陣F0=
(F01,F02,…,F0q)n×q
。標準化處理的目的是為了公式表達上的方便和減少運算誤差。12Step2.記t1是E0的第1個成分,t1=E0ω1,ω1是E0的第1個軸,它是一個單位向量,既||ω1||=1。記u1是F0的第1個成分,u1=F0c1。c1是F0的第1個軸,并且||c1||=1。如果要t1和u1能分別很好地代表X與Y中的數據變異信息,根據主成分分析原理,應該有:
Var(t1)maxVar(u1)max13
另一方面,由于回歸建模的需要,又要求t1對u1有很大的解釋能力,由典型相關分析的思路,t1與u1的相關度應達到最大值,即:r(t1,u1)max
因此,綜合起來,在偏最小二乘回歸中,我們要求t1與u1的協方差達到最大,即:Cov(t1,u1)=r(t1,u1)max14
正規的數學表述應該是求解下列優化問題:
因此,將在||ω1||2=1和||c1||2=1的約束條件下,去求的最大值。
s.t15
采用拉格朗日算法,可得:
ω1是矩陣的特征向量,對應的特征值為,是目標函數值,它要求取最大值,所以,ω1是對應于矩陣最大特征值的單位特征向量。而另一方面,c1是對應于矩陣最大特征值的單位特征向量。16
求得ω1和c1后,即可得到成分:
然后,分別求E0和F0對t1的回歸方程:17Step3.用殘差矩陣E1和F1取代E0和F0。然后,求第2個軸ω2和c2以及第2個成分t2和u2,有:同理,有:
ω2是對應于矩陣最大特征值的特征向量,c2是對應于矩陣最大特征值的特征向量。18
從而,有回歸方程:19Step4.如此計算下去,如果X的秩是A,則會有:
由于t1,t2,…,tA均可以表示成E01,E02,…,E0p的線性組合,因此上式可還原成yk*=F0k關于yk*=E0j的回歸方程形式,即:20Step5.確定抽取成分的個數——交叉有效性下面要討論的問題是在現有的數據表下,如何確定更好的回歸方程。在許多情形下,偏最小二乘回歸方程并不需要選用全部的成分t1,t2,…,tA進行回歸建模,而是可以像在主成分分析時一樣,采用截尾的方式選擇前m個成分(m<A,A=秩(X)),僅用這m個后續的成分就可以得到一個預測性能較好的模型。21
在多元回歸分析中,經常采用抽樣測試法來確定回歸模型是否適于預測應用。該方法是把觀測到的樣本點分成2部分:第1部分數據用于建立回歸方程,求出回歸系數估計量,擬合值以及殘差均方和;再用第2部分數據作為試驗點,代入所求得的回歸方程,由此求出。一般地,若有,則回歸方程會有更好的預測效果;若,則回歸方程不宜用于預測。22
在PLS建模中,究竟該選取多少個成分為宜,這可通過考察增加一個新的成分后,能否對模型的預測功能有明顯改進來考慮。采用類似于抽樣測試法的工作方式,把所有n個樣本點分成2部分:第1部分除去某個樣本點i的所有樣本點集合(共含n-1個樣本點),用這部分樣本點并使用h個成分擬合一個回歸方程;第二部分是把剛才被排除的樣本點i代入前面擬合的回歸方程,得到在樣本點i上的擬合值。23
對于每一個i=1,2,…,n,重復上述測試,則可以定義的預測誤差平方和為,有:
定義Y的預測誤差平方和為,有:
顯然,如果回歸方程的穩健性不好,誤差就很大,它對樣本點的變動就會十分敏感,這種擾動誤差的作用就會加大SPRESS,h的值。24
另外,再采用所有的樣本點,擬合含h個成分的回歸方程。這時,記第i個樣本點的預測值為,則可以定義的誤差平方和為,有:
定義Y的誤差平方和為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CCS 011-2023采煤工作面智能化接續設計要求
- T/CCMA 0150-2023工業車輛用氫燃料電池動力系統技術規范
- T/CCBD 16-2022品牌價值評價環境保護企業
- T/CCAS 012-2019水泥密度測定方法(氣體置換法)
- T/CBIA 009-2022飲料濃漿
- T/CARSA 3-2022商業遙感衛星運控及數據接收流程
- 副科面試題及答案
- 呼叫中心面試題及答案
- 阜陽語文面試題及答案
- 六上科學第一單元教學設計
- GB/T 2410-1980透明塑料透光率和霧度試驗方法
- 六年級英語下冊單詞和短語默寫版廣州
- 礦井火災防治課件
- 中考物理復習杠桿和滑輪課件
- 辦公室擬辦意見范文(優選十八篇)
- 最新安全生產管理教材電子版
- (完整版)馬克思主義基本原理概論知識點
- 地表水水質自動監測站運行維護技術規范
- 健康證申請證明(通用)
- GB∕T 10054.1-2021 貨用施工升降機 第1部分:運載裝置可進人的升降機
- 生物安全委員會及組織架構
評論
0/150
提交評論