偏最小二乘回歸的研究_圖文_第1頁
偏最小二乘回歸的研究_圖文_第2頁
偏最小二乘回歸的研究_圖文_第3頁
偏最小二乘回歸的研究_圖文_第4頁
偏最小二乘回歸的研究_圖文_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、浙江大學理學院碩士學位論文偏最小二乘回歸的研究姓名:宋高陽申請學位級別:碩士專業:概率論與數理統計指導教師:蘇中根20090505 偏最小二乘回歸的研究作者:宋高陽學位授予單位:浙江大學理學院相似文獻(10條1.學位論文肖琳偏最小二乘回歸方法及其在醫學領域中的應用2000文章主要從理論與應用相結合的角度,較系統地介紹偏最小二乘回歸理論,闡明了使用PLS回旭處理醫學實例的一般步驟,并將之與其他主要回歸方法進行了對比.其內容主要包括PLS回歸的基本思想、Wold建模過程及算法、Holland簡便算法及自編程序、實例分析等.對山西省汾陽實實驗縣合作醫療保險投保率的影響因素分析,結果表明偏最小二乘回歸

2、方法,無論是擬合效果還是預測效果都優于逐步回歸及主成分回歸.它在醫學領域必將會有很好的推廣和應用前景.安全監測中的應用-水電自動化與大壩監測2008,32(4偏最小二乘回歸能有效地消除因子間的多重相關性,但從其算法特點和實際應用來看,也存在不足.例如,在算法方面,偏最小二乘提取的主成分不一定能同時保證方差和相關程度最大;在應用方面,含有較多自變量的偏最小二乘回歸模型的可解釋性不高.遞階偏最小二乘回歸是偏最小二乘回歸后續研究的成果之一,在一定程度上克服了上述不足.算例表明,遞階偏最小二乘回歸模型較其他回歸模型的可解釋性強,較為合理.3.學位論文蔣國興偏最小二乘回歸方法(PLS在短期氣候預測中的應

3、用研究2007針對統計回歸計算中出現的水壓因子難以入選和入選以后計算結果不合理的困難,本文應用偏最小二乘回歸建立壩頂水平位移的統計模型.計算結果表明,相對于逐步回歸和多元回歸,基于偏最小二乘法的回歸模型,取得較合理的結果.5.學位論文丁磊偏最小二乘回歸算法改進及應用2007偏最小二乘回歸(Partial Least Squares Regression,PLSR是一種先進的多元統計分析方法,于1964由瑞典計量經濟學家Herman Wold等人首次提出,主要用來解決多元回歸分析中的變量多重相關性或變量多于樣本點等實際情況的問題.由于它集多元線性回歸分析,主成份分析和典型相關分析的基本功能為一體

4、,因此在國外被譽為第二代多元統計分析方法,該方法目前已廣泛應用于化學計量,工業設計,計量經濟學等各個領域.本文的主要內容可以概述如下:第一部分主要闡述了偏最小二乘方法的歷史和現狀,并對偏最小二乘回歸近期的熱點問題進行了總結.第二部分詳細介紹了偏最小二乘回歸的基本思想,數學原理和單因變量偏最小二乘的算法推導,并利用該方法對防治沙塵暴研究進行了偏最小二乘回歸建模分析,從中發現抑制沙塵暴的根本辦法不是治理沙漠,而是要控制土地沙漠化和抑制裸露農田起塵.第三部分在回歸分析中經常存在自變量過多并且之間存在多重相關性現象,為了尋找對因變量有重要影響的自變量,本文提出了偏最小二乘向前逐步回歸法,并對該方法進行

5、了詳細的理論推導.同時,運用SAS軟件,利用該方法對化工領域的典型數據進行建模分析,結果發現,該方法易于操作,具有一定的實用性.另外,在多指標體系中建立綜合評價指數時,往往會遇到指標變量集合間存在多重相關性問題,而傳統的主成份分析并不能解決該問題,針對這種情況,本文采用PLS路徑分析的思想,構建綜合評價指標,對中國西部城市綜合評價進行實證分析.第四部分針對偏最小二乘回歸無法對未來值進行預測的問題,采用了偏最小二乘時間序列預測模型.一方面,針對因子間的多重相關性現象,采用偏最小二乘回歸建模,從而明確各因子對因變量的影響程度;另一方面,根據構成因子數據的特點,利用 AR(p模型對各因子未來值進行預

6、測,然后將其代入已建成的偏最小二乘回歸方程,從而實現對因變量未來值進行預測.本文利用該方法對煙臺市年生活用水量進行了實證分析.6.學位論文張巧真試驗設計中的數據分析方法2007人們探索、研究和利用自然的一個重要途徑是進行試驗。通常在一個試驗中,我們要考慮p個輸入變量對輸出變量的影響。在試驗設計中輸入變量常被稱作因子,而輸出變量被稱作響應.另外我們稱因子的設置為其水平。如果一個試驗中包含p個因子F<,1>,F<,p>,而這p個因子的水平分別為s<,1>,s<,p>(2,則稱其為s<,1>××s<,p>的因

7、析試驗,特別的如果s<,1>=s<,p>=s,則稱其為一個對稱的s<'p>因析試驗,否則即為一個非對稱因析試驗。這p個因子的任一水平組合被稱為一個處理組合。如果一個試驗中包含有所有可能的處理組合,則稱這個試驗為完全因析試驗。然而一般情況下,試驗者負擔不起一個完全因析設計,尤其是當因子個數較多的時候,所以往往從所有處理組合中取出一部分來安排試驗,這一部分即是一個部分因析試驗設計。如果一個部分因析設計能夠由定義關系得到,則稱之為正規的,否則稱為非正規的。為了能夠對因子效應進行有效的統計推斷,試驗者首先應該選擇一個好的部分因析設計。很多文章都致力于尋找一個

8、最優性準則,并在相應的準則下構造出最優設計.例如,對正規的部分因析設計,最常用的有最大分辨度準則,最小低階混雜準則,純凈效應準則和最大估計能力準則等等。尋找一個好的設計和進行數據分析是試驗設計的兩個重要方面。在工業試驗設計和分析的初級階段,篩選因子具有非常重要的作用。由于客觀條件的約束,可作試驗的次數受到限制。在這種情況下,非正規設計、飽和設計、超飽和設計常常因為其試驗次數節儉而被采用.文獻中對這一類篩選設計的構造問題有很多的討論,在相應準則下最優的設計大多有表可查,試驗者在安排試驗時可以方便的查出。這兒,我們只討論數據分析方面的問題。要對從篩選試驗中收集來的數據進行分析,一個最基本的原則,就

9、是效應稀疏性的假定,即在考慮的效應中,只有少數幾個是不為零的。通常在篩選試驗中,試驗者希望能考查的因子越多越好,但通常由于時間、物力和人力的限制,所能選擇的試驗次數并不太多。所以,一般情況下篩選試驗中每個處理組合只進行一次,沒有重復,這樣也就沒有剩余的自由度去估計誤差項的方差,比如,當這種篩選試驗安排成飽和設計時,恰有足夠的觀測來估計所有的效應,而不再有自由度來估計誤差項的方差,因而,對于適用于有重復試驗的標準數據分析方法,比如方差分析,置信區間和基于t-分布的假設試驗,不再適用。然而,如果效應稀疏性假設成立,即便是使用飽和或超飽和設計,有效的數據分析方法也會使得那些顯著因子效應的估計仍然會比

10、較大,以致于可以識別出真正活躍的因子.因此對篩選設計的數據分析來說,效應稀疏性的假定是關鍵的一點。在任何決策問題中,都必須考慮其代價,在各種錯誤中作個權衡。在篩選活躍因子時,可能會犯兩種錯誤:一種是把惰性因子誤認為活躍的(第一類錯誤,另一種是把活躍的效應認為是惰性的(第二類錯誤。如果犯了第一類錯誤,結果是一個惰性因子包含在以后的研究中,占用資源;另一方面,如果犯了第二類錯誤,進一步的研究中將會漏掉一個重要的因子,這可能會導致整個研究的失敗。一般而言,在篩選試驗中第二類錯誤或者和第一類錯誤一樣重要,或者要比第一類錯誤重要.當然,如果我們宣稱所有的因子都是非零的,也就是不篩選任何因子,則可以避免犯

11、第二類錯誤,但篩選試驗的基本目標就不能實現了。所以在篩選設計的分析中,要尋找一種在探索大的效應時最優的數據分析方法,就必須在第一類和第二類錯誤中作個權衡。超飽和設計是部分因析設計的一種,在這類設計中,待估計的效應較試驗次數要多。當試驗中需要考查的因子數目較多,而進行一次試驗又很昂貴的話我們都知道,非正規的正交表在某些方面優于正規的部分因析設計,比如處理組合數目的靈活性,較高的估計能力等等。因此實際中變得越來越常用。有些情況下,由于試驗單元的非齊次性可能會引起一些系統變差,而分區組則可以消除這些系統變差,進而提高試驗的效率,所以有時候要求設計分區組。對分區組的正規設計的構造,討論頗多,多種準則以

12、及在相應準則下的最優設計大多可以從文獻中查到,而分區組非正規設計的構造,討論還不是很多,可以參考Cheng,Li and Ye(2004和Ai andZhang(2004。若一個試驗設計恰有足夠的觀測去估計主效應和感興趣的兩因子交互作用,這個設計是飽和的.對于正交飽和設計的數據分析,傳統的方法是對所有效應的估計去畫半正態圖。其他的方法也較多.這方面的結果,可以參考Voss和Wang最近的文章.對于非正交的飽和設計,數據分析的方法是很少的,相反,這方面的發展也較慢,問題在于效應的估計是相關的.現存的方法或者是經驗性的或者理論上存在明顯的缺陷。Kunert(1997提出了一種可以把相關的估計轉換成

13、不相關估計量的方法,這種到正交陛的變換共有p!種;然后可以用事先選定的一個變換或者這p!個變換中最優的那個來得到一個改進的方差估計,利用這個方差估計,他給出了一種數據分析方法但沒能建立對犯錯誤概率的控制。Kinateder,Voss and Wang(2000利用Kunert(1997的方法得到每一個效應<,i>(i=1,p的精確置信區間,但都必須先從依賴于i的(p-1!種可能的變換中先驗得選擇一種,而這種選擇可能會破壞效應稀疏性的假定。對其他方法的討論,可參考Wang and Voss(2001b。Wang(2006給出了一種可識別出非正交飽和設計中所有的非零效應的假設檢驗方法。

14、由于我們的PLSVS是針對超飽和設計提出的,故其可用于這種非正交的飽和設計.在第4章,我們用第2.2節提出的PLSVS方法來分析一個非正交的飽和設計的例子。一些主要的結果將會在第5章給出,同時我們在這一章列出一些值得進一步研究的問題。報(理科版2007,31(6統計模型在大壩安全監測資料分析中占有重要地位,是建立混合模型的基礎.從統計模型選擇的角度出發,對多元線性回歸、逐步回歸以及偏最小二乘回歸的應用特點和效果進行了探討,其中偏最小二乘回歸是一種旨在消除多重相關性的新型回歸技術.重點結合某水電站大壩安全監測資料,從模型解釋能力、統計參數的檢驗、擬合和預測效果、效應量的分離等方面對上述3種回歸方

15、法進行了比較性研究,得出了一些有益的結論.8.學位論文吳喜平基于Matlab的水質COD近紅外光譜預測模型的研究2007近紅外光譜分析技術是近年來迅猛發展起來的高新技術,它具有分析速度快、不破壞樣品、操作簡單、穩定性好、效率高等特點。近紅外光譜技術綜合了物理學、化學計量學、數學和計算機等學科的交叉技術,屬于交叉學科。任何含-H基團的物質都會在近紅外譜區產生吸收,所含信息量極其豐富,但近紅外光譜譜區集中了倍頻和合頻的信息,大量的信息特征峰在該譜區嚴重重疊,沒有明顯的尖峰,屬于弱信息光譜區,利用一般的光譜分析手段無法進行提取,必須結合化學計量學方法通過計算機才能提取有效的信息。通過試驗的大量數據,

16、找出有機污染物(含氫基團OH,CH,NH,SH,PH污染程度與近紅外光譜的相關性,建立有機污染物與近紅外光譜的定量模型。為能長時間穩定使用、在線測量有機污染物的近紅外傳感器的研制、水質狀況實時在線監測系統等作基礎性研究。本論文著重進行了水質化學需氧量(COD:Chemical Oxygen Demand的近紅外光譜預測模型的研究,預測模型的建立用化學計量學的多元校正分析方法,即逐步回歸分析方法(SMLR、主成分回歸分析方法(PCR和偏最小二乘回歸分析方法(PLS。其中逐步回歸獲得的最好結果是15點平滑處理,其決定系數R<,2>為95.01%,最佳回歸因子數是6,校正標準偏差SEC為

17、19.03 mg/l,預測標準偏差SEP為18.72mg/l;主成分回歸獲得的最好結果是一階導數處理,當信息貢獻值為98%是,其決定系數R<'2>為97.69%,主成分數是6,校正標準偏差SEC為12.26 mg/l,預測標準偏差SEP為18.72mg/l;偏最小二乘回歸獲得的最好結果是基線校正處理,其決定系數R<'2>為99.42%,最佳回歸因子數是5,校正標準偏差SEC為8.93 mg/l,預測標準偏差SEP為7.56mg/l。通過上述三種多元校正分析方法處理的結果,我們看到偏最小二乘回歸算法最優,其次為主成分回歸,最后才是逐步回歸。各種預處理方法中

18、,要看具體的算法和分析的問題,在具體應用過程中應盡可能嘗試多種數學方法,以便找到適合于該特定應用的最佳預處理方法。本論文還開發了VB與MATLAB混合編程的工程計算軟件系統。充分利用MATLAB的運算功能和VB的開發界面方便的特點進行混合編程,方便用戶使用,其開發研究具有實際意義。認識2009,39(22針對丹東市采暖期SO_2污染的實際情況及氣象因子的關系,建立了逐步回歸、偏最小二乘回歸,主成分回歸和BP神經網絡等4種常用的大氣污染預報模式,并在實際預報中進行了模擬、試報和應用,結果發現,各個模式模擬值與實際值的變化趨勢基本一致,BP神經網絡方程和偏最小二乘回歸方程的預報值與實際值的接近程度

19、要好于逐步回歸方程和主成分回歸方程.10.學位論文陳增文基于高光譜的土壤有機碳含量估算研究2009土壤有機碳庫是人類可以對其施加影響的最大生物圈碳庫,其儲量的估算和動態變化研究是全球碳循環研究中的重要內容。與傳統化學方法相比,利用可見光-近紅外光譜學方法估算土壤有機碳含量具有便攜快速、節約成本、非破壞性和準確度高的優勢。本文利用ASD2500便攜式高光譜儀在實驗室內測定土壤樣品反射率,研究了亞熱帶山地紅壤的可見光.近紅外光譜特征,分析土壤光譜反射特性。同時,利用多元統計分析方法,研究實驗室內土樣處理方式(土樣粒徑、土壤干燥狀況的不同對土壤有機碳含量高光譜預測模型的影響。研究表明:(1土壤有機碳

20、含量主要光譜響應區域為580730 nm,與623 nm處的光譜反射率相關性最大。(2利用偏最小二乘回歸方法建立土壤有機碳含量預測模型的精度優于多元逐步回歸方法。(3實驗室內對土樣的不同處理會影響土壤光譜反射率估算土壤有機碳含量模型的精度,但是這種影響可以通過采取對光譜的不同處理方式以及不同的建模方法加以減弱。(4鮮土樣的土壤有機碳含量偏最小二乘回歸預測模型的RPD=2.52>2.0,說明該模型可用于估算土壤有機碳含量,對野外原位土壤光譜測定估算土壤有機碳含量具有一定的參考意義。陸地生態系統碳循環是全球碳循環的重要組成部分,土壤碳庫是陸地生態系統中最大的碳儲庫。據估計,全球1 m深土壤的

21、有機碳貯量約為1 5002 00.Pg C,3 m深土壤中約為2 344 Pg C(1 Pg=1×1015g。土壤有機碳庫是全球碳庫中最活躍的部分之一,任何微小的擾動變化都將影響到土壤與大氣碳庫之間的碳平衡。估算土壤有機碳含量時,為減弱土壤時空變異性的影響,需要大量取樣,而當分析樣品很多的情況下,傳統化學分析方法如干燒法(Dry Combustion和重鉻酸鉀氧化法,價格昂貴、耗時且容易產生化學廢料。土壤的反射光譜中包含豐富的土壤信息,可以從中獲得土壤質地、機械組成、有機質含量、氧化鐵含量和含水量等有用信息,利用高光譜測定土壤有機碳含量具有便攜快速、節約成本、非破壞性和準確度高的特點

22、。本研究圍繞高光譜土壤信息的提取,在實驗室內利用ASD2500便攜式光譜儀測定土壤光譜反射率,探討不同土樣處理方式(土樣粒徑、土壤干燥狀況對土壤光譜反射曲線和土壤有機碳含量高光譜預測模型的影響,以及不同的數據預處理方式和建模方法對模型精度的影響。本論文由五個部分組成,第一部分緒論主要介紹了高光譜遙感的一些基本概念和高光譜在土壤有機碳含量估算的研究情況,同時介紹了土壤有機碳的高光譜特征。第二部分為論文第一章,介紹了實驗地概況和實驗方法。第三部分分析了土壤反射光譜特征以及不同粒徑和土壤干燥狀況對光譜曲線的影響。第四部分為論文的重點部分,分析了不同粒徑和土壤干燥狀況對土壤有機碳含量高光譜預測模型的影

23、響,尋求實驗室條件下最佳土壤有機碳含量反演模型。第五部分為總結部分。研究結果表明:1本研究中的土壤光譜曲線按照Stoner和Baumgardner的分類屬于鐵影響類型,按照戴昌達的分類屬于陡坎型,該類土壤有機碳含量低,氧化鐵含量一般較高。在可見光-近紅外-短波紅外波段區域土壤的光譜反射率曲線的形狀可由6個折線段(40060.nm、60080.nm、8001 30.nm、1 4501 850 nm、2 0502 120 nm和2 2502 50.nm和6個特征吸收點(490、700、900、1 400、1 900和2 20.nm來大致控制。2土壤有機碳含量與土壤光譜反射率存在負相關關系,其中在5

24、80730 nm波段之間相關性最好,估算土壤有機碳含量的最佳波段為623 nm。3土壤光譜反射率經過低階(一階、二階微分變換,提高了土壤反射率與土壤有機碳含量之間的相關性,同時挖掘出更多的可以表征土壤有機碳含量的光譜信息。短波紅外區域的一些波段與土壤有機碳含量表現出較好的相關性,在估算土壤有機碳含量中具有很大潛力。4隨著土壤粒徑減小,土壤光譜在可見光-近紅外-短波紅外區域的整體反射率提高了,但土壤光譜的吸收特性位置沒有改變,吸收峰深度隨著土壤反射率的增大而減小了。5鮮土光譜反射率低于風干土和烘干土,而土樣烘干后其光譜反射率在1 40.nm前小于風干土,1 40.nm后除了1 90.nm處的吸收

25、峰深度小于風干土,其光譜反射率與風干土差別不明顯。水分對1 90.nm處的反射率影響比1 400和2 20.nm大,說明1 90.nm光譜反射率在估算水分含量方面潛力更大。6不同光譜變換形式中,反射率倒數的對數(吸光率的二階微分的模型確定系數R2=0.856,RMSE:0.357,比其他變換形式的模型好。反射率倒數的對數的一階微分變換的模型確定系數R2=0.808,RMSE=0.413,該模型的檢驗R2=0.752,大于其他變換形式,同時該模型選入波段為678和2 188 nm。綜合考慮,認為反射率倒數的對數的一階微分變換形式建立的土壤有機碳含量多元逐步回歸預測模型較為理想。7不同粒徑土樣的土壤有機碳含量多元逐步回歸預測模型中,土樣粒徑

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論