




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 回歸模型(mxng)在統計分析中的應用摘要(zhiyo)在人們研究對象的內在特性(txng)和個因素間的關系時,通常會建立數學模型。在無法分析實際對象內在的因果關系時,往往會基于對數據的統計分析去建立模型。回歸分析作為統計數據尋求變量間關系的近似表達式的一種方法,其廣泛用途使得回歸模型成為了數據統計分析中的一種常見模型。本論文分別從數學模型,回歸分析,統計分析等的基本概念出發,進一步闡述了數學建模的基本方法和一般步驟,回歸分析的基本模型、步驟和分類,以及統計分析的步驟。最后借用MATLAB軟件,以一個關于人們對某種品牌食品的評價的實例,用合理的步驟詳細描述了在解決回歸模型在統計分析中的應用的
2、問題中該如何具體去做。關鍵詞:數學模型;統計分析;回歸分析;回歸模型;MATLAB軟件APPLICATION OF REGRESSION MODEL IN STATISTICAL ANALYSISABSTRACT In the process of researching the relationship between the inner characteristics and factors of the object,people usually build mathematical model. In the case of the inner causality that peopl
3、e can not analyse of actual object,we often to build model based on statistical analysis of data. As a method for seeking a approximate expressions of the statistical data,the wide applications of regression analysis made regression model become a common model in statistical analysis of data.This pa
4、per starts from the the basic concept such as the mathematical model,regression analysis and statistical analysis.Then further elaborated the basic methods and general steps of mathematical modeling, the basic model, steps and classification of regression analysis, and the steps of statistical analy
5、sis. Finally, applying MATLAB software,using reasonable steps to describe how to solve the problem that the application of regression models in statistical analysis in detail,by using a example about peoples evaluation towards a certain brand of food.Key words: mathematical model; statistical analys
6、is; regression analysis; regression model; MATLAB software 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc29287 1 問題(wnt)的提出 1 問題(wnt)的提出 當人們在研究對象的內在(nizi)特性和各因素間的關系時,通常會尋求變量間的一個具體表達式,采用機理分析方法建立數學模型。而往往由于客觀事物內部規律的復雜性及人們認識程度的限制,無法分析實際對象內在的因果關系,不能確定一個具體的表達式,于是便建立合乎機理規律的數學模型,去尋求變量間關系的近似表達式,通常的方法是搜集大量的數據,基于對數據的統計分
7、析去建立模型。而統計回歸模型是用途非常廣泛的一類隨機模型1。2 數學(shxu)模型與數學建模2.1 基本概念數學模型(Mathematical Model)可以描述為,對于現實世界的一個特定對象,為了一個特定目的,根據特有的內在規律,做出一些必要的簡化假設,運用適當的數學(shxu)工具,得到的一個數學結構。這里的“特定(tdng)對象”是為了解決某個實際問題而提出的;“特定目的”是指當研究一個特定對象時要達到的目的,如分析、預測、控制、決策等;“數學結構”可以是數學關系式,也可以是程序、圖、表等。數學建模(Mathematical Modeling)則是指建立數學模型的全過程1。2.2 數
8、學建模的基本方法一般來說,建模方法大體上可分為兩種:機理分析和測試分析。機理分析:根據對客觀事物特性的認識,找出反映內部機理的數量規律,建立的模型常有明確的物理或現實意義。測試分析:將研究對象看作一個“黑箱”系統(意思是它的內部機理看不清楚),通過對系統輸入、輸出數據的測量和統計分析,按照一定的準則找出與數據擬合得最好的模型1。2.2 數學建模的一般步驟模型準備:了解問題的實際背景,明確建模實際目的和意義,搜集對象必要的信息如現象、數據等,盡量弄清對象的主要特征,形成一個比較清晰的“問題”,由此初步確定模型的類型。模型假設:根據實際對象的特征和建模的目的,抓住問題的本質,忽略次要因素,做出必要
9、的、合理的簡化假設。模型構成:根據所作的假設,用數學的語言、符號描述對象的內在(nizi)規律,建立包含(bohn)常量、變量等的數學模型,如優化模型、微分方程模型、差分方程模型、圖的模型等。模型求解:利用(lyng)獲取的數據資料,采用解方程、畫圖法、優化方法、數值計算、統計分析等各種數學方法,尤其是計算機技術以及數學軟件等對模型的所有參數做出計算(或近似計算)。模型分析:對所要建立模型的思路進行闡述,對所得的結果進行數學上的分析,如結果的誤差分析、統計分析、模型對數據的靈敏性分析、對假設的強健性分析等。模型檢驗:將求解和分析結果翻譯回到實際問題中,并與實際情形進行比較,以此來驗證模型的準確
10、性、合理性和實用性。模型應用與推廣:應用的方式與問題性質、建模目的及最終的結果有關,而模型的推廣就是將已有模型擴展為一個更加全面,更加符合現實情況,更加適用的模型1。3 回歸分析(fnx)與回歸模型3.1 基本概念回歸(hugu)分析(regression analysis)是用統計數據尋求變量間關系的近似表達式的一種方法,并利用所得公式進行統計描述、分析和推斷,解決預測、控制和優化問題。回歸模型(mxng)(regression model)是對統計關系進行定量描述的一種數學模型。線性回歸(liner regressing)是應用上最重要、理論上較完善的回歸分析方法2,5。3.2 刻畫回歸模
11、型 用表示因變量,用表示自變量,其中是自變量的個數,和之間的真實關系可近似地用下述回歸模型刻畫 (3-1)其中是隨機誤差,它代表在近似過程中產生的偏差,也就是模型不能精確擬合數據的原因。函數刻畫了和之間的關系,最簡單的情形是線性回歸模型3 (3-2)3.3 回歸分析的步驟 回歸分析包括以下步驟:問題陳述確定變量收集數據模型設定進行相關分析計算預測誤差確定(qudng)預測值3,43.4 回歸(hugu)分析的分類 根據(gnj)條件可將回歸分析分為如下幾類3:表 1 回歸分析的分類回歸類型條 件單變量只有一個定量的因變量多變量有兩個或兩個以上定量的因變量簡單只有一個自變量多元有兩個或兩個以上自
12、變量線性方程關于所有的參數都是線性的,或經變量變換后是線性的非線性因變量和某些自變量之間具有非線性關系,或一些參數是以非線性形式出現的,并且不能經變換將參數線性化方差分析自變量都是定性變量協方差分析自變量有定量變量,也有定性變量Logistic因變量是定性變量4 統計分析4.1 基本概念統計分析(statistical analysis)是商業智能(BI)的一方面,涉及收集、審查(shnch)業務數據和趨勢報告。統計分析是繼統計設計、統計調查、統計整理之后的一項十分重要的工作,是在前幾個階段工作的基礎上通過分析從而達到(d do)對研究對象更為深刻的認識。統計分析是運用統計方法及與分析對象有關
13、的知識,從定量與定性的結合上進行的研究活動(hu dng)。它又是在一定的選題下,集分析方案的設計、資料的搜集和整理而展開的研究活動。統計分析的必要條件是系統、完善的資料;重要特征是運用統計方法、定量與定性的結合;產品是高質量、準確而又及時的統計數據和高層次、有一定深度、廣度的統計分析報告;特點是數據性、目的性和時效性6。4.2 統計分析的步驟統計分析可以分為以下5個步驟:描述要分析的數據的性質研究基礎群體的數據關系創建一個模型,總結數據與基礎群體的聯系證明(或否定)該模型的有效性采用預測分析來預測將來的趨勢65 一個線性回歸模型(mxng)實例5.1 問題(wnt)的提出為了研究人們對某種品
14、牌食品的喜愛(x i)程度和該食品的水分含量和甜度的關系,進行了一個完全隨機化設計的小規模試驗,得到下列數據:表 2 某品牌食品的水分含量、甜度和人們的喜愛程度數據12345678444466662424242464736176728071839101112131415168888101010102424242483898693889594100試建立線性回歸擬合模型,對如何解釋?并做進一步的分析求出殘差向量,分別作出殘差關于擬合值,以及的殘差圖及殘差的正態圖,具體分析并予以評述。對給出合理的假設,給出一組新的數據觀測值,給出的預測值和99%的置信區間。擬合關于的一元線性回歸模型,與二元線性回
15、歸模型作比較,由此得出什么結論2? 5.2 分析與假設 初步分析表中數據可知,該食品(shpn)的水分含量和甜度均與人們的喜愛程度在一定程度上呈正相關,具有函數相關性。并且通過比較可以發現,人們對這該產品(chnpn)的水分偏愛較甜度更為敏感。為簡化數據模型,可作出如下(rxi)假設:該食品的水分含量和甜度構成回歸自變量; 因變量是人們對該種品牌食品的喜愛程度;自變量,與因變量之間具有顯著的線性關系,且考慮(,)固定取幾組值;實驗所得數據值與估計值之間的偏差均值為0,方差為,并且實驗所得數據值的統計規律為正態分布。5.3 模型建立 根據假設,可初步確定該食品的水分含量和甜度與人們的喜愛程度之間
16、的關系,即為線性關系,建立如下二元線性回歸模型: (5-1)5.4 模型求解 直接運用MATLAB統計工具箱中的命令regress求解,使用格式為:b,bint,r,rint,stats=regress(Y,X,alpha)得出回歸模型(5-1)中的參數分別是,,則回歸方程為 (5-1) 其中(qzhng)對于的解釋(jish)分析為: 我們用食品的水分(shufn)含量來預測人們對某種品牌食品的喜愛程度的回歸系數為;而的標準差為2.3094,的標準差為11.4514,因此表準化后的回歸系數為;由回歸分析原理知道,對的影響程度很大,就是預測的最佳擬合直線的斜率。 模型求解的詳細計算步驟及MAT
17、LAB運行結果見附錄:1。5.5 結果分析5.5.1 輸出數據結果由MATLAB輸出結果我們可得到如下數據:回歸模型(5-1)中的參數分別是:,決定系數:相關系數:檢驗統計量: 值: 5.5.2 模型檢驗需要檢驗檢驗法由于給定的顯著性水平:,查分布表,,顯然,根據檢驗準則知,拒絕,即認為,與的線性關系顯著。相關系數的評價由相關系數在范圍內,可判斷,與具有較強的線性關系。值檢驗(jinyn)由于(yuy)值滿足(mnz),因此可以說明,與的線性關系顯著。以上使用三種統計推斷方法推斷的結果是一致的,都認為自變量,與因變量的線性關系顯著。說明以上模型假設和回歸模型能夠基本反映,與的關系。5.5.3
18、解決提出的三個問題由MATLAB輸出結果可知,殘差向量為:r =-0.1000,0.1500,-3.1000,3.1500,-0.9500,-1.7000,-1.95001.3000,1.2000,-1.5500,4.2000,2.4500,-2.6500,-4.4000,3.3500,0.6000 利用殘差向量r和MATLAB語句normplot(r),得到殘差向量的正態性檢驗圖,如圖1:圖1 殘差向量的正態性檢驗圖 利用殘差向量r,殘差的區間(q jin)估計值rint和MATLAB語句:rcoplot(r,rint),得到時序殘差圖,如圖2:圖2 時序(sh x)殘差圖分別(fnbi)以
19、的擬合值,以及為橫坐標,殘差向量為縱坐標,作出作出殘差關于擬合值,以及的殘差圖,如圖3(源程序見附錄:2):圖3 殘差關于(guny)擬合值,以及(yj)的殘差圖分析(fnx)及評述:觀察圖1,殘差向量的正態檢驗圖中,點“+”呈現的散點在一條直線上,因此可知,誤差的正態性假設是合理的。觀察圖2,時序殘差圖中的殘差值均落在以“”為中軸線的帶狀區域內,且無明顯的趨勢,說明數據沒有奇異點,并且建立的線性回歸模型比較適合于樣本數據。觀察圖3,殘差關于擬合值,以及的殘差圖中,由四幅圖所出現的形狀可知,他們沒有明顯的趨勢性變化,是比較滿意的形式。對的合理假設:假定是獨立同正態分布的隨機變量,有零均值和常值
20、方差。因此,若擬合的回歸模型適合于所給數據,那么殘差應基本上反映未知誤差的這些特性。將新的數據(shj)觀測值帶入回歸方程,將得到(d do)的點估計值。MATLAB程序(chngx):x0=1,5,4;y0=b*x0計算結果:y0 =77.2750即的估計值為77.275。使用MATLAB語句:rstool(X,Y,inmodel,alpha),擬合二次響應曲面回歸明顯以及預測的交互式界面,程序如下:X=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=64 73 61 76 72 80 71 83 8
21、3 89 86 93 88 95 94 100;alpha=0.01;rstool(X,Y)得到界面如圖4:圖4 二次曲面交互界面在所得界面的兩個(lin )窗口分別輸入,則圖形(txng)左側顯示數據,它即使(jsh)在點處99%的置信區間,即73.6711,80.8789。利用MATLAB擬合關于的一元線性回歸模型(源程序及輸出結果見附錄:3):回歸方程為: 決定系數:相關系數:統計檢驗量: 值: 運用三種模型檢驗方法:檢驗法,相關系數的評價和值檢驗均可推斷出都認為自變量與因變量的線性關系顯著。說明該一元線性回歸模型能夠基本反映與的關系。比較性結論:此一元線性回歸模型與第一問建立的二元線性
22、回歸模型比較,我們可以看到二者的的回歸系數是相同的,以此我們可以認為與不相關。并且在二元線性回歸模型中,將回歸系數標準化后可得出:喜愛程度()與水分含量()的標準回歸系數為0.8924,說明二者顯著相關;而喜愛程度(Y)與甜度()的標準回歸系數為0.3946,說明二者不顯著相關。而這一點與問題初步分析中得出的“人們對這該產品的水分偏愛較甜度更為敏感”的初步印象是相一致的;可以說第四問的解答進一步說明了所建立的線性回歸模型是合理的,較為真實的反映了實際信息。6 結論(jiln) 在做這次課程設計之前,我一直認為回歸分析是一個很難的知識點,每次遇到關于回歸分析的問題我都感到無從下手,這當然與自己(
23、zj)不能靜下心來好好研究此類問題有關。做這次課程設計的過程中,通過查找資料與自己動手寫程序操作,在MATLAB的幫助下,發現回歸分析并不是像自己之前所想的那么難,關鍵是要找到理清思路,根據特定的步驟,并借用MATLAB進行分析。而且做完這次課程設計后,更加深刻體會到MATLAB的強大功能。在數學建模和統計分析中運用MATLAB能使問題更加簡單、快速地解決。因此,我認為自己應該多看些數學建模的實例,提高建模的能力,同時也要提高對數據統計分析的能力,還要更深入地研究MATLAB,了解MATLAB更加強大的功能。參考文獻1 姜啟源,謝金星(jnxng),葉俊數學模型(第四版)M北京(bi jn):
24、高等教育出版社,2011:1-18,325-3322 劉瓊蓀,龔劬,何中市,傅鸝,任善強數學(shxu)實驗M北京:高等教育出版社,2004:89-1083 (美)Samprit Chatterjee,Ali S. Hadi著,鄭忠國,許靜譯例解回歸分析(原書第5版)M.北京:機械工業出版社,2013:14 回歸分析_百度百科/link?url=AwlhQ0v2TmZtJrM6PwkUTVG3nB7nolxtGrWG0dwooiCZQnVi1TYcDxA-K9-GsEZw5 回歸模型_百度百科/view/962884.htm?fr=aladdin6 統計分析_百度百科/view/680978.
25、htm附錄(fl)1.二元線性模型(mxng)求解的詳細計算步驟及MATLAB運行(ynxng)結果:輸入數據A=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10; 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;a=ones(16,1);X=a,A;alpha=0.01;Y=64 73 61 76 72 80 71 83 83 89 86 93 88 95 94 100;MATLAB調用格式b,bint,r,rint,stats=regress(Y,X,alpha)輸出結果b = 37.6500 4.4250 4.3750bint = 28.6249 4
26、6.6751 3.5179 5.3321 2.3468 6.4032r = -0.1000 0.1500 -3.1000 3.1500 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000rint = -7.4731 7.2731 -7.2225 7.5225 -9.9632 3.7632 -3.6960 9.9960 -8.7486 6.8486 -9.4016 6.0016 -9.6067 5.7067 -6.4603 9.0603 -6.5725 8.9725 -
27、9.2755 6.1755 -2.7399 11.1399 -5.0973 9.9973 -9.6543 4.3543 -10.7033 1.9033 -3.4238 10.1238 -6.7551 7.9551stats = 0.9521 129.0832 0.0000 7.25382.繪制殘差關于(guny)擬合值,以及(yj)的殘差圖:X1= 4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;X2=2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4;Y=37.650+4.425*X1+4.375*X2;X=X1.*X2;r=-0.1000 0.1500
28、-3.1000 3.1500 -0.9500 -1.7000 -1.9500 1.3000 1.2000 -1.5500 4.2000 2.4500 -2.6500 -4.4000 3.3500 0.6000;subplot(2,2,1),plot(Y,r,+),title(殘差關于(guny)Y的估量值的殘差圖);subplot(2,2,2),plot(X1,r,+),title(殘差關于(guny)X1的殘差圖);subplot(2,2,3),plot(X2,r,+),title(殘差關于(guny)X2的殘差圖);subplot(2,2,4),plot(X,r,+),title(殘差關于X1X2的殘差圖);3.擬合關于的一元線性回歸模型:輸入數據:A=4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10;a=ones(16,1);X=a,A;alpha=0.01;Y=64 73 61 76 72 80 71 83 83 89 86 93 88
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電動平板轉讓合同協議
- 環衛保潔合同補充協議
- 電腦升級合同協議格式
- 電廠采購燃燒料合同協議
- 2025至2030年中國箱體式連續熱彎爐數據監測研究報告
- 2025至2030年中國電子支氣管鏡數據監測研究報告
- 2025至2030年中國電動開門器數據監測研究報告
- 2025至2030年中國汽車門貼數據監測研究報告
- 2025至2030年中國水晶鶴嘴杯數據監測研究報告
- 2025至2030年中國旋風掃描電腦燈數據監測研究報告
- 太子參的種植方法及管理
- 國開大學2024秋《國家開放大學學習指南》在線形考(任務一至五)試題及答案
- 血液標本采集(靜脈采血)
- 水利水電建筑工程基礎知識單選題100道及答案解析
- 【MOOC】3D工程圖學-華中科技大學 中國大學慕課MOOC答案
- 安全環保班組培訓
- 2024年北京大學強基計劃物理試題(附答案)
- TCUWA40055-2023排水管道工程自密實回填材料應用技術規程
- 糖尿病病人的麻醉管理
- 大型活動策劃與管理第九章 大型活動知識產權保護
- 2024年新課標培訓2022年小學英語新課標學習培訓課件
評論
0/150
提交評論