




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、沈陽農業大學學報,2008-08,39(4:468-472Journal of Shenyang Agricultural University,2008-08,39(4:468-472非參數密度估計法比較分析及應用屈文建,熊國經*(南昌大學信息工程學院,南昌330031摘要:針對資源調查的數據分析中密度估計問題,比較各種非參數密度估計的推斷方法的優劣,在此基礎上對非參數核估計方法中不同帶寬對模型的光滑程度影響進行分析,結合Bootstrap方法從誤差估計的角度出發討論了帶寬選擇的最優化原則,利用matlab軟件編程進行模擬試驗,從實踐角度說明各種方法優劣,選擇不同的3種帶寬h1=0.3,h2
2、=1.3,h3=2.3對農村生態投資損益數據進行分析比較,并得到最優帶寬為h=0.67,得到準確的密度估計。經假設檢驗表明:本研究方法有效,克服了自然資源調查中數據分布類型常常是事先未知的問題。關鍵詞:核密度估計;自助法;帶寬選擇;非參數統計;積分均方誤差中圖分類號:O212.7文獻標識碼:A文章編號:1000-1700(200804-0468-05Analysis and Application Research on Nonparametric Density EstimationQU Wen-jian,XIONG Guo-jing*(College of Information and
3、Engineering,Nanchang University,Nanchang330031,ChinaAbstract:Density function estimation was applied in resource investigation,analysis and comparison of some nonparametric density estimation methods made.The affect of density curve smoothing with application nonparametric kernel density estimation
4、method and the smoothing Bootstrap method of bandwidth selection principle was studied.The Matlab software was used to simulate and complement the data analysis on ecological agriculture risk investment policy.Three bandwidths h1=0.3,h2=1.3,h3=2.3were cho-sen.Optimal bandwidth h=0.67was determined f
5、or more precise density function estimation.Nonparametric density estimation may be applied in practice in practice in practice in all kinds of environments.overcoming the difficult of density function type unknown in resource investigation.Key words:kernel density estimation;bootstrap;bandwidth sel
6、ection;nonparametric statistics;integral mean square error參數估計是假定數據總體密度分布類型已知情況下對參數的估計,如均值是兩點分布中的相合估計,S2是一元正態總體方差的極大似然估計等。一旦參數確定,則密度完全確定,但實際上很多數據的分布是無法事先假定的。隨著決策的精度要求越來越高和大型數據庫的廣泛應用及數據挖掘的興起,傳統的參數密度估計方法已經不再實用了,這就使得非參數密度估計方法有了用武之地。目前非參數密度估計方法多種多樣,主要有直方圖估計、Rosenblatt估計、Parzen核估計、最近鄰估計(nearest neighbor
7、estimate等,密度估計的應用非常廣泛,如社會科學、物理科學、生物科學以及各種工程技術領域等,核估計方法是非參數密度估計中有關單樣本模型典型的估計方法,ROSENBLATT于1956年對直方圖估計方法作了改進1,PARZEN于1962年研究了固定帶寬核估計2,從而提高了密度估計的統計方法在數理統計領域中的地位,特別是對帶寬選擇有了理論原則。1965年LOFTS-GARDEN和QUESENBERRY提出了一種新的密度估計方法最近鄰(NN估計方法3,該方法在某種程度上解決了Parzen核估計方法存在的問題。VINCENT等提出了一種局部加權的核密度估計方法4,該方法被推廣到其他方法中,具有普遍
8、意義。KATKOVNIK等提出了一種變窗口的核密度估計方法13,提高了估計的精確度。EFRON5-7提出了一種非參數的分布估計的方法(Bootstrap方法及光滑Bootstrap,SIVERMAN等進一步對光滑Bootstrap進行改進8,并利用光滑Bootstrap方法得到較小的均方誤差。Bootstrap也稱為自助法,其思想是用已知的經驗分布代替未知的總體分布,它是根據原始數據進行統計推斷的模擬方法,不需要對總體作任何假設,通過對樣本進行放回抽樣來產生隨機數,對總體的特征進行推斷;Bootstrap是典型的非參數推斷的方法,廣泛應用于金融領域,股票投資風險預測,保險業精算,個體損失函數分
9、布估計等。本研究考慮使用非參數核密度估計方法結合Bootstrap方法,選擇不同帶寬在不同方法下進行試驗對比不同方法的優劣,從誤差估計的角度出發收稿日期:2008-03-04基金項目:江西省自然科學基金項目(0611078作者簡介:屈文建(1963-,男,南昌大學副教授,碩士,從事非參數統計、數據挖掘及計算機科學研究。*通訊作者Corresponding author:熊國經(1956-,男,南昌大學教授,博士,從事計算機信息管理和環境資源管理系統科學研究。第4期討論了帶寬選擇的最優化原則,選擇不同帶寬對農村生態投資損益的分布密度進行估計。1幾種非參數密度估計法特性比較1.1直方圖估計法直方圖
10、估計法作為一種非參數估計方法,廣泛被應用,直方圖方法的特點是方法簡單直觀,但直方圖在處理多維數據時計算十分復雜,數據的大小范圍必須事先知道,密度估計結果曲線不光滑;因此人們開始考慮用核估計方法進行密度估計,SILVERMAN 把直方圖估計看成是一種一維非參數核密度估計方法9,寬度選擇對邊界的影響很大,當直方圖的寬度取得很小時個體特征很明顯出現多峰狀態(圖1a ,但當寬度越來越大時個體特征逐漸消失(圖1c 。因此,如果使用直方圖估計密度時寬度選擇必須適中,寬度過大或過小都可能掩蓋主要統計特征。圖1b 較為合理。本研究根據漁業資源的調查數據,針對兩種魚的身長的統計數據共520個數據使用直方圖估計,
11、利用Matlab 軟件進行模擬得出的上述統計直方圖,圖1a 所選帶寬為0.75,圖1b 所取的帶寬為4,圖1c 所選帶寬為10。從圖1b 中可以明顯看出兩種魚的身長分布對應的兩個峰。1.2Rosenblatt 估計法Rosenblatt 估計法與直方圖估計法的不同在于,它事先不把分割區間定下來,而是讓區間隨估計的點變動,使得估計的點總處于區間中心,從理論上可以證明其估計量更接近真實情況。1.3Parzen 核估計方法如果用Parzen 核估計方法進行密度估計,問題是每個點都選用固定的鄰域,如果定得過大那些分布較密的點受到過多點的支持,而使得應該突出的尖峰變得扁平,另一些稀疏或離群點可能會由于鄰
12、域定的過小而被忽略,使得密度估計值是零。高維數據密度估計使用核密度估計方法應該比較理想,但帶寬的選擇仍然是個難于抉擇的問題,帶寬選擇對密度曲線邊界的影響很大,帶寬取得很小時邊界光滑性較差,當帶寬越來越大時邊界光滑度越來越好,但曲線擬合度又變的越來越差,如何選擇一個合理的帶寬將直接影響該方法進行密度估計的精確度。1.4最鄰近估計法(nearest neighbor estimate 最鄰近估計法的主要思想是事先不規定核函數,而是固定對被估計的點貢獻的樣本點數n ,以被估計點為中心,讓鄰域向周圍擴張反復疊代直到擴大的鄰域中含有n 個點為止,這一方法就是根據Parzen 核估計方法的固定帶寬的缺陷提
13、出來的。它的缺點是必須事先根據樣本點總數估計規定一個貢獻點數n ,并且經常會出現不連續的梯度點,當帶寬取得較大時估計精確度不如Parzen 核估計。這樣使得它成為并不被看好的一種密度估計方法,有許多學者用最鄰近估計法來對數據進行分類12。2核密度估計方法的最優帶寬及選擇2.1非參數核密度估計的概念定義:設x 1,x 2,x n 是從一維總體X 中抽出的獨立同分布的數據,X 具有未知的密度函數f(x,x R,如果存在全直線上有界函數K(u0且滿足以下條件:(1+-#k(udu<+;(2lim u uk(u=0;(3k(-u=k(u;(4+-#k(udu=1圖1非參數密度估計法性能比較Fig
14、ure 1Nonparametric density estimation performance分組Grouping 分組Grouping分組Grouping魚數F i s h e r d a t a /萬條魚數F i s h e r d a t a /萬條屈文建等:非參數密度估計法比較分析及應用魚數F i s h e r d a t a /萬條469第39卷沈陽農業大學學報則:f(x的密度核估計為:f (x=1nh nni =1!K(x-xihn式中:K(u為窗或核函數;h n 為與n 有關的正的光滑參數,稱其為帶寬或光滑參數或窗寬。核函數的選擇可以有多種:如Parzen 窗(unifor
15、m、三角(Triangle、Epanechikov 、四次(Quartic、三權(Tri-weight、高斯(Gauss、余弦(Cosinus、指數(Exponent等。核函數的選擇取決于根據距離分配各個樣本點對密度貢獻的不同。通常選擇什么核函數不是密度估計中最關鍵的因素,因為選用任何核函數都能保證密度估計具有穩定相合性。最重要的是帶寬對估計分布的光滑程度影響很大,自然地如何選擇帶寬將成了最重要的問題。核函數的密度估計之所以能受到歡迎,是因為它在帶寬選擇上能從數學的角度進行論證帶寬最優原則。并且在獨立同分布的情況下,核估計量具有逐點漸進無偏性和一致漸進無偏性、均方相合性、強相合性、一致強相合性
16、等。2.2帶寬最優原則密度核估計的帶寬選擇問題,一般指的是全局帶寬選擇問題,許多學者還研究過局部的帶寬選擇問題,但無論是全局還是局部都不外乎3種最優原則。(1選擇帶寬h 常用的方法是極小化均方誤差法(mean square error,MSE:MSE=En i -1!f x i"#-f x i "$%$&(2當分布密度連續時常用極小化積分均方誤差法(integral mean square error,MISE:MISE=Ex(f "$x -f "$x "$2d &x (3還有一種極小化漸進積分均方誤差(asymptotic i
17、ntegral mean square error,AMISE :AMISE=x(Bias f %#x %#%#2+var f %#x %#&dx 一般h n 隨n 增大而減小,當n 時h n 0,但h n 取得太小隨機干擾增大降低估計的準確性;h n 過大則估計曲線太光滑。但是,在極小化的過程中,MSE(h將可能有兩個或兩個以上的極小化取值。此時,定義h 0是MSE(h中最小的局部極小化取值(顯然h 0是x 的函數。取充分大的n,h 0將被“h ”的漸近理論很好地逼近。但在有些情形下h 0不是MSE(h的全局極小化值。HANZELTON 10指出,從理論和實際確定帶寬為過度光滑帶寬是
18、比較困難的。本研究利用Bootstrap 帶寬選擇方法的核密度估計方法針對生態農業投資風險中的損益數據密度進行估計。3非參數密度估計的應用實例3.1生態農業投資風險決策及數據統計生態農業發展模式已經成為當前發展的必然選擇,各類生態農業項目也越來越多地應用到農業生產和開發領域中。生態農業項目的投資受自然條件、社會經濟條件等許多不可控制和不可預期因素的影響,使得投資結果偏離預期值,引起投資決策的風險性和不確定性。生態農業投資的風險分析是項目可行性的重要環節,對生態農業項目的投資風險與不確定性進行正確度量有助于提高投資決策的可靠性,避免決策失誤。風險決策和非確定性決策有些相似,它們對未來的自然狀態的
19、發生概率是未知的,但它們不同,非確定性決策可以通過一些方法和經驗對未來的自然狀態進行估計,而風險決策卻很難估計;另外風險的發生是隨機的,而這種隨機就使獲得的數據事先無法知道其分布特征。這樣就不能用傳統的參數估計方法,應使用非參數的估計方法對每個模型進行模擬,從得到的多種決策方案中找出最優的決策方案。最重要的是必須對風險損益或損益率的數據分布進行估計,但風險損益或損益率的數據分布常常是偏態的,不服從正態分布。為此,考慮使用非參數核密度估計方法結合Bootstrap 方法,針對某地區生態農業投資損益數據(表1,選用不同帶寬利用Matlab 軟件編程進行模擬分析。得出不同帶寬的密度估計結果并進行比較
20、分析,利用最優帶寬原則計算出最優帶寬,最后再對所估計的密度進行統計假設檢驗,試驗結果表明該方法有效。由表1作出的統計直方圖可以看出(圖2,投資風險損益數據是偏態的,不對稱的,它顯然不服從正態分布。如何來分析這種性質將是很困難的事情,經過仔細分析,發現這個直方圖還是有一定的規律,比如它右邊的下降趨于平緩,這就是通常所說的尾部特征。核密度估計是有廣泛應用領域的非參數統計方法,通常建立在大樣本統計基礎上,對小樣本的密度估計不理想,但當樣本容量特別大時計算十分復雜,需要用計算機編程來完成,利用Parzen 核估計方法并結合Bootstrap 方法470第4期圖2損益數據直方圖Figure 2Histo
21、gram ofprofit and loss data選擇不同的帶寬進行風險決策數據分析,以得到它的準確的密度估計。3.2不同帶寬的非參數核密度估計及帶寬優化本研究利用非參數核密度估計方法進行密度估計,上面已提到核密度估計方法中,核函數的選擇不是很重要,可選擇核函數為Gauss 函數,據定義2.1可以推出該核估計:f !"x =1nh n ni =1#k !"u 1nhn e-u 22n i =1#12nh n $ni =1#e-(x-x i h n 22選帶寬為h 1=0.3,h 2=1.3,h 3=2.3,分別計算上述密度估計結果,并使用Matlab 軟件編程進行模擬試
22、驗繪出密度曲線圖(圖3。圖3a 擬合度最好,但光滑度最差,有許多尖峰;隨著帶寬的增加密度曲線越來越變得光滑,圖3c 幾乎都變成了直線,但是擬合度最差,與圖2直方圖比相差太大,可見并不是帶寬越大越好,也不是越小越好,帶寬必須選擇適中。分組Group -10,-2-2,-1.4-1.4,-0.8-0.2,0.40.4,1.01.0,1.61.6,2.22.2,2.82.8,3.43.4,4.04.0,4.64.6,5.25.2,5.85.8,6.46.4,10合計Total 頻數Frequence6662305023423022121711121085400頻率Frequency 0.1650.1
23、550.0750.1250.05750.1050.0750.0550.030.04250.02750.030.0250.020.01251累計頻率Accumulative frequency0.1650.3200.3950.5200.57750.68250.75750.81250.84250.8850.91250.94250.96750.98751.0表1某地區生態農業投資年損益數據統計結果Table 1The profit and loss data of ecologicalagriculture risk investment in a region注:表1中(單位:10萬元,樣本個數n
24、=400。Note:unit:105yuan,samples number n=400.使用帶寬最優原則選擇帶寬,用MISE 極小化積分均方誤差法進行推算:MISE=Ex %f !"x -f !"x !"2d &x =E x%f !"x -E f !"x &(+E f !"x &(-f !"x !"2d &(x =E x %f !"x -E f !"x &(!"2d &(x +E x%E f !"x &(-f !&quo
25、t;x !"2d &(x =MIVAR+MISB 導出一個關系:積分均方誤差(MISE =積分均方差(MIVAR +積分均方偏差(MISB,很容易從最優理論得出它們的極小化估計式:MIVAR(h=R(knh -1n x%k h *!"f 2(xdx=R(knh +1nR !"f +O n -1h !"k MISB(h=x%k h *f-!"f 2!"x dx=x%k h *!"f 2!"x dx-2x%k h *!"f !"x f !"x dx+x %f 2!"x d
26、x=h 2k k !"!2k 2!"K R f !"k !"+O h 2k+4!"利用上述最優帶寬估計式,使用Matlab 軟件編程模擬計算得到最優帶寬h=0.67密度曲線圖(圖4,它是擬合度和光滑度的折中。3.3試驗結果及統計量的假設檢驗描述統計特征的兩個最典型的統計量無非就是均值和方差,統計分布的假設檢驗的常用方法是2檢驗和Kolmogorov-smirnov 檢驗,用2來進行檢驗得到的結果如下。假設:H0:f !"x =f !"x ;H1:f(xf !"x 計算h=0.67時,x 2=ni =l #f i -
27、np i !"2np i=19.14389952圖3不同帶寬的非參數核密度估計密度曲線圖Figure 3Bandwidth nonparametric density estimation curvea.h 1=0.3b.h 2=1.3屈文建等:非參數密度估計法比較分析及應用c.h 3=2.3471第39卷沈陽農業大學學報該統計量服從2分布,自由度為n-r-1,r 表示估計參數個數,其中n=15,r=1,假如規定顯著性水平=0.05,查表得臨界值2(1-,n-r-1=2(0.95,13=22.362>19.14389952,表明該假設檢驗被接受。利用本研究提出的方法可以得到最優
28、帶寬,在該最優帶寬下得到的密度估計曲線是合理的。4結論與討論本研究在討論比較各種非參數密度估計的推斷方法的優劣的基礎上,對非參數核估計方法中不同帶寬對模型的光滑程度影響進行了分析,在被比較的四種方法,直方圖估計、Rosenblatt 估計、Parzen 核估計和最近鄰估計(nearest neighbor estimate 中各有利弊,但從估計精度和可操作性方面看,比較合理的方法當屬Parzen 核密度估計方法。不管哪種估計方法都存在帶寬確定難的問題,對選擇帶寬這個最重要的問題,本研究結合Bootstrap 方法討論了帶寬選擇的最優化原則,選擇不同的3種帶寬h 1=0.3,h 2=1.3,h
29、3=2.3對農村生態投資損益數據進行分析比較,利用Matlab 軟件編程進行模擬試驗,并得到最優帶寬為h=0.67。經假設檢驗表明,得到準確的密度估計,本研究方法有效地克服了自然資源調查中數據分布類型常常是事先未知的問題。生態農業項目的投資受自然條件、社會經濟條件等許多不可控制和不可預期因素的影響,使得投資結果偏離預期值,風險損益或損益率的數據分布常常是偏態的,不服從正態分布,另外還有諸多的自然資源統計數據,它們的數據分布類型常常是事先未知的,并其分布特征一般不服從正態分布,因此對于這些問題的密度估計是一個很難的問題,本研究將非參數密度估計方法結合Bootstrap 方法應用于生態農業投資風險
30、決策,對其風險投資收益的密度進行估計,以期在這些領域中開辟出一種新的數據計量和分析方法。非參數密度估計的難題是高維應用問題,在高維空間上,一般一個N 維核函數為一維核函數的乘積,每個核函數都有一個帶寬,這樣帶寬參數就與N 成線性關系,導致所謂維災難(curse of dimensionality 問題。參考文獻:1EMANUEL PARZEN.On estimation of a probability density function and mode J.The Annals of Mathematical Statistics,1962,33(3:1065-1076.2MURRAY RO
31、SENBLATT.Remarks on some nonparametric estimates of a density function J.The Annals of Mathematical Statistics ,1956,27(3:832-837.3D O LOFTSGAARDEN,C P QUESENBERRY.A nonparametric estimate of a multivariate density functionJ.The Annals ofMathematical Statistics ,1965,36(3:1049-1051.4VINCENT P,BENGIO Y.Locally weighted full covariance gaussian density estimationR.Technical Report,2004.5B EFRON.Bootstrap Methods:Another look at the jackknife J.The Annals of Statistics,1979,7(1:1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學生畢業個人總結2000字(5篇)
- 廠房租房協議范文(18篇)
- 有關小學教師的年度工作總結范文(6篇)
- 社區消防安全知識培訓活動總結范文(17篇)
- 見習生工作總結(6篇)
- 2025年體育教師教學工作總結范文(17篇)
- 小學教師讀書心得體會500字范文(15篇)
- 報刊亭承攬合同(4篇)
- 電子專業培訓合同(4篇)
- 2025高三語文一輪復習計劃(15篇)
- 提高糖尿病患者飲食的知曉率
- 《汽車涂裝》2024-2025學年第一學期工學一體化課程教學進度計劃表
- 凈水機促銷活動方案
- 2024-2030年中國薄膜電容器行業發展現狀分析及未來投資策略建議報告
- 2024-2030年中國EAM系統行業運作模式及投資規劃分析報告
- 【MOOC】人力資源管理-四川大學 中國大學慕課MOOC答案
- 2025年冀教版七年級英語下冊教學工作計劃
- 拍賣行業區塊鏈技術與藝術品鑒定方案
- 中學升學策略講座模板
- 公對公勞務合同范例
- 九年級化學專題復習-化學用語1-名師公開課獲獎課件百校聯賽一等獎課件
評論
0/150
提交評論