




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、探索性數據分析簡介Exploratory Data Analysis(EDA) 探索性數據分析(EDA)是一個嶄新的統計研究方向。近幾十年來,已有多本關于EDA方面的著作和許多學術研究論文,實際應用也取得了明顯成效。目前,探索性數據分析已得到統計學界的公認,是一個極有發(fā)展前途的新領域。David C. Hoaglin等著,陳忠璉等譯.探索性數據分析.北京:中國統計出版社,20198/21/20221試驗優(yōu)化技術一、探索性數據分析的主要特點研究從原始數據入手,完全以實際數據為依據 傳統的統計分析方法是先假定數據服從某種分布,如多數情況下假定數據服從正態(tài)分布,然后用適應這種分布的模型進行分析和預測
2、。但客觀實際的多數數據并不滿足假定的理論分布(如正態(tài)分布),這樣實際場合就會偏離嚴格假定所描述的理論模型,傳統統計方法就可能表現很差,從而使其應用具有極大的局限性。EDA則不是從某種假定出發(fā),而是完全從客觀數據出發(fā),從實際數據中去探索其內在的數據規(guī)律性。8/21/20222試驗優(yōu)化技術 分析方法從實際出發(fā),不以某種理論為依據 傳統的統計分析方法是以概率論為理論基礎,對各種參數的估計、檢驗和預測給出具有一定精度的度量方法和度量值。EDA則以不完全正式的方法處理數據。在探索數據內在的數量特征、數量關系和數量變化時,什么方法可以達到這一目的就采用什么方法,靈活對待,靈活處理。方法的選擇完全服從于數據
3、的特點和研究的目的,并且更重視數據特征值的穩(wěn)健耐抗性,而相對放松對概率理論和精確度的刻意追求。8/21/20223試驗優(yōu)化技術 分析工具簡單直觀,更易于普及 傳統的統計分析方法應用的數學工具越來越深奧,統計研究也越來越理論化,這樣就使應用的人越來越害怕統計。EDA提供多種多樣豐富多彩的詳細考察數據的方法。例如,它運用簡單直觀的莖葉圖、箱線圖、殘差圖、字母值、數據變換、中位數平滑等與傳統統計方法截然不同的方法,使得具有一般數學知識的人就可以進行復雜的數據分析。這不僅極大地擴大了統計分析的用戶群體,而且為統計思想注入了新的活力。8/21/20224試驗優(yōu)化技術1. 耐抗性(Resistance)
4、所謂耐抗性即對于數據的局部不良行為的非敏感性,它是EDA追求的主要目標之一。對于具有耐抗性的分析結果,當數據的一小部分被新的數據代替時,即使它們與原來的數值很不一樣,分析結果也只會有輕微的改變。人們關注耐抗性,主要是因為“好”的數據也難免有差錯甚至是重大差錯,因此數據分析時要有防御大錯的破壞性影響的措施。EDA是一種耐抗分析方法,其分析結果具有較強的耐抗性。 中位數平滑是一種耐抗技術。中位數(Median)是高耐抗統計量,而樣本均值不是。二、探索性數據分析的四大主題8/21/20225試驗優(yōu)化技術2. 殘差(Residuals) 殘差是數據減去一個總括統計量或模型擬合值以后的殘余部分,即:殘差
5、數據擬合。 例如:用若干對(xi,yi)擬合 ,則殘差為 。 EDA認為,分析一組數據而不仔細考察殘差是不完全的。EDA可以而且應該利用耐抗分析把數據中的主導行為與反常行為清楚地分離開。當數據的大部分遵從一致的模式,這個模式就決定一個耐抗擬合。耐抗殘差包含對于這個模式的劇烈偏離及機遇起伏。8/21/20226試驗優(yōu)化技術3. 重新表達(Reexpression) 重新表達即找到合適的尺度或數據表達方式以更利于簡化分析。EDA強調,要盡早考慮數據的原始尺度是否合適的問題。如果尺度不合適,重新表達成另一個尺度可能更有助于促進對稱性、變異恒定性、關系直線性或效應的可加性等。 重新表達亦稱變換(Tra
6、nsformation),一批數據x1,x2,xn的變換是一個函數T,它把每個xi用新值T(xi)來代替,使得變換后的數據值是 T(x1),T(x2 ) ,T(xn )。 8/21/20227試驗優(yōu)化技術4. 啟示(Revelation) EDA強調啟示。所謂啟示就是通過EDA新的圖解顯示和各種分析顯示,發(fā)現規(guī)律,得到啟迪,滿足分析者的需要:看出數據、擬合、診斷量度以及殘差等行為,從而抓住意想不到的特點以及常見的一貫行為。8/21/20228試驗優(yōu)化技術1. 批(Batch)或數據批 批即由n個觀測值x1,x2,xn組成的數據組。在傳統統計中,這個數據組常稱為樣本,但批只是原始數據組,沒有像對
7、樣本那樣的任何假設,如數據間獨立、服從正態(tài)分布等。 注意:在傳統統計中,常用的樣本均值、方差等統計量是不耐抗的,即使只有一個異常數據也會對它們產生巨大的有害影響。而在EDA中,為了探索性目的,用基于排序和計數的簡單的總括統計量,如中位數,常常是耐抗的,即一批數據的一小部分不論怎樣變化也只對這個總括統計量有很小的影響。三、探索性數據分析的常用術語8/21/20229試驗優(yōu)化技術2. 次序統計量(Order Statistics) 若把數據批x1,x2,xn排成從小到大的次序,即 則 叫做數據批x1,x2,xn的次序統計量。而x(i)是第i個次序統計量。 在排序的基礎上,從最小值到最大值各個數據值
8、的先后名次,即為觀測值的升秩(Upward rank),即x(1)的升秩為1,x(2)的升秩為2,x(i)的升秩為i; 類似地,有降秩的概念,在排序基礎上,從最大值到最小值的先后名次即為降秩(Downward rank), x(i)的降秩為n+1-i,同一個數據有:升秩降秩n+18/21/202210試驗優(yōu)化技術3. 深度(Depth) 數據批中一個數據值的深度是它的升秩與降秩兩者中的最小值。在EDA中規(guī)定: 次序統計量中, 兩個極端值x(1)和x(n)的深度為1 兩個次極端值x(2)和x(n-1)的深度為2 第i個數據值和第n+1-i個數據值的深度皆為i在EDA中,用深度的概念可以規(guī)定怎樣從
9、數據批中提煉出各種探索性總括值。8/21/202211試驗優(yōu)化技術4. 中位數(Median) 中位數是處于次序統計量中間的數據,它用計數的方法給出數據批的中心,中位數將次序統計量分成“低值”和“高值”兩部分。中位數用字母M表示,即 中位數的深度記為d(M)8/21/202212試驗優(yōu)化技術5. 四分數(Fourth) EDA規(guī)定:深度為 的點為四分點,相應的數分別稱為四分數。 四分數有下、上兩個,分別記作 ,則 表示取整運算,當d(F)遇有1/2時,表示四分數取深度d(F)相鄰兩數的平均。 8/21/202213試驗優(yōu)化技術 由四分數的定義可知,每個四分數都在中位數和那個相應的極端值的半中間
10、,從而兩個四分數括住了這批數據的中間那一半,這一半通常被認為具有典型意義。顯然,在次序統計量中,下四分數以下為“低值”部分,上四分數以上為“高值”部分。 把中位數、四分數和極端數放在一起組成五數總括,可以給出一些又用的信息。 8/21/202214試驗優(yōu)化技術【例1】Bendixen(1977)給出了需要24小時以上呼吸支持(一種強化治療)的11類病人的生存百分率。分析什么百分率是典型的。 次序統計量為 i: 1 2 3 4 5 6 7 8 9 10 11 x(i):36 37 45 52 56 58 66 68 75 90 100 由于n=11,中位數深度d(M)=(11+1)/2=6,中位
11、數Mx(6)58;四分數深度d(F)=(6+1)/2=3.5,因而下四分數Fl=(x(3)+x(4)/2=48.5,上四分數Fu=(x(9)+x(8)/2=71.5 將中位數、極端數、四分數放在一起的五數總括可知:這11類病人生存百分率的典型值是58%,盡管生存率可以高達100,低到36,但其中一半的生存率是48.5%71.5%8/21/202215試驗優(yōu)化技術6. 展布(Spread) 展布是反映數據集中程度的一個指標,在EDA中,通常用兩個分位點的差距來定義。如一個簡單的耐抗量度是四分展布dF,它定義為 dF=FuFl 它給出數據批的中間一半的寬度,簡稱四分展布或F展布。 F展布強調數據批
12、中心部分的行為而不強調極端值,它是對邊遠值不敏感的展布,這一點極差和標準差都做不到。 當然,兩個極端值之差即極差也是展布,但是離群值對極差影響太大,一般極差沒有什么耐抗性。 8/21/202216試驗優(yōu)化技術7. 臨界值(Critical value) 在EDA中,稱Fl1.5 Fl與Fu1.5 Fl分別為下、上內界值,稱最接近它們的數據為臨界值,將小于下內界值和大于上內界值的數據稱為界外值或離群值。 進一步,又稱Fl3 Fl與Fu3 Fl為下、上外界值,而稱這之外的數據為遠外值或異常值。 EDA要求總括統計量要對離群值特別是異常值具有耐抗性。8/21/202217試驗優(yōu)化技術四、耐抗線性回歸
13、 傳統回歸使用最廣泛的是最小二乘回歸,但最小二乘回歸不能提供耐抗性。耐抗線性回歸避免了這一困難。它把數據分成3個組,用組內中位數達到耐抗性。基本思路是:首先把n個數據點(x1,y1),(xn,yn)分成3個組,每個組內用中位數形成一個總括點,再在這3個總括點的基礎上得到一條線,然后通過迭代調整或平滑這條直線。 這種方法稱為三組耐抗線法。8/21/202218試驗優(yōu)化技術1. 形成3個組 首先把x的值排序,使得 ,在此基礎上,把n個數據點 (xi,yi) 分成左、中、右3個組,使組的大小盡可能相等。當xi之間沒有等值結時,組內的數據點數依賴于n除以3得到的余數: 組 n=3k n=3k+1 n=
14、3k+2 左 k k k+1 中 k k+1 k 右 k k k+18/21/202219試驗優(yōu)化技術 當xi之間有等值結時,各組數據點個數可能不能達到上述配置,因為有同樣x值的點應該進入同一組。8/21/202220試驗優(yōu)化技術2. 確定總括點 在所形成的3個組內,先求組內x值的中位數,然后單獨求y值的中位數,得到總括點的x坐標和y坐標: (xL,yL) (xM,yM) (xR,yR) 得到的這3個總括點可能是數據點,也可能不是數據點,因為x和y的中位數是單獨確定的。 這種確定組內總括點的方法給了擬合直線耐抗性。8/21/202221試驗優(yōu)化技術3. 計算斜率和截距或中心值 若回歸直線為 ,
15、 則,初始直線的斜率 初始直線的截距 當所有的數據點的x值都遠離0時,用斜率和截距來表示擬合直線意義不大,以斜率和中心值來表示通常更有用。 8/21/202222試驗優(yōu)化技術以斜率和中心值來表示的初始直線是式中,斜率b0的計算和前面一樣,中心值(又稱水平)a0*用下式計算:8/21/202223試驗優(yōu)化技術4. 殘差擬合與迭代 得到初始直線后,計算每個數據點的殘差 按先前的分組找出eL,eM,eR,利用三個殘差數據的總括點用相同的方法擬合直線,得到斜率和水平(xL,eL) (xM,eM) (xR,eR)8/21/202224試驗優(yōu)化技術 用殘差擬合得到的斜率和水平對初始直線的斜率和水平進行調整
16、,得到調整后的斜率和水平 然后用新的直線再計算殘差,并進行殘差擬合,并用擬合結果對直線進行調整,直到斜率的調整值(即殘差方程的斜率)不超過初始斜率絕對值的1或0.01%,這種迭代過程終止。8/21/202225試驗優(yōu)化技術【例2】某學校兒童的年齡與身高的數據如下表,試用三組耐抗線法擬合兒童身高y與年齡x間的關系。編號年齡x /月身高y /cm殘差ei編號年齡x /月身高y /cm殘差ei1109137.60.7210129148.31.552113147.88.9511130147.50.263115138.8-3.0412133148.80.084116140.70.3713134133.2-16
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年1月份量子通信協議轉讓
- 行政管理部培訓
- 教師政治培訓課件
- DB11 T 384.2-2009 圖像信息管理系統技術規(guī)范 第2部分 視頻格式與編碼
- (9)-多次相遇問題
- 2025合作協議-個人掛靠內貿公司代理合同
- 2025年份二月協議離婚中量子計算資產分割操作指南
- 2025年份三月份淘寶無障礙店鋪運營適老化改造協議
- 2025水域養(yǎng)殖承包合同協議書范本
- 婚前購房離婚協議書
- DB44-T 2283-2021水利工程生態(tài)設計導則1-(高清現行)
- XX縣城區(qū)新建公廁、生活垃圾中轉站項目實施方案可行性研究報告
- 哈薩克斯坦鐵路車站代碼
- 足球裁判規(guī)則PPT
- 利潤分配專項審計
- 螺紋的標注-PPT課件
- 勇者斗惡龍之怪獸仙境圖表資料合集(合成表技能)
- 履帶式液壓挖掘機挖掘機構設計
- 原材料進廠檢驗管理制度及檢驗規(guī)程
- 川崎病診治指南最新ppt課件
- 聚苯胺的結構和形貌表征分析結果
評論
0/150
提交評論