




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、探索性數據分析(探索性數據分析(EDA)EDA的提出的提出 1977年,美國統計學家John W. Tukey出版了探索性數據分析一書,引起了統計學界的關注。該書指出了統計建模應該結合數據的真實分布情況,對數據進行分析,而不應該從理論分布假定出發去構建模型。EDA重新提出了描述統計在數據分析中的重要性,它為統計學指明了新的發展方向和數據相結合。EDA的定義的定義 探索性數據分析是對調查、觀測所得到的一些初步的雜亂無章的數據,在盡量少的先驗假定下進行處理,通過作圖、制表等形式和方程擬合、計算某些特征量等手段,探索數據的結構和規律的一種數據分析方法。EDA的主要特點的主要特點n研究從原始數據入手,
2、完全以實際數據為研究從原始數據入手,完全以實際數據為依據依據 傳統的統計分析方法通常是先假定數據服從某種分布,然后用適應這種分布的模型進行分析和預測。但實際上,多數數據(尤其是實驗數據)并不能保證滿足假定的理論分布。因此,傳統方法的統計結果常常并不令人滿意,使用上受到很大的局限。n分析方法從實際出發,不以某種理論為依據分析方法從實際出發,不以某種理論為依據 傳統的統計分析方法是以概率論為理論基礎,對各種參數的估計、檢驗和預測給出具有一定精度的度量方法和度量值。而EDA在探索數據內在的數量特征、數量關系和數量變化時,什么方法可以達到這一目的就采用什么方法,靈活對待,靈活處理。方法的選擇完全取決于
3、數據的特點和研究的目的。n分析工具簡單直觀,更易于普及分析工具簡單直觀,更易于普及 傳統的統計分析方法都比較抽象和深奧,一般人難于掌握,EDA則更強調直觀及數據可視化,使分析者能一目了然地看出數據中隱含的有價值的信息,顯示出其遵循的普遍規律及與眾不同的突出特點,促進發現規律,得到啟迪,滿足分析者的多方面要求,這也是EDA對于數據分析的的主要貢獻。數據類型數據類型n 結構化數據:結構化數據: 二分類型:如性別 多分類型:如職業 有序類型:如收入水平 數值類型:如年齡、收入 n 非結構化數據:非結構化數據: 文本 音頻 視頻 圖片 單變量分析單變量分析l頻率和眾數:頻率和眾數:針對于無序的分類的變
4、量l百分位數:百分位數:針對于有序的或連續的變量l位置度量:位置度量:均值和中位數l散布度量:散布度量:方差、標準差、偏度、峰度、四分位數極差偏度和峰度偏度和峰度 偏度的計算公式: 偏度是刻畫數據對稱性的指標。關于均值對稱的數據其偏度為0,呈現右偏的數據偏度大于0,呈現左偏的數據偏度小于0。331 峰度的計算公式: 峰度是刻畫分布狀態的陡緩程度的指標。峰度等于0,分布呈正態,峰度大于0,分布呈尖峰狀態,峰度小于0,分布呈平峰狀態。3442四分位數極差四分位數極差 四分位數極差定義: 判斷數據異常點的方法:稱 為數據的下、上截斷點。大于上截斷點或小于下截斷點的數據均為異常點。QQR131,5.1
5、11RQRQ135 .1直方圖直方圖 對于分類屬性,每個值在一個箱中。對于連續屬性,將值域劃分成箱(通常是等寬的)并對每個箱中的值計數。 正常型直方圖:正常型直方圖: 它的形狀是中間高兩邊低,左右近似對稱。 雙峰型直方圖:雙峰型直方圖:當直方圖中出現了兩個峰,這是由于觀測值來自兩個總體、兩個分布的數據混合在一起造成的。 平頂型直方圖:平頂型直方圖:當直方圖沒有突出的頂峰,呈平頂型 。形成的原因:1.多個總體多個分布混合在一起;2.變量在某個區間均勻變化。 偏態型直方圖:偏態型直方圖:偏態型直方圖是指圖的頂峰有時向左偏、有時向右偏。 孤島型直方圖:孤島型直方圖:在直方圖旁邊有孤立的小島出現。直方
6、圖作用直方圖作用 數據是否接近對稱 數據分散性如何 數據是否有異常值 數據中是否有間隙箱線圖箱線圖箱線圖是一種顯示一維數值屬性值分布的圖形。它有6個數據節點:上邊緣、上四分位數中位數、下四分位數下邊緣、異常值。箱線圖的作用:箱線圖的作用:識別異常值;判斷數據的偏態;比較幾批數據的形狀。正態性檢驗正態性檢驗 正態分布是許多檢驗的基礎,比如F檢驗,t檢驗,卡方檢驗等。因此,對于一個樣本是否來自正態總體的檢驗是至關重要的。u圖示法圖示法1. 直方圖:直方圖:是否以鐘型分布2. 箱線圖:箱線圖:觀測矩形位置和中位數,若矩形位于中間位置且中位數位于矩形的中間位置,則分布較為對稱。3. QQ圖圖 對于樣本
7、 ,其次序統計量是 。QQ圖是由以下的點構成的散點圖:若樣本數據近似于正態分布,在QQ圖上這些點近似地在直線附近。xxxn,.,21 xxxn,.,21 ,25. 0375. 01xini.1ni xyu非參數檢驗方法非參數檢驗方法Kolmogorov-Smirnov 正態性檢驗:正態性檢驗:檢驗統計量為 表示一組隨機樣本的累計頻率函數 , 表示分布的分布函數。Shapiro-Wilk的的(W檢驗檢驗)夏皮絡威爾克檢驗當 時可以使用。 xxDFFon max xFn xFo508n兩個變量的關系兩個變量的關系 兩個數值型變量線性相關兩個數值型變量線性相關(服從二元正態分布) 秩相關秩相關(兩個
8、有序的分類變量) 兩個無序分類變量關聯性分析兩個無序分類變量關聯性分析兩個數值型變量線性相關兩個數值型變量線性相關1. 計算計算Pearson樣本相關系數樣本相關系數Pearson樣本相關系數的取值范圍和含義是:l 相關系 數 的取值在-11之間。l 0表示兩變量存在正的線性相關關系 , 0.8表示兩變量之間具有較強的線性關系, 0.3表示兩變量之間的線性相關關系較弱。問題:當我們得到相關系數 后,是否就能直接判斷兩變量之間的關系? niniiiyyxxyxiiyx12212. 相關系數的假設檢驗:相關系數的假設檢驗:l提出零假設:兩變量無線性相關關系l選擇檢驗統計量:Pearson相關系數的
9、檢驗統計量為t統計量,即其中,t統計量服從n-2個自由度的t分布。l計算檢驗統計量的觀測值和p值。l決策。如果p值小于顯著水平 ,應拒絕原假設,認為兩變量有線性相關關系,否則兩變量不存在線性相關關系。 212nt應用時注意的問題應用時注意的問題n進行線性相關分析前,可以先繪制散點圖。n要求兩變量都來自正態總體的隨機變量。n出現異常值時慎用。秩相關秩相關設 的秩統計量是 , 的秩統計量是 。則Spearman相關系數是:對于Spearman相關系數,也可以做假設檢驗:檢驗統計量:其中t統計量服從n-2個自由度的t分布。nininiiixySSRRSRqiiSR12121212nxytqqxyxx
10、xn,.,21RRRn,.,21YYYn,.,21SSSn,.,21兩個無序分類變量關聯性分析兩個無序分類變量關聯性分析方法: 檢驗檢驗統計量為:其中, 統計量服從自由度為(n-1)(m-1)的 分布。 為觀測頻數, 為期望頻數。2nimjijEEAijij112222AijEij多個數值型變量可以使用散點圖矩陣多個數值型變量可以使用散點圖矩陣多個分類變量可以使用網狀圖多個分類變量可以使用網狀圖補充補充n當目標變量是分類型變量,解釋變量是數值型變量時可以利用方差分析方差分析的方法,來判斷目標變量在不同分類水平下解釋變量的均值是否存在顯著差異。初步結論初步結論u變量是否有缺失u變量是否有異常值u變量是否有冗余u變量的分布情況u樣本是否有重復u樣本是否存在不平衡類問題簡單的處理簡單的處理u對于缺失問題可以刪除刪除記錄或者插補插補u對于異常值可以刪除刪除或者替換替換u對于變量冗余問題可以使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 核電工程現場施工安全操作規程考核試卷
- 衛生材料在汽車制造中的應用考核試卷
- 箱包行業創新材料應用考核試卷
- 守株待兔新編初二語文作文
- 描寫姥爺的初二語文作文
- 紙板生產中的物流與倉儲管理策略考核試卷
- 密封用填料的聲學性能分析考核試卷
- 九級語文上冊第五單元提高練習5課人教新課標版
- 租賃企業運營模式解析考核試卷
- 2-9邏輯函數的標準形式-最小項表達式
- 2025年職教高考對口升學 護理類 專業綜合模擬卷(5)(四川適用)(原卷版)
- 聲學裝修施工方案
- 《歐洲古典建筑》課件
- 升學規劃指導講座模板
- 定密培訓課件
- 中醫護理方案的應用
- 《馬克思主義原理》課件
- 結直腸癌的治療與護理
- 新生兒常見導管護理
- 家政服務行業環保管理制度
- 完整的欠貨款協議書范文范本
評論
0/150
提交評論