數據分析基礎課程-第4章-數據的分析_第1頁
數據分析基礎課程-第4章-數據的分析_第2頁
數據分析基礎課程-第4章-數據的分析_第3頁
數據分析基礎課程-第4章-數據的分析_第4頁
數據分析基礎課程-第4章-數據的分析_第5頁
已閱讀5頁,還剩116頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄/Contents4.1數據分組4.2描述性統計第四章數據的分析4.3動態數列的分析與預測4.4相關分析與回歸分析

4.5綜合評價分析法

4.6四象限分析法數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第1頁。4.1數據分組4.1.1統計分組的概念統計分組是根據統計研究的需要,按照一定的標志,將總體區分為若干個性質不同而又有聯系的組成部分,并計算各組的頻數或比重的一種統計方法。這些組成部分稱為這一總體的“組”。按照每組標志表現的多少,統計分組可以分成單項式分組和組距式分組。1.單項式分組一個變量值作為一組,稱為單項式分組,一般適用于離散型變量且變量變動不大的場合。例如,如果考試成績以五分制計算,則全體學生的成績可以分為六組,即5分、4分、3分、2分、1分、0分,如表4-1所示。組別人數5分2304分7603分13892分3401分790分2合計2800表4-1單項式分組數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第2頁。1.1數字通信系統的基本概念2.組距式分組以一個區間作為一組,稱為組距式分組,一般適用于連續型變量或離散數據較多的場合。組距式分組又可以分成等距分組和不等距分組。例如,如果學生的成績以百分制計算,則全體學生的成績可以采用等距分組分成10組,如表4-2所示;也可以采用不等距分組分成5組,如表4-3所示。4數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第3頁。組別人數0~10010~20520~301830~405740~509050~6025060~70121070~80102080~9011890~10032表4-2等距分組數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第4頁。組別人數40分以下8040~60分34060~70分121070~80分102080分以上150表4-3不等距分組數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第5頁。對于某一個組(a,b),我們稱a為該組的下限,b為該組的上限;上限與下限之差(b-a)叫組距,

叫組中值。組中值未必是該組數據的平均值,但由于其計算簡單,常作為該組的代表值。采用組距式分組一般經過以下幾個步驟。(1)確定組數。(2)確定各組的組距。(3)統計各組的頻數。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第6頁。3.次數分布在統計分組的基礎上,將總體中所有單位按組歸類整理,形成總體中各單位數在各組間的分配,叫次數分布。分配在各組的單位數叫頻數。各組頻數與總頻數的比值叫頻率或比率。各頻率之和為1或100%。各種不同性質的總體都有著特殊的次數分布,概括起來,主要有鐘形分布、U形分布和J形分布。(1)鐘形分布當次數分布出現兩端次數較少、中間次數較多的狀態時,所繪制的曲線就像一口鐘,所以叫鐘形分布。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第7頁。鐘形分布有對稱分布和非對稱分布兩種。對稱分布的特征是中間變量值分布的次數最多,兩側變量值隨著與中間變量值距離的增大而逐漸減少,并且圍繞中心變量值兩端呈對稱分布,即為正態分布,如圖4-1所示。圖4-1正態分布數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第8頁。在非對稱的鐘形分布中,又分左偏分布和右偏分布兩種。左偏分布的平均數在峰值的左邊,右偏分布的平均數在峰值的右邊,如圖4-2和圖4-3所示。圖4-2左偏分布

圖4-3右偏分布數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第9頁。(2)U形分布當次數分布出現兩端次數較多,靠近中間次數較少的狀態時,所繪制出來的曲線如同英文字母“U”字一樣,所以叫U形分布,如圖4-4所示。圖4-4U形分布數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第10頁。(3)J形分布J形分布有兩種,一種是正J形分布,另一種是反J形分布。當次數隨著變量的增大而增多時,繪制的曲線圖就像英文字母“J”,所以叫正J形分布,如圖4-5所示。當次數隨著變量的增大而減少時,繪制的曲線圖就如反寫的英文字母“J”,所以叫反J形分布,如圖4-6所示。圖4-5正J形分布圖4-6反J形分布數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第11頁。4.1.2利用“數據透視表”分組數據透視表可以將Excel數據庫中的數據進行分組,建立各種形式的交叉數據列表。數據透視表將篩選和分類匯總等功能結合在一起,可根據不同需要以不同方式查看數據。插入透視表的主要步驟如下。(1)單擊數據區域的任意一個單元格,再選擇“插入”|“數據透視表”命令。(2)如果第一步按前面的要求做了,那這一步打開的“創建數據透視表”對話框中就會自動選擇所有的數據區域,透視表的位置默認為“新工作表”,如圖4-7所示。如果不想更改透視表的位置,只需單擊“確定”按鈕即可。圖4-7確定要分析的數據及透視表放置位置數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第12頁。(3)將分組標志(Excel中叫“字段”)拖到“行標簽”“列標簽”或“報表篩選”處(首選“行標簽”,其次是“列標簽”,盡量不要拖到“報表篩選”),將要統計的標志(字段)全部拖到“數值”處,如圖4-8所示。圖4-8確定分組標志及統計標志數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第13頁。如果統計是品質標志,統計方式默認為“計數”;如果統計的是數量標志,統計方式默認為“求和”。如果要修改統計方式,可以單擊右邊的下三角形,在彈出的列表框中選擇“值字段設置”命令,如圖4-9所示,然后在“值字段設置”對話框中修改統計方式,如圖4-10所示。圖4-9修改值字段設置圖4-10修改統計方式數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第14頁。例1:打開工作簿“數據分組.xlsx”,利用數據透視表功能統計“一月銷售記錄”工作表中每種商品的總銷售額。(1)單擊“一月銷售記錄”工作表數據區域的任意一個單元格,再選擇“插入”|“數據透視表”命令,打開“創建數據透視表”對話框,里面自動選擇了要分析的數據為“一月銷售記錄!$A$1:$C$531”,透視表的位置為“新工作表”,如圖4-11所示。圖4-11確定要分析的數據及透視表放置位置數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第15頁。(2)將“銷售商品”拖至“行標簽”處,將“銷售額”拖至“數值”處,即得到每種商品的總銷售額,如圖4-12所示。圖4-12統計每種商品的總銷售額數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第16頁。例2:將工作簿“數據分組.xlsx”中的“2015年銷售記錄”工作表的數據根據“日期”字段按季度分組,并統計每個季度的“成交商品數”。(1)單擊“2015年銷售記錄”工作表數據區域的任意一個單元格,再選擇“插入”|“數據透視表”命令,打開“創建數據透視表”對話框。(2)要分析的數據區域為“'2015年銷售記錄'!$A$1:$F$363”,透視表的位置為“新工作表”,如圖4-13所示。圖4-13要分析的數據及透視表放置位置數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第17頁。(3)將“日期”拖到“行標簽”處,將“成交商品數”拖到“數值”處,如圖4-14所示。圖4-14按日期分組統計成交商品數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第18頁。(4)在透視表的“行標簽”下任意單元格上單擊鼠標右鍵,在彈出的快捷菜單中選擇“創建組”命令,如圖4-15所示。(5)在隨后打開的“分組”對話框中選擇“步長“為“季度”,如圖4-16所示。圖4-15創建組圖4-16按季度分組數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第19頁。(6)單擊“確定”按鈕,統計結果如圖4-17所示。圖4-17各季度的成交商品數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第20頁。例3:將工作簿“數據分組.xlsx”中的“商品詳情”工作表數據按“單價”進行等距分組(組距為50),統計各組的“點擊次數”。(1)單擊“商品詳情”工作表數據區域的任意一個單元格,再選擇“插入”|“數據透視表”命令,將“單價”拖至“行標簽”處,將“點擊次數”拖至“數值”處,如圖4-18所示。圖4-18按單價分組統計點擊次數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第21頁。(2)在透視表的“行標簽”下任意單元格上單擊鼠標右鍵,在彈出的快捷菜單中選擇“創建組”命令,如圖4-19所示。(3)修改起始值為100,終止值為400,步長為50,如圖4-20所示。圖4-19創建組圖4-20修改起始值、終止值、步長數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第22頁。注意:當各組的上下限互不相等時,各組是既含下限又含上限的;但當前一組的上限與后一組的下限相同時,數據透視表統計結果遵循“含下限、不含上限”的原則。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第23頁。4.1.3利用“數據分析”之“直方圖”功能統計各組的頻數利用透視表可以完成對數據的單項分組和等距分組。如果要對數據進行不等距分組,透視表就無能為力了,此時可以利用“數據分析”之“直方圖”功能進行分組。透視表就無能為力了,此時可以利用“數據分析”之“直方圖”功能進行分組。例:將工作簿“數據分組.xlsx”中的“數學成績”工作表的數據按“40分以下”“40~60分”“60~70分”“70~80分”“80分以上”分成5組,并統計各組的人數。(1)在F列輸入各組的上限值:40、60、70、80、100,如圖4-21所示。(2)選擇“數據”|“數據分析”命令。(3)在“數據分析”對話框中選擇“直方圖”,如圖4-22所示。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第24頁。圖4-21組上限

圖4-22選擇直方圖數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第25頁。(4)“直方圖”對話框中的“輸入區域”是指要分析的數據區域,操作時先單擊該輸入框,再在“數學成績”工作表中選擇整個D列(在字母D上單擊即可選擇整個D列),這時輸入區域會自動顯示絕對引用的方式$D:$D;“接收區域”是指組上限區域,操作時先單擊該輸入框,再在“數學成績”工作表中選擇單元格區域F1:F6,這時接收區域也會自動顯示絕對引用的方式$F$1:$F$6。因為單元格D1和F1里的數據是標志,所以下面選中“標志”復選項,如圖4-23所示。圖4-23設置輸入區域和接收區域數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第26頁。(5)如果選中了“圖表輸出”復選框,還將自動輸出直方圖,如圖4-24所示。圖4-24直方圖數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第27頁。4.1.4用frequency、countif函數統計頻數1.frequency函數frequency函數的功能就是統計各組的頻數,因此它是一個數組函數,即它返回的結果不是一個數,而是一組數。例1:用frequency函數對“數學成績(1)”工作表的數據按“40分以下”“40~60分”

“60~70分”“70~80分”“80分以上”進行分組統計。(1)打開“數學成績(1)”工作表,在F2:F6中輸入各組的上限:40、60、70、80、100。選擇區域G2:G6,用于放統計結果,如圖4-25所示。圖4-25選擇放置結果的單元格區域數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第28頁。(2)插入frequency函數。(3)在frequency函數參數對話框中,在第一個輸入框中選擇D列(結果顯示D:D);在第2個輸入框中選擇組上限區域(F1:F6),如圖4-26所示。(4)按Ctrl+Shift+Enter組合鍵確認,結果如圖4-27所示。圖4-26frequency函數參數圖4-27統計結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第29頁。2.countif函數countif函數的功能是統計滿足一定條件的單元格個數,使用格式為:countif(單元格區域,條件)。例2:用countif函數對“數學成績(2)”工作表的數據按“40分以下”“40~60分”“60~70分”“70~80分”“80分以上”進行分組統計。使用的公式和結果如圖4-28所示。圖4-28用countif統計區間的頻數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第30頁。4.2描述性統計描述性統計主要用于計算總體的總量指標、平均指標、中位數、眾數、極差、方差、標準差、標準差系數等。4.2.1總量指標和平均指標根據總體反應的具體內容,總量指標劃分為標志總量和單位總量。(1)標志總量:總體某一標志的總和∑xi。(2)單位總量:總體所包含個體數的多少。如果收集的數據是一條一條的原始記錄,而且是精確的數據,則用sum函數計算標志總量,用count函數計算單位總量,用average函數計算平均指標。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第31頁。例1:打開文件“描述性統計.xlsx”中的“捐款資料”工作表,計算總捐款金額、總捐款人數、人均捐款金額。圖4-29計算標志總量

圖4-30計數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第32頁。圖4-31計算單位總量圖4-32用函數average計算算數平均數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第33頁。例2:××學院新生入學年齡統計表如圖4-33所示,請統計新生的平均年齡。數據文件見“描述性統計.xlsx”中的“平均年齡”工作表。圖4-33年齡統計表圖4-34增加“xf

”列和“合計∑”行數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第34頁。圖4-35計算xf的值圖4-36計算∑f

圖4-37計算∑xf數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第35頁。在Excel中,函數sumproduct的功能是計算兩組或多組數據的乘積之和。圖4-38計算平均年齡數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第36頁。本例可用函數sumproduct直接計算∑xf,操作如下。(1)插入sumproduct函數,在“函數參數”對話框的第一個參數中選擇單元格區域A3:A7,在第二個參數中選擇單元格區域B3:B7,如圖4-39所示。圖4-39sumproduct函數參數設置數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第37頁。(2)所以,平均年齡的計算可以直接用公式“=sumproduct(A3:A7,B3:B7)/sum(B3:B7)”完成,不需要計算xf、∑f、∑xf,如圖4-40所示。圖4-40用sumproduct和sum計算平均年齡數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第38頁。例3:IT企業對IT人才中高級程序員的素質要求也越來越高,其中包括團隊意識與協作能力、文檔處理與測試能力、規范化代碼編寫能力、需求理解與分析能力、模塊化思維能力、學習與總結能力、項目設計與流程處理能力、整體項目評估能力、團隊組織與管理能力等。有一名某高級程序員叫張三,300名同事對他的評價投票資料如圖4-41所示,請計算他各個項目的平均得分。數據文件為工作簿“描述性統計.xlsx”中的“程序員測評”工作表。圖4-41評價投票資料數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第39頁。在Excel中的操作如下。(1)在單元格G3中使用公式“=(B3*100+C3*85+D3*65+E3*45+F3*30)/300”計算“團隊意識與協作”的平均得分,如圖4-42所示。(2)雙擊G3的填充柄,即可得到其他項目的平均得分。圖4-42“團隊意識與協作”的平均得分數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第40頁。例4:某次考試成績分組統計情況如圖4-43所示,請計算此次考試的平均分。數據文件為工作簿“描述性統計.xlsx”中的“平均成績”工作表。圖4-43考試成績分組統計數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第41頁。(1)計算各組的組中值x,并將每組的組中值直接錄入到C列,如圖4-44所示。(2)計算xf、∑f、∑xf,并用公式“=D7/B7”計算平均得分66.9,結果如圖4-45所示。圖4-44計算組中值x圖4-45計算平均分數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第42頁。例5:打開文件“描述性統計.xlsx”中的“月薪調查”工作表,如圖4-46所示,請計算平均月薪。圖4-46月薪調查數據數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第43頁。圖4-47對數據分組圖4-48調整組別順序數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第44頁。圖4-49復制粘貼“值”圖4-50計算結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第45頁。4.2.2中位數和眾數中位數是指將總體各單位的標志值按大小順序排列時位于數列中間位置的數據。如果有偶數個數據,則取中間兩個數的平均數。中位數用字母Me(median)表示。眾數是指總體中出現次數最多的數據,用字母Mo(mode)表示。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第46頁。1.用函數median計算中位數Me例1:打開文件“描述性統計.xlsx”的“捐款資料”工作表,計算“捐款金額”的中位數。用函數median計算中位數Me,如圖4-52所示。圖4-51有異常數據的散點圖圖4-52用函數median計算中位數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第47頁。2.用函數mode計算眾數Mo例2:打開文件“描述性統計.xlsx”的“捐款資料”工作表,計算“捐款金額”的眾數,如圖4-53所示。圖4-53用函數mode計算眾數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第48頁。4.2.3極差、方差、標準差和標準差系數有一組數據:x1、x2、x3、x4、…①極差=最大值-最小值;②方差= ;③標準差= ;④標準差系數= 。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第49頁。這幾個指標用于描述數據的差異程度和離散程度。指標值越大,說明數據的離散程度越大,即數據波動幅度大,平均值的代表性越差;指標值越小,說明數據越平穩,波動幅度小,平均值的代表性越好。如果直接從數學角度用數學公式的方法來計算方差和標準差是比較煩瑣的。在Excel中,用函數計算要方便得多,如圖4-54~圖4-57所示。圖4-54用函數max和min的差計算極值數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第50頁。圖4-55用函數var.p計算方差圖4-56用函數stdev.p計算標準差數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第51頁。①極差R=max()-min();②方差σ2=var.p();③標準差σ=stdev.p();④標準差系數

。圖4-57計算標準差系數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第52頁。4.2.4利用“數據分析”之“描述統計”功能計算描述性指標例:打開文件“描述性統計.xlsx”的“捐款資料”工作表,用“描述統計”的方法統計“捐款金額”的各項描述性統計指標。(1)單擊“數據”|“數據分析”按鈕,打開“數據分析”對話框,選擇“描述統計”功能,單擊“確定”按鈕,如圖4-58所示。圖4-58“數據分析”之“描述統計”數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第53頁。(2)在“描述統計”對話框中設置輸入區域(可選擇整列)、輸出區域(僅選擇起點),如圖4-59所示。(3)單擊“確定”按鈕,結果如圖4-60所示。圖4-59描述統計設置圖4-60描述統計結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第54頁。描述統計”結果中其他指標的含義或公式如下。①標準誤差:

。②峰度:衡量數據離群度的指標。③偏度:衡量數據偏斜平均數

的方向和程度。④區域:極值。⑤求和:標志總量。⑥觀測數:單位總量。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第55頁。4.3動態數列的分析與預測動態數列是指將總體在不同時間上的指標數值按時間先后排列而成的序列,又叫時間數列。為了方便起見,動態數列經常以表格的形式展現,如表4-4所示。動態數列有兩個基本要素:時間t和水平值a。時間t0t1t2t3……指標數值(水平值)a0a1a2a3……表4-4動態數列的形式數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第56頁。4.3.1動態數列的速度指標動態數列常用的速度指標有發展速度、總發展速度、增長速度、平均發展速度和平均增長速度。1.發展速度研究動態數列時,如果要將兩個不同時期的水平值進行對比,那么分析研究時期的水平值叫報告期水平;對比基礎時期的水平值叫基期水平。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第57頁。例1:文件“動態數列分析.xlsx”的“發展速度1”工作表中列出某企業2010—2015年固定資產投資情況如圖4-61所示,請計算歷年的定基發展速度、環比發展速度。(1)計算定基發展速度(2)計算環比發展速度圖4-61某企業2010—2015年固定資產投資情況數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第58頁。2.總發展速度總發展速度簡稱總速度。顧名思義,總發展速度就是一段時間以來總的發展速度,在數值上應等于最終的水平值除以最初的水平值,即

。例2:已知2009—2015年淘寶“雙11”銷量統計資料如圖4-63所示,請計算2009—2015年的總發展速度。數據文件為“動態數列分析.xlsx”的“發展速度2”工作表。圖4-63淘寶“雙11”銷量統計數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第59頁。例3:已知某公司2006—2015年的發展速度如圖4-64所示,請計算10年內的總發展速度。數據文件為“動態數列分析.xlsx”的“發展速度3”工作表。圖4-64某公司2006—2015年的發展速度數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第60頁。該例可用公式“=product(B3:K3)”計算10年的總發展速度,如圖4-65所示。所以在例1中,2015年的定基發展速度H4就是總發展速度,當然也可以用公式“=product(D5:H5)”計算總發展速度,如圖4-66所示。圖4-65用product函數計算總發展速度圖4-66計算總發展速度數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第61頁。3.平均發展速度平均發展速度

。數學上,我們把n個數的乘積開n次方根,叫作這n個數的幾何平均數。所以,平均發展速度=環比發展速度的幾何平均數。在Excel中,有一個函數可以計算n個數的幾何平均數,就是geomean函數,即平均發展速度=geomean(環比發展速度)。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第62頁。在Excel中,用公式“=(B5)^(1/6)”或=power(B5,1/6)計算平均發展速度,如圖4-67和圖4-68所示。圖4-67計算平均發展速度(一)圖4-68計算平均發展速度(二)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第63頁。例3中的平均發展速度計算公式則應該用“=geomean(B3:K3)”,如圖4-69所示。圖4-69計算平均發展速度(三)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第64頁。4.增長速度增長速度==發展速度-1。根據基期的不同,增長速度也分定基、環比、同比3種。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第65頁。例4:2014年1月至2015年12月京東商城空氣凈化器的銷量統計資料(銷量前十大品牌TPO10)如圖4-70所示,請計算每個月的“發展速度”和“增長速度”。數據文件為“動態數列分析.xlsx”的“發展速度4”工作表。圖4-70京東商城空氣凈化器的銷量統計資料圖4-71京東商城空氣凈化器銷售量的速度指標數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第66頁。例5:已知某企業的經濟效益連年增長,2013年是2012年的110%,2014年是2013年的120%,2015年是2014年的115%。計算3年來年平均增長速度是多少。數據文件為“動態數列分析.xlsx”的“平均增長速度1”工作表。例6:已知某公司2011—2015年固定資產投資額環比增長速度資料表如圖4-72所示,請計算5年的平均增長速度。數據文件為“動態數列分析.xlsx”的“平均增長速度2”工作表。圖4-72某公司2011—2015年固定資產投資額環比增長速度資料表數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第67頁。正確解法是:先利用環比增長速度計算環比發展速度,再利用環比發展速度計算平均發展速度,再用平均發展速度減1即可,如圖4-73所示。圖4-73計算環比增長速度數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第68頁。4.3.2同期平均法預測總體隨著季節的變動而引起的比較有規則的波動叫作季節變動。除了由季節變動引起的數據波動外,還有可能由月份引起的數據波動,對于這類數據的分析,我們常用同期平均法。同期平均法就是先根據動態數列求出同期(季或月)平均數,再計算各期的季節指數,最后根據季節指數預測下一期的數據。具體的計算過程為:(1)先根據歷年(3年以上)資料求出同期(季或月)平均數;(2)求季節指數=×100%;(3)計算各期的預測值=上年的平均水平×各期的季節指數。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第69頁。例:某商場2012—2015年4年每月的空調銷售量資料如圖4-74所示,用同期平均法計算各月的季節指數,并預測2016年每月的銷售量。數據文件為“動態數列分析.xlsx”中的“同期平均法”工作表。圖4-74某商場空調銷售量資料數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第70頁。4.3.3移動平均趨勢剔除法預測如果動態數列的發展水平既有規律性的季節變化,又有明顯的長期趨勢,最好采用移動平均趨勢剔除法,排除不規則變動等因素的影響,使數據分析更合理、更準確。例:某企業5年來各季節銷售資料如圖4-79所示,用移動平均剔除法計算季節指數,并根據季節指數預測2016年各季度的銷量。數據文件為“動態數列分析.xlsx”的“趨勢剔除法”工作表。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第71頁。圖4-79各季節的銷售資料圖4-80銷量散點圖數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第72頁。圖4-81計算四項移動平均數及其正位平均數圖4-82計算趨勢值數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第73頁。圖4-83計算季平均數圖4-84計算總平均數和季節指數數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第74頁。圖4-85預測結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第75頁。4.4相關分析與回歸分析4.4.1相關分析相關分析是研究兩個或兩個以上變量之間相關程度及大小的一種統計方法,其目的是揭示現象之間是否存在相關關系,并確定相關關系的性質、方向和密切程度。1.相關圖對兩個變量進行相關分析,最常見的方法就是以這兩個變量的值為坐標(x,y),在直角坐標系中繪制成散點圖,此時的散點圖亦稱“相關圖”,如圖4-86所示。圖4-86相關圖(散點圖)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第76頁。利用相關圖,可以直觀、形象地表現變量之間的相互關系。(1)散點分布大致呈一條直線,稱二者線性相關,如圖4-87所示。(2)散點分布大致呈一條曲線,稱二者曲線相關,如圖4-88所示。(3)散點分布雜亂無章,稱二者不相關,如圖4-89所示。(4)當一個變量增加,另一個變量也呈增加的態勢,稱二者正相關,如圖4-87(a)所示。(5)當一個變量增加,另一個變量反而呈減少的態勢,則稱二者負相關,如圖4-87(b)所示。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第77頁。圖4-87線性相關圖4-88曲線相關圖4-89不相關數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第78頁。2.線性相關與相關系數當兩個變量線性相關時,用相關系數r表示兩個變量x和y之間的相關方向和密切程度。在數學上,相關系數相關系數的取值范圍為|r|≤1。|r|越接近于1,說明散點圖上的點越集中在某一直線附近,兩個變量之間的直線相關密切程度就越高;|r|越接近于0,則直線相關密切程度就越低。

數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第79頁。在實際應用中,利用相關系數來判斷直線相關密切程度的一般標準為:

當|r|=0時,說明兩個變量之間不存在直線相關關系;

當0<|r|≤0.3時,認為兩個變量之間存在微弱直線相關;

當0.3<|r|≤0.5時,認為兩個變量之間存在低度直線相關;

當0.5<|r|≤0.8時,認為兩個變量之間存在顯著直線相關;

當0.8<|r|<1時,認為兩個變量之間存在高度直線相關;

當|r|=1時,說明兩個變量之間存在完全直線相關關系,即成直線函數關系;

當相關系數r很小甚至為零時,只能說明變量之間不存在直線相關,而不能說明它們不存在相關關系。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第80頁。3.相關系數的計算在Excel中,有兩種常用方法可以計算相關系數,那就是correl函數和“數據分析”之“相關系數”。(1)correl函數例1:調查××小區超市的年銷售額(百萬元)與小區常住人口數(萬人)的數據資料如圖4-90所示,請分析超市的年銷售額與小區常住人口數的相關關系。數據文件見工作簿“相關與回歸分析.xlsx”的“相關系數1”工作表。(2)“數據分析”之“相關系數”例2:利用“數據分析”之“相關系數”來計算例1中“年銷售額”與“小區常住人口數”的相關系數。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第81頁。圖4-90超市年銷售額與小區人數圖4-91correl函數參數設置數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第82頁。例3:調查××市多家大型超市的月售量(百萬元)與超市面積大小(百平方米)、本月的促銷費用(萬元)、所在地理位置(1表示市區一類地段用、2表示市區二類地段用、3表示市區三類地段)的數據如圖4-95所示,請計算各變量之間的相關系數。數據文件為工作簿“相關與回歸分析.xlsx”中“相關系數2”工作表。圖4-95超市月銷售額調查表數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第83頁。圖4-96設置“相關系數”對話框圖4-97銷售額、賣場面積、月促銷費、地理位置相關系數表數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第84頁。4.4.2回歸分析回歸分析是確定兩個或兩個以上變量間相互依賴的定量關系的一種統計分析方法。回歸分析按照涉及的變量多少,分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。1.最小二乘法原理回歸分析法的基本思路是:當數據分布在一條直線(或曲線)附近時,找出一條最佳的直線(或曲線)來模擬它。當所有點到該直線的豎直距離的平方和∑(y-y′)2最小時,得到的直線(或曲線)最佳,如圖4-98所示。這就是最小二乘法原理(二乘就是平方)。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第85頁。歸根結底,回歸分析法就是根據最小二乘法原理,將變量之間的關系模擬成一個數學方程(也叫回歸方程,或趨勢線方程),以此來推斷變量之間的關系的一種統計方法,所以回歸分析法也叫數學模型法。圖4-98最小二乘法原理數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第86頁。2.決定系數當變量之間的關系可以用一個數學模型來模擬時,我們用決定系數(R2)判定數學模型擬合效果的好壞。在數學上,決定系數

(y是實際值,y′是模擬值)。決定系數R2越接近于1,說明數學模型的模擬效果越好。對于一元線性回歸來說,r2=R2。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第87頁。3.利用Excel回歸分析工具進行回歸分析(1)一元線性回歸如果在回歸分析中只包括一個因變量和一個自變量,且二者的關系可用函數y=kx+b來模擬,這種回歸分析稱為一元線性回歸分析。圖4-99“數據分析”之“回歸”數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第88頁。圖4-100回歸設置圖4-101回歸結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第89頁。回歸結果中第一組數據的前3個數據分別為:MultipleR(相關系數)、RSquare(決定系數)、AdjustedRSquare(校正決定系數),都用于反映模型的擬合度;第4個數據是標準誤差,反映擬合平均數對實際平均數的變異程度;第5個數據為觀測值(數據的個數)。第三組數據的第1個數據(301.665)是回歸直線的截距b,第2個數據(44.797)也叫回歸系數,其實就是回歸直線的斜率k。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第90頁。(2)多元線性回歸如果在回歸分析中包括一個因變量和多個自變量,且因變量和自變量的關系可用函數y=k1x1+k2x2+…+knxn+b來模擬,這種回歸分析稱為多元線性回歸分析。事實上,一種現象常常與多個因素相關,所以,由多個自變量的最優組合來估計和預測因變量,比只用一個自變量進行估計和預測更有效、更有實際意義。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第91頁。例2:用回歸分析法分析上一小節例3中超市的銷量與超市的面積大小、促銷費用、所在地理位置的關系,并根據回歸方程預測一家在二類地段、面積為1000平方米、月促銷費5萬元的超市月銷售額將會是多少。數據文件為工作簿“相關與回歸分析.xlsx”中“多元線性回歸”工作表。圖4-102回歸設置圖4-103回歸結果數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第92頁。4.利用Excel散點圖和趨勢線進行回歸分析對于初學者,我們還是建議大家用“先插入散點圖,再添加趨勢線”的方法求趨勢線方程、相關系數和決定系數,最后根據決定系數的大小判定模擬效果的好壞,并根據趨勢線方程做數據預測。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第93頁。例3:利用散點圖求上一小節例1中“超市年銷售額”和“小區人數”的回歸方程,“超市年銷售額”為因變量y,“小區人數”為自變量x。數據文件為工作簿“相關與回歸分析.xlsx”中的“直線模型”工作表。(1)插入散點圖。(2)添加趨勢線。圖4-104散點圖圖4-105編輯數據源數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第94頁。圖4-106修改數據系列圖4-107修改后的散點圖數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第95頁。圖4-108添加趨勢線圖4-109設置趨勢線格式圖4-110趨勢線方程(直線)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第96頁。例4:將例3中的直線模型改成指數模型,操作如下。圖4-111修改趨勢線類型圖4-112趨勢線方程(指數函數)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第97頁。例5:已知2009—2015年淘寶“雙11”當天銷量統計如圖4-113所示,請利用散點圖模擬淘寶“雙11”的銷量變化規律,并預測2016年的銷量。數據文件為“相關與回歸分析.xlsx”的“拋物線模型”工作表。圖4-113淘寶“雙11”歷年銷量圖4-114淘寶銷量散點圖數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第98頁。利用回歸分析工具進行線性回歸的優缺點如下。①優點:可以進行一元線性回歸,也可以進行多元線性回歸。②缺點:只能進行線性回歸,不能直接進行非線性回歸。利用散點圖和趨勢線進行回歸分析的優缺點如下。①優點:不僅能進行線性回歸,還能進行非線性回歸。②缺點:只能進行一元回歸,不能進行多元回歸。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第99頁。圖4-115設置趨勢線格式圖4-116趨勢線方程(拋物線)數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第100頁。4.5綜合評價分析法綜合評價分析法是指運用多個指標對多個參評對象進行綜合評價的方法。綜合評價分析法的基本思想是將多個指標轉化為一個能夠反映綜合情況的指標來進行分析評價。例1:某學生某課程的平時成績為90分,期中考試成績為70分,期末考試成績為80分,那么任課老師最后就會根據學校的一貫要求,綜合考慮該學生的這3個成績,給出一個總評成績90×20%+70×30%+80×50%=79(分),這就是綜合評價分析法的具體應用。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第101頁。例2:某學校招聘3名數學老師,現有7名應聘者經過筆試、試講、面試3個環節,考核成績如圖4-117所示。若筆試成績、試講成績、面試成績的權重分別為40%、30%、20%。求各位應聘者的綜合評價得分,并求各應聘者的綜合排名,根據排名錄取前3名。數據文件為工作簿“綜合評價分析.xlsx”中的“綜合評價1”工作表。圖4-117應聘者考核成績圖4-118計算綜合得分和綜合排名數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第102頁。例3:在4.2例3中,我們曾經學習過如何計算高級程序員張三的各項素養的平均得分。現在已知該IT企業所有高級程序員的各項素養平均得分如圖4-119所示,請用綜合評價分析法計算各程序員的綜合得分(各項目的權重分別為15%、5%、20%、10%、20%、10%、5%、10%、5%),并根據綜合得分進行排序。數據文件為工作簿“綜合評價分析.xlsx”中的“綜合評價2”工作表。圖4-119所有高級程序員的各項素養平均得分數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第103頁。4.5.2權重的確定在應用綜合評價分析法中,為了保證評價的科學性,權重的確定必須合理。一般來說,權重的確定可以由專家直接指定,也就是說權重是給定的,如上述例1、例2、例3。如果權重沒有給定,可以取某一相關指標所占的比重作為權重。例1:某餐飲店本月擬對店內所有的菜品(50個)進行價格調整,部分數據的截圖如圖4-120所示,請運用綜合評價法對該餐飲店的價格與上月相比的變化做綜合分析。數據文件為工作簿“綜合評價分析.xlsx”中的“綜合評價3”工作表。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第104頁。圖4-120部分菜價調整情況圖4-121價格漲幅數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第105頁。圖4-122銷售額占比(權重)計算圖4-123綜合漲幅數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第106頁。4.5.3數據的標準化處理當我們處理的數據性質或單位不一致時,就要將數據進行標準化處理,去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權。標準化處理最典型的就是0-1標準法和Z標準法。在此介紹0-1標準化法。0-1標準化也叫離差標準化,是對原始數據進行線性變換,使結果落到[0,1]區間。做0-1標準化法時,對一列數據中某一個數據標準化的公式為:標準化值=,標準化處理使用的公式和效果如圖4-136所示。數據分析基礎課程-第4章--數據的分析全文共121頁,當前為第107頁。圖4-136數據0-1標準化處理數據分析基礎課程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論