數據分析基礎課程之數據的處理_第1頁
數據分析基礎課程之數據的處理_第2頁
數據分析基礎課程之數據的處理_第3頁
數據分析基礎課程之數據的處理_第4頁
數據分析基礎課程之數據的處理_第5頁
已閱讀5頁,還剩34頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據分析基礎課程之數據的處理數據分析基礎課程之數據的處理第1頁3.1數據清洗數據清洗就是將格式錯誤數據進行處理糾正,將錯誤數據糾正或刪除,將缺失數據補充完整,將重復多出數據刪除。3.1.1數據一致性處理經過統計調查搜集上來數據,經常會出現同一字段數據格式不一致問題,如圖3-1所表示。這會直接影響后續數據分析,所以必須對數據格式做出一致性處理。圖3-1數據格式不一致資料數據分析基礎課程之數據的處理第2頁下面就以圖3-1所表示數據為例,將“身高”這個字段中數據去掉字符“cm”。打開Excel文件“數據處理.xlsx”,找到“數據清洗”工作表。把鼠標指針移到字母C上,當指針變成 時,單擊選擇C列,如圖3-2所表示。選擇“查找和選擇”|“替換”命令,如圖3-3所表示。4數據分析基礎課程之數據的處理第3頁圖3-2選擇C列圖3-3選擇“替換”命令數據分析基礎課程之數據的處理第4頁(3)在“查找和替換”對話框“查找內容”中輸入“cm”,設置“替換為”為空,單擊“全部替換”按鈕完成替換,如圖3-4所表示。替換后結果如圖3-5所表示。圖3-4輸入查找內容和替換內容圖3-5替換后結果數據分析基礎課程之數據的處理第5頁3.1.2缺失數據處理數據清單中,單元格假如出現空值,就認為數據存在缺失。缺失數據處理方法通常有以下3種:用樣本均值(或眾數、中位數)代替缺失值;將有缺失值統計刪除;保留該統計,在要用到該值做分析時,將其暫時刪除(最常見方法)。數據分析基礎課程之數據的處理第6頁首先來處理怎樣發覺缺失數據,僅靠眼睛來搜索缺失數據顯然是不現實,普通咱們用“定位條件”來查找缺失數據單元格。下面演示將“年紀”字段中空值均替換為“18”。選擇“年紀”所在E列。選擇“查找和選擇”|“定位條件”命令,如圖3-6所表示。在“定位條件”對話框中,選中“空值”單項選擇項,如圖3-7所表示。圖3-6選擇“定位條件”命令數據分析基礎課程之數據的處理第7頁圖3-7選擇定位條件“空值”(4)單擊“確定”按鈕后,E列全部空白單元格呈選中狀態,如圖3-8所表示。(5)輸入替換值“18”,按Ctrl+Enter組合鍵確認,結果如圖3-9所表示。圖3-8查找到全部空白單元格數據分析基礎課程之數據的處理第8頁圖3-9統一輸入新數據3.1.3刪除重復統計刪除重復統計操作極其簡單,只需單擊數據表任意位置,再單擊“數據”|“刪除重復項”按鈕即可,如圖3-10所表示。圖3-10刪除重復項數據分析基礎課程之數據的處理第9頁3.2數據加工數據加工伎倆主要有數據轉置、字段分列、字段匹配、數據抽取、數據計算。3.2.1數據轉置操作方法是:先復制好橫行數據,然后在粘貼時單擊“開始”|“剪貼板”組“粘貼”按鈕下面三角箭頭,單擊“轉置”按鈕即可,如圖3-11所表示。圖3-11轉置性粘貼數據分析基礎課程之數據的處理第10頁3.2.2字段分列選擇“字段分列”工作表A列數據,如圖3-12所表示。單擊“數據”|“分列”按鈕,如圖3-13所表示。圖3-12選擇A列數據分析基礎課程之數據的處理第11頁圖3-13數據分列(3)要將字段“姓名”中第一個字分列出來,所以選中“固定列寬”單項選擇項,如圖3-14所表示。圖3-14選中“固定列寬”單項選擇項數據分析基礎課程之數據的處理第12頁(4)單擊“下一步”按鈕,在刻度尺上單擊鼠標確定分列位置,如圖3-15所表示。(5)單擊“下一步”按鈕,確定目標區域起點單元格D1,如圖3-16所表示。圖3-15確定分列位置數據分析基礎課程之數據的處理第13頁圖3-16確定目標區域(6)單擊“完成”按鈕,分列結果如圖3-17所表示。圖3-17分列結果數據分析基礎課程之數據的處理第14頁3.2.3字段匹配字段匹配就是將原數據清單中沒有但其它數據清單中有字段匹配過來。比如,文件“數據處理.xlsx”中“全校名單”工作表是某校級全體學生基礎信息(見圖3-18),“四級名單”工作表是級學生中報考了英語四級學生名單(見圖3-19)。圖3-18“全校名單”工作表數據分析基礎課程之數據的處理第15頁圖3-19“四級名單”工作表(1)將“白有成”身份證號碼匹配到單元格D2。(2)雙擊D2填充柄完成填充,將全部些人身份證號碼都匹配過來,結果如圖3-21所表示。圖3-20

vlookup函數參數設置數據分析基礎課程之數據的處理第16頁圖3-21匹配結果3.2.4數據抽取數據抽取是指利用原數據清單中一些字段個別信息得到一個新字段。常見數據抽取函數有left()、right()、mid()、year()、month()、day()、weekday()。圖3-22

weekday函數應用數據分析基礎課程之數據的處理第17頁3.2.5數據計算例1:文件“數據處理.xlsx”“數據計算1”工作表中只有“銷量”和“單價”,沒有“銷售額”,能夠經過公式“銷售額=單價×銷量”來計算銷售額,如圖3-23所表示。圖3-23計算銷售額數據分析基礎課程之數據的處理第18頁例2:文件“數據處理.xlsx”“數據計算2”工作表中只有“成交單數”和“好評單數”,能夠經過公式“好評率= ”來計算好評率,如圖3-24所表示。圖3-24計算好評率數據分析基礎課程之數據的處理第19頁例3:文件“數據處理.xlsx”“數據計算3”工作表中,已知商品“上架日期”和“下架日期”,能夠經過公式“銷售天數=下架日期-上架日期”來計算商品銷售天數,如圖3-25所表示。圖3-25計算銷售天數數據分析基礎課程之數據的處理第20頁例4:文件“數據處理.xlsx”“數據計算4”工作表中,已知商品“上架日期”,要計算迄今為止上架天數,能夠用函數today來獲取當日日期,用公式“=today()-B2”來計算上架天數,如圖3-26所表示。圖3-26計算上架天數數據分析基礎課程之數據的處理第21頁例5:文件“數據處理.xlsx”“數據計算3”工作表中,能夠用公式“=D2/360”計算銷售年數,結果為3.6,如圖3-27所表示。圖3-27計算銷售年數數據分析基礎課程之數據的處理第22頁這么計算出來年數通常是一個小數,假如希望得到整數,能夠用int函數取整,即用公式“=int(D2/360)”,結果是3,如圖3-28所表示。因為int函數功效是返回小于括號內參數整數。圖3-28用int函數取整數據分析基礎課程之數據的處理第23頁假如要進行四舍五入式取整,則要用函數round。當round(number,digits)函數第二個參數為0時,就能夠對第一個參數進行四舍五入式取整,所以在編輯欄將公式修改為“=round(D2/360,0)”即可,如圖3-29所表示。圖3-29用round函數取整數據分析基礎課程之數據的處理第24頁函數int(number)功效是向下取整(數軸上離左邊最近整數),如圖3-30所表示。圖3-30

int函數解釋數據分析基礎課程之數據的處理第25頁所以,int(6.4)=int(6.7)=6,int(-6.4)=int(-6.7)=-7。函數round(number,digits)功效是進行四舍五入運算,功效解釋如表3-1所表示。number數據分析基礎課程之數據的處理第26頁1263.472digits-2-1012四舍五入位數十位個位取整保留1位小數保留2位小數結果1300126012631263.51263.47表3-1

round函數解釋3.3數據修整在一段較長時間內,因為普通、連續、決定性等基礎原因作用,總體往往展現逐步向上或向下變動趨勢,如圖3-31所表示。圖3-31顯著向上趨勢數據分析基礎課程之數據的處理第27頁在這么趨勢中,也不排除受一些偶然原因或不規則原因影響,出現與整體趨勢相差很大極端數據,如圖3-32中箭頭所對應數據所表示。移動平均法就是從時間數列第一位數值開始,按

一定項數求平均數,逐項移動,形成一個新動態數列。常見移動平均法有三項移動平均法和四項移動平均法。圖3-32局部數據異動數據分析基礎課程之數據的處理第28頁3.3.1三項移動平均法例:計算圖3-33所表示表格中,商品銷售額三項移動平均數。分析:選擇單元格區域A1:B13,單擊“插入”|“散點圖”|“僅帶數據標識散點圖”按鈕,如圖3-34所表示。圖3-33—年銷售額統計數據分析基礎課程之數據的處理第29頁圖3-34插入散點圖結果得到圖3-35所表示散點圖,從散點圖能夠直觀地看出,第3個點顯著偏小,而第6個點顯著偏大,這可能是由不確定原因影響造成。在這種情況下,能夠經過移動平均法對數據做修整,盡可能排除不確定原因對數據造成影響。圖3-35原始數據散點圖數據分析基礎課程之數據的處理第30頁圖3-36選擇“平均值”命令圖3-37計算三項平均數數據分析基礎課程之數據的處理第31頁圖3-38計算三項移動平均數圖3-39修整后數據散點圖數據分析基礎課程之數據的處理第32頁3.3.2四項移動平均法例:計算圖3-40所表示表格中商品銷售額四項移動平均數。圖3-40四項移動平均數計算數據分析基礎課程之數據的處理第33頁下面在Excel中用函數average計算四項移動平均數。(1)打開文件“數據處理.xlsx”中“四項移動平均”工作表,在C3中使用公式“=average(B2:B5)”計算第一個四項移動平均數,如圖3-41所表示。(2)確認C3計算后,將C3填充柄填充到C11。圖3-41計算四項移動平均數數據分析基礎課程之數據的處理第34頁在D4中使用公式“=average(C3:C4)”,如圖3-42所表示。確認D4計算后,將D4填充柄填充到D11。注意:若采取奇數項移動平均,平均值對準居中原時間數列項數,一次可得趨勢值。若采取偶數項移動平均,平均值未對準居中原時間數列項數,需再經過一次移動平均進行正位。圖3-42計算四項移動平均正位數數據分析基礎課程之數據的處理第35頁3.3.3分析工具庫加載和應用在Excel中,還能夠用分析工具庫完成移動平均數計算。默認情況下,Excel并沒有安裝分析工具庫。下面介紹分析工具庫安裝過程。在Excel窗口中,選擇“文件”|“選項”命令。在隨即打開“Excel選項”對話框中,單擊左邊“加載項”選項后,再單擊下方“轉到”按鈕,如圖3-43所表示。圖3-43加載項數據分析基礎課程之數據的處理第36頁(3)在隨即打開“加載宏”對話框中,選中“分析工具庫”復選項,單擊“確定”按鈕,如圖3-44所表示。(4)加載成功后,會在”數據”選項卡中看到一個新功效“數據分析”,如圖3-45所表示。圖3-44加載“分析工具庫”數據分析基礎課程之數據的處理第37頁圖3-45加載成功后“數據”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論