2023學年完整公開課版數據處理_第1頁
2023學年完整公開課版數據處理_第2頁
2023學年完整公開課版數據處理_第3頁
2023學年完整公開課版數據處理_第4頁
2023學年完整公開課版數據處理_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講教師:顧錦江江蘇經貿職業技術學院商務數據分析基礎數據處理商務數據分析報告的作用01何為數據處理01數據清洗02數據加工03數據抽樣04何為數據處理何為數據處理數據處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數據中抽取并推導出對于某些特定的人們來說是有價值、有意義的數據。數據處理貫穿于社會生產和社會生活的各個領域。數據處理技術的發展及其應用的廣度和深度,極大地影響著人類社會發展的進程。。處理數據數據處理的內容何為數據處理“三心二意”處理數據1.信心2.細心3.平常心4.誠意5.合意數據處理的步驟:第一步,數據清洗。顧名思義,數據清洗就是將多余的重復的數據篩選清除,將缺失的數據補充完整,將錯誤的數據糾正和刪除。第二步,數據加工。經過清洗后的數據,并不一定是我們想要的數據,所以,還要對數據字段進行信息提取、計算、分組、轉換等加工,讓它們變成我們想要的數據。數據清洗數據清洗數據清洗就是將格式錯誤的數據進行處理糾正,將錯誤的數據糾正或刪除,將缺失的數據補充完整,將重復多余的數據刪除缺失數據的處理檢查數據邏輯錯誤重復數據的處理數據一致性處理數據清洗——數據一致性處理通過統計調查收集上來的數據,經常會出現同一字段的數據格式不一致的問題,如下圖所示。這會直接影響后續的數據分析,所以必須對數據的格式做出一致性處理。數據清洗——重復數據的處理函數法1高級篩選法2條件格式法3數據透視表法4刪除重復數據5有幾種找出重復值的方法?數據清洗——缺失數據處理缺失值:缺失值是指數據集中某個或某些屬性的值是不完全的,這在數據分析中非常常見。表現形式:在數據表里,缺失值最常見的表現形式就是空值或者錯誤標識符。原因缺失值的產生原因多種多樣,主要分為機械原因和人為原因。機械原因是由于數據收集或保存失敗造成的數據缺失,人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數據缺失。查找缺失值的兩種方法:1.定位輸入2.查找替換數據清洗——缺失數據處理用一個統計模型計算出來的值去替代缺失值。常用的模型有回歸模型、判別模型等。2將所有缺失值的記錄刪除,不過可能會導致樣本量的減少。3將所有缺失值的記錄保留,僅在相應的分析中作必要的排除。當調查的樣本量較大,缺失值的數量又不是很多,而且變量之間也不存在高度相關的情況下,采用這種方法比較可行。4用一個樣本統計量的值替代缺失值。最典型的方法就是使用該變量的樣本平均值替代缺失值1處理缺失值的四種方法:當樣本量較大時,我們可以采用定位查找一次,選取樣本里所有的空值,再利用“Ctrl+Enter”快捷鍵在所有選中的單元格中一次性輸入樣本平均值。數據清洗——檢查數據邏輯錯誤數據錯誤的兩種形式:1.被調查者輸入的選項不符合要求。2.錄入錯誤公式密鑰:OR(logical,[logical2],…):至少一個參數為真,就返回TRUE。AND(logical,[logical2],…):所有參數全部為真,才返回TRUE。公式密鑰:IF(logical_test,value_if_true,val

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論