數據采集與處理 課件 任務1 數據整_第1頁
數據采集與處理 課件 任務1 數據整_第2頁
數據采集與處理 課件 任務1 數據整_第3頁
數據采集與處理 課件 任務1 數據整_第4頁
數據采集與處理 課件 任務1 數據整_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目三數據預處理認知任務1認知數據整理任務導入請對上述數據進行整理,并說出某電商平臺60個店鋪銷售方面有哪些數據特征。—、數據整理的概念和意義(一)數據整理的概念數據整理:是指根據數據采集與處理的目的和任務,對數據采集、觀察、實驗等研究活動中所采集到的資料進行檢驗、歸類編碼和數字編碼,使之條理化、系統化,從而以集中、簡明的方式反映所研究數據采集對象特征的工作過程。—、數據整理的概念和意義為什么要進行數據整理?數據采集所取得的原始資料或二手資料是反映數據采集對象各個單位的資料,這些資料往往是不系統的、分散的,可能有一定的局限性,因此,必須進行相應的整理。

例如,從某網店平臺上采集到的購買者資料,只能說明每一個人的個別情況,諸如每個人的姓名、性別、文化程度、職業、愛好等,難以構建職業、性別等與購買商品之間的關系。因此,必須通過對大量購買者的資料進行整理、分組、匯總等加工處理,才能得到數據采集對象的綜合特征資料,從而了解數據采集對象的職業、性別、年齡等對購買行為的影響,實現對購買者全面系統的認識。—、數據整理的概念和意義(二)數據整理的意義1.能夠挖掘數據的特征,提高數據信息的質量,實現數據系統化、有序化。2.數據整理是檢驗數據質量的關鍵環節,也為后續的數據分析提供必要的數據形式。二、數據整理的步驟(一)設計數據整理方案數據整理方案的主要內容一般包括:確定匯總的核心指標與綜合數據處理表,確定數據分組方案,選擇資料匯總形式,確定資料審查的內容與方法,以及對整理各工作環節做出時間安排和先后順序安排等。(二)對原始資料或次級資料進行審核資料的審核是數據處理工作的第一步,為了保證數據資料的質量,在對原始資料或次級資料進行匯總之前,必須對其進行審核,以便發現向題及時糾正,只有經過認真審核后的資料才能進行匯總。二、數據整理的步驟(三)對原始資料進行分組和匯總根據數據整理的要求,采用科學的方法對原始資料進行數據分組,在此基礎上進行匯總,計算出各組的數據采集對象單位數和合計數,匯總出各組的指標數值和綜合指標數值。(四)編制數據分組表或繪制數據透視圖數據整理的結果,必須用一定的方式呈現出來。數據分組表和數據透視圖是表現數據的兩種主要方式。通過數據分組表或透視圖表現數據,能夠簡潔、清晰的反映數據特征,便于數據運用。三、數據的審核(一)數據審核的內容1.數據的真實性審核資料的真實性審核主要是審核資料來源的客觀性問題,數據資料來源必須是客觀的。數據準確性審核的方法主要是邏輯審核和計算審核,把那些違背常理的、前后矛盾的資料舍去,對于不準確或有疑問的數據,要仔細核對,并加以糾正。三、數據的審核(一)數據審核的內容2.資料的準確性審核準確的審核要著重檢查那些含糊不清的、籠籠統統的以及互相矛盾的資料。3.數據的及時性審核對數據及時性的審核就是檢查數據是否符合時效性的要求。4.數據的完整性審核對數據完整性的審核,主要是看被采集單位有無遺漏,各項數值的填寫是否齊全,項目是否完備等。對于有漏報的項目應補齊,否則影響整個數據整理工作的進行,進而影響整個數據處理工作。三、數據的審核(二)審核應注意的問題在審核中,如發現問題可以分不同的情況予以處理:1.對于在數據采集中已發現并經過認真核實后確認的錯誤,可以由采集者代為更正。2.對于資料中可疑之處或有錯誤與出入的地方,應進行補充調查。3.無法進行補充采集的應堅決剔除那些有錯誤的資料,以保證資料的真實準確。三、數據的審核(三)初級數據存在的問題通過各種渠道采集來的數據,常常出現缺失、異常、冗余、不一致的現象,并不能直接為數據分析所用。此外,一些成熟的數據分析模型對處理的數據有要求,比如一定的數據類型、統一的數據量綱以及數據冗余性要求、屬性的相關性要求等。因此,必須對原始數據進行處理才能進行分析。具體來說,原始數據主要存在以下幾個問題:三、數據的審核(三)初級數據存在的問題1.重復數據。重復數據是指在數據表中唯一標識記錄的字段出現多次的數據。2.缺失數據。缺失數據是指在實踐過程中因沒有能夠獲取觀測對象的相關信息而不完整的數據。例如,在抽樣數據采集中,被數據采集對象拒絕提供相關信息;又如某些實驗中,因各種原因沒能獲取實驗數據,或者數據錄入、存儲過程中的人為失誤和系統軟硬件問題,都有可能造成數據缺失。缺失數據會影響分析結果的可信度,甚至使分析結果出現嚴重偏差。三、數據的審核(三)初級數據存在的問題3.異常值。異常值是指所獲得的數據中與平均值的偏差超過兩倍標準差的數據,也稱為離群點。例如,錄入數據時誤將90錄入為900,那么當數據均為100左右的數據時,900就會被識別為異常值。異常值的存在會嚴重影響數據分析的結果,例如使平均值偏高或偏低,使方差增大,影響數據模型的擬合優度等。此外,若異常值不是錯誤數據,就應是數據分析人員關注的焦點。三、數據的審核(三)初級數據存在的問題5.不一致數。不一致數據一般表現為以下三個方面:一是人工或機械原因導致的錄入錯誤或數據規范不同。例如將數據集中的“客單價”錄入為“-150”;又如變量名“用戶編碼”下,某數據的規范是“3位/數字”,在另一數據集中則要求“5位/字母+數字”。二是變量單位或者量綱不匹配。例如,某數據集中的商品價格以“元”為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論