




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
電子商務數據分析基礎模塊三數據分類與處理CONTENT目錄單元一認識數據分類與處理單元二分類統計單元三數據處理單元四數據計算單元三數據處理引導案例某電器官方旗艦店于2022年8月份參加了一期聚劃算活動,因折扣力度大,推廣效果極好。活動結束后,該企業將后臺銷售數據導出,交給數據分析部門,進行此次活動的效果追蹤評價。數據分析師拿到數據經過整理后,發現該源數據存在如圖所示的質量問題。引導案例為了保證數據分析結果的準確性,數據分析師先對該源數據進行了處理,修正了錯誤數據,統一了日期格式,處理了缺失內容,又將混雜在一起的數據分開,為之后的數據計算和數據分析做好了準備。結合案例,思考并回答以下問題:(1)在圖3-22中,處理完成后的數據是怎樣的?(2)在電商運營中,除了案例中存在的數據質量問題,還需要進行哪些問題的數據處理?單元三數據處理一、數據清洗數據清洗是指將數據表中多余、重復的數據篩選出來并刪除,將缺失、不完整的數據補充完整,將內容、格式錯誤的數據糾正或剔除的操作行為。數據清洗是對數據進行重新審查和校驗的過程,目的在于提升數據的質量,確保數據的準確性、完整性和一致性。缺失值清洗格式內容清洗邏輯錯誤清洗重復數據清洗無價值數據清洗單元三數據處理缺失值清洗數據集中某個或某些屬性的值是不完整的。缺失值產生的原因有些信息無法獲取,如在收集顧客婚姻狀況和工作信息時,未婚人士的配偶、未成年兒童的工作單位等都是無法獲取的信息。數據收集或者保存失敗造成數據缺失,如數據存儲的失敗、存儲器損壞、機械故障等。人為原因導致的某些信息被遺漏或刪除。單元三數據處理空值清洗打開原始數據表格,選中數據區域,在“開始”選項卡下的“編輯”功能組中單擊“查找和選擇”按鈕,點擊“定位條件”命令,在彈出的“定位條件”對話框中選中“空值”,點擊“確定”后,所有的空值即可被一次性選中。1單元三數據處理定位到空白值后,可以選擇“數據補齊”、“刪除記錄”或者“不處理”。如需數據補齊,則直接輸入需要補充的內容,按“Ctrl+Enter”組合鍵,進行批量填充。2單元三數據處理知識鏈接處理缺失值的三種方法:(1)數據補齊。即使用某個統計指標填充缺失數據,如該變量的樣本平均值等。(2)刪除記錄。將有缺失值的記錄刪掉,但這樣會導致樣本量減少,數據量較少時應謹慎使用。(3)不處理。樣本較少時,或者該數據缺失屬正常情況時,不做處理。單元三數據處理錯誤標識符清洗######DIV/0!單元格中的數據超出了該單元格的寬度,或者單元格中的日期時間公式產生了一個負值進行公式運算時除數使用了數值零、指向了空單元格或包含零值單元格的引用如圖,由于2022年7月5日所采購的商品還未采集到因不合格而產生退貨的數量,因此在計算退貨率時,發生了“#VALUE!”的錯誤。單元三數據處理將鼠標定位在出現“I12”單元格中,在公式編輯欄中,修改原公式“=H12/E12”為“=IFERROR(H12/E12,"/")”1單元三數據處理確認輸入后,“I12”單元格中的“#VALUE!”被修改為“/”,然后拖動“I12”單元格的填充柄,將其他發生錯誤的單元格進行填充修改2單元三數據處理格式內容清洗由于系統導出渠道或人為輸入習慣的原因,整合而來的原始數據往往不能做到格式統一,內容上也容易出現空格。“訂單創建時間”列出現了四種不同的表達方式,“物流公司”列的字符前面或中間存在空格,需要將其修正。單元三數據處理選中“訂單創建時間”整列,右擊打開彈出式菜單,單擊“設置單元格格式”選項,在彈出的“設置單元格格式”對話框中,選擇“數字”選項卡,單擊“日期”,將其類型修改為如圖所示的樣式。單擊“確定”完成。1單元三數據處理“物流公司”列數據中的空格可以使用“替換”一次性批量去除。選中數據區域,在“開始”選項卡下的“編輯”功能組中單擊“查找和替換”按鈕,單擊“替換”命令,在“查找內容”中輸入一個空格,在“替換為”中不輸入任何內容,單擊“全部替換”即可全部刪除表格中的空格。2單元三數據處理邏輯錯誤清洗違反邏輯規律的要求和邏輯規則而產生的錯誤,一般使用邏輯推理就可以發現問題。123數據不合理數據自相矛盾數據不符合規則如客戶年齡500歲,或者消費金額為-100元,明顯不符合客觀事實。如客戶的出生年份是1980年,但年齡卻顯示18歲。如限購1件的商品,客戶的購買數量卻為3件。單元三數據處理“多彩橡皮泥套盒”商品的訂單表單元三數據處理由于該商品限購1件,因此需要將“購買數量”大于1的記錄標注出來。選中“購買數量”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規格”—“大于”,在彈出的“大于”對話框中,填入數值“1”,單擊“確定”,即可將錯誤數據標注出來。1單元三數據處理同理,條件格式選擇“小于”即可將“買家實際支付金額”列的錯誤數據標注出來。2單元三數據處理“簽收時間”應晚于“訂單創建時間”,否則該條記錄便屬于異常。選中“簽收時間”列,選擇“開始”選項卡—“樣式”功能組—“條件格式”—“突出顯示單元格規格”—“其他規則”,在彈出的“新建格式規則”對話框中,選擇規則類型“使用公式確定要設置格式的單元格”,編輯規則為“=$M1<$J1”,設置格式為背景色黃色,單擊“確定”,即可將錯誤數據標注出來。3單元三數據處理重復數據清洗就是數據被重復、多次記錄。重復數據會影響數據處理結果的正確性,從而導致數據分析出現偏差,因此需要將其刪除。某店鋪類目結構月表單元三數據處理選中工作表中的數據區域,在“數據”選項卡下的“數據工具”功能組中,單擊“刪除重復項”,在彈出的“刪除重復項”對話框中,選擇要刪除的列,注意“統計日期”、“一級類目”、“二級類目”、“葉子類目”應同時選中,否則會產生誤刪。1單元三數據處理單擊“確定”按鈕完成重復項刪除,Excel將顯示一條消息,指出有多少重復值被刪除,多少唯一值被保留。2單元三數據處理無價值數據清洗是指對本次數據統計或數據分析沒有產生作用的數據,直接刪除對應的字段即可。但在通常情況下,并不建議刪除。如果數據表過大,在匯報展示時用不到又影響操作,可以考慮備份后將其刪除。單元三數據處理二、數據轉化數據轉化是數據處理的前期準備,包括數據表的行列互換、文本數據提煉、數據類型的轉換等。數據表的行列互換打開Excel數據表,選中目標內容,按住“Ctrl+C”組合鍵進行復制。1單元三數據處理選中要進行數據復制的單元格,點擊“開始”選項卡,在“剪貼板”功能組中單擊“粘貼”——“轉置”按鈕,即可讓選中的內容進行行列互換,得到新數據表。2單元三數據處理使用鍵盤快捷方式,按“Ctrl+Alt+V”組合鍵,會彈出如圖所示的“選擇性粘貼”對話框,勾選“轉置”復選框,即可實現轉置粘貼。單元三數據處理文本數據提煉在導入文本數據時,有時多項數據會顯示在同一單元格中,需要對數據進行提煉,使相同屬性的數據位于同一列中。單元三數據處理文本數據的提煉涉及到文本函數的運用LEFT函數,用于獲取字符串左邊指定個數的字符LEFT函數的語法為:=LEFT(text,[num_chars]),其中text為要取得給定值的文本數據源,num_chars表示需要從左開始算提取幾個字符數,其中每個字符按1計數。RIGHT函數,用于獲取字符串右邊指定個數的字符RIGHT函數的語法為:=RIGHT(text,num_chars),其中text為要取得給定值的文本數據源,num_chars表示需要從右開始算提取幾個字符數,其中每個字符按1計數。單元三數據處理MID函數,用于獲取字符串從指定位置開始指定個數的字符MID函數的語法為:=MID(text,start_num,num_chars),其中text為要取得給定值的文本數據源,start_num表示指定從第幾位開始提取,num_chars表示需要從指定位置開始算提取幾個字符數,其中每個字符按1計數。單元三數據處理將表格中的客戶姓名提煉出來,可以使用LEFT函數,選定客戶姓名要放置的單元格,單擊插入函數“fx”,選擇文本函數,從中選取LEFT函數,如圖。隨后分別輸入文本源和數值,如提取A1單元格中從左開始的5個字符數,如圖。點擊“確定”,完成姓名提取。1文本函數選取函數參數輸入姓名數據提煉單元三數據處理接下來完成電話號碼的提煉,選取文本函數中的MID函數,如圖。電話號碼是從第6位字符開始的,需要提取11位字符,輸入函數參數,如圖。單擊“確定”,即可完成電話號碼的提煉,如圖。2文本函數選取函數參數輸入姓名數據提煉單元三數據處理提取訂單號,選取文本函數中的RIGHT函數,訂單號為從右開始的18個字符,輸入函數參數,如圖。單擊“確定”,即可完成訂單號的提煉,如圖。3函數參數輸入訂單號提煉單元三數據處理數據類型的轉換數值轉字符在Excel輸入數據的時候,會默認使用數值型數據,若是數字超過11位長,會變成科學計數法,不利于查看數據在Excel中打開數據表,選擇要轉換的數字所在的單元格,隨后單擊“數據”選項卡中的“分列”按鈕,在文本分列向導中使用默認設置,連續單擊“下一步”,完成第1步和第2步的設置。1單元三數據處理進入文本分列向導第3步,單擊“列數據格式”下的“文本”,單擊“完成”,即可完成設置。2設置完成后,返回Excel數據表,數據前有小三角符號,代表已轉換成功。3單元三數據處理字符轉數值在進行數據統計時,有時獲取的原始數據是以文本字符形式展現的。雖然不影響數據展現,但無法進行計算。單元三數據處理參考數值轉文本字符的方法,但在第三步選擇“列數據格式”時,勾選“常規”,單擊“完成”,即可完成轉換。直接選中要轉換的數據列,點擊數據列前出現的提醒符號,在給出的選項中點擊“轉換為數據”,即可將文本型字符轉換為數值。單元三數據處理文本日期轉標準日期在Excel中打開數據列表,選中為文本格式的日期信息,隨后單擊“數據”選項卡中的“分列”。在文本分列向導中,使用默認設置,連續單擊“下一步”,完成第1步和第2步的設置,進入第3步后,在列數據格式選擇“日期”,在其下拉列表中選擇“YMD”選項,如圖。單擊“完成”后,即可完成標準日期的轉換,如圖。1設定列數據格式完成日期的轉換單元三數據處理轉換后的月份和日期都是單數顯示,想要轉換成雙數,可以打開“設置單元格格式”對話框,在設置頁面選擇分類為“自定義”,右面的類型設置為“yyyy-mm-dd”,設置完成后單擊“確定”按鈕,即可完成日期雙數的設置。2單元三數據處理上述案例中,如果需要將統計日期“2022年7月1日”的格式修改為“7/1/2022",其自定義類型應如何設置?單元三數據處理實訓專區3-2調取源數據3-2,對該表中C列數據進行文本提煉,并放置在相應屬性列中。單元三數據處理三、數據排序簡單排序簡單排序高級排序自定義排序針對單列數據進行的快速排序,即只有一個關鍵字段。圖是某網店無線端推廣的流量匯總表,下面以表中數據為例,采用從高到低(即降序)的方式,快速找到帶來訪客數最多的流量來源。單元三數據處理選中需要排序的列“訪客數”,在“數據”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,在彈出的“排序提醒”對話框中,選擇排序依據,這里選擇“擴展選定區域”。1單元三數據處理排序完成,即可得到該網店無線端推廣的效果排行情況,如圖。從表中數據可以得出,智鉆引流效果最好。2單元三數據處理高級排序“訪客數”從高到低排列引入第二關鍵字。即修改“某網店無線端推廣的流量匯總表”的排序條件為:按“訪客數”降序排列,在“訪客數”相同的情況下按“下單買家數”降序排列。單元三數據處理在“排序”對話框中,“主要關鍵字”選擇“訪客數”,“排序依據”選擇“數值”,“次序”選擇“降序”。1單元三數據處理單擊“添加條件”按鈕,新增“次要關鍵字”,設置參數為“下單買家數”、“數值”、“降序”,排序結果如圖。2單元三數據處理自定義排序在進行自定義排序時,必須先建立需要排序的自定義序列項目,然后才能根據設置的自定義序列對表格進行排序。以圖所示的數據表為例,對其按照“流量分類”進行排序。單元三數據處理選擇“文件”選項卡下的“選項”命令,彈出“Excel選項”對話框,在“高級”標簽下,找到“常規”欄目,單擊“編輯自定義列表”按鈕。1單元三數據處理在彈出的“自定義序列”對話框中,輸入序列,單擊“添加”按鈕,將其添加到自定義序列中,點擊“確定”按鈕完成。2單元三數據處理返回Excel文檔中,在“數據”選項卡下的“排序和篩選”功能組中單擊“降序”按鈕,彈出“排序”對話框,“主要關鍵字”選擇“來源分類”,“排序依據”選擇“數值”,“次序”選擇“自定義序列”。3單元三數據處理在彈出的“自定義序列”對話框中,選擇已經定義好的序列。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 早讀聲浪監控課件
- 2025通風安裝合同范本
- 2025【上海市房產轉讓代理服務合同】上海市房產交易合同示范文本
- 主題班會一分鐘的價值暨認真做好各科備考復習努力提高全科總分成績
- 2025租賃合同大全范文
- 制定有效的溝通策略方案計劃
- 小班情境創設與主題活動實施計劃
- 美麗鄉村振興規劃3
- 2025企業經營貸款借款擔保合同中英
- 【主題班會】莘莘學子心 難忘師恩情
- 國家糧食和物資儲備局直屬聯系單位招聘筆試真題2024
- 2025年河北省保定市徐水區中考一模語文試題(原卷版+解析版)
- 貿易術語及應用及試題及答案
- 淘寶網店轉讓合同范本
- 新疆維吾爾自治區普通高職(專科)單招政策解讀與報名課件
- 勞務派遣標書項目實施方案
- 我譯網面試題及答案
- 合伙經營機械合同范本
- 中國急性缺血性卒中診治指南(2023)解讀
- 2025年四川省成都高新區管委會員額制人才招聘80人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 老舊街區改造項目可行性研究報告
評論
0/150
提交評論