《財務大數據基礎》課件 項目3-財務大數據清洗_第1頁
《財務大數據基礎》課件 項目3-財務大數據清洗_第2頁
《財務大數據基礎》課件 項目3-財務大數據清洗_第3頁
《財務大數據基礎》課件 項目3-財務大數據清洗_第4頁
《財務大數據基礎》課件 項目3-財務大數據清洗_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

財務大數據基礎數據采集內容回顧數據采集調查問卷的要素和注意事項同時采集多個Excel文件多家上市公司財務數據的采集調查問卷采集EXCEL文件采集Web文件采集項目二回顧項目二展示

任務實施多網頁采集——同學上臺登錄網易財經網站,爬取任意板塊股票3家企業的財務數據。項目三

財務大數據清洗任務一數據清洗認知任務二數據類型規范任務三

數據清洗30招任務四

數據清洗運用任務五項目實訓(PowerBI數據清洗)任務一數據清洗認知

數據清洗概念數據清洗:重新檢查和驗證數據的過程,旨在刪除重復信息,糾正現有錯誤并提供數據一致性。臟數據高質量數據任務一數據清洗認知

數據清洗作用數據搬運工?EXCEL四步曲獲取數據匯總數據(表格)數據透視表分析趨勢及原因任務一數據清洗認知

數據清洗作用80%數據處理80%數據分析處理的數據量較大(千萬);最小的處理單元是行和列(批量處理思維);有操作過程記錄(關鍵)任務一數據清洗認知

數據清洗——PowerBIPowerBI采集的數據是從多個渠道抽取而來原始數據,避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。任務一數據清洗認知PowerQuery介紹

PowerQuery是微軟的數據連接和數據準備技術,使業務用戶能夠無縫訪問存儲在數百個數據源中的數據,并通過易于使用、引人入勝且無代碼的用戶體驗來對其進行調整以適應他們的需求。任務一數據清洗認知

PowerQuery認知——進入PQPowerQuery入口如果還沒有任何數據,在PowerBIDesktop中,點擊獲取數據,選擇相應的數據格式導入后,就可以進入PowerQuery編輯器;如果已經導入數據,想再次進入查看或者編輯,可以點擊上圖中的“轉換數據”進入。任務一數據清洗認知

PowerQuery認知——PQ界面功能區包含“文件”“主頁”“轉換”“添加列”“視圖”“工具”。1.“文件”菜單:關閉并應用:關閉查詢編輯器并應用所做的更改。應用:應用所做的更改,但不關閉查詢編輯器。關閉:關閉查詢編輯器。保存:保存當前所做的更改。

2.“主頁”選項卡:提供常見的查詢功能。任務一數據清洗認知

PowerQuery界面——功能區3.“轉換”選項卡“轉換”選項卡提供了對數據的相關轉換操作。(原列)4.“添加列”選項卡“添加列”選項卡提供了各種添加列的功能。(新增列)任務一數據清洗認知

PowerQuery界面——功能區5.“視圖”選項卡“視圖”選項卡提供了查詢編輯器界面相關的選項設置。任務一數據清洗認知

PowerQuery界面——功能區任務一數據清洗認知

PowerQuery應用步驟區記錄了在PowerQuery的每一步操作,主要作用是可以對操作的步驟進行刪除和修改。PowerQuery界面——應用步驟區任務一數據清洗認知(1)可以修改之前的操作,其中帶有設置標記“齒輪”的,都是可以更改的。(2)可以刪除某一個步驟。單擊步驟旁邊的“×”按鈕,就可以刪除該步驟。(3)可以移動步驟,互換順序。在進行這個操作時,需要注意前后操作可能出現的沖突。(4)這個“應用的步驟”面板復制了我們的操作,當更新數據后,只需要單擊“刷新”按鈕,所有的步驟都會從頭到尾全自動化地操作一遍,不再需要做重復的工作。PowerQuery界面——應用步驟區

數據類型殘缺數據——空值——刪除、替換或補充錯誤數據——異常值——刪除或補全重復數據——刪除任務二數據類型規范

數據類型任務二數據類型規范“視圖”選項卡——數據概覽任務二數據類型規范

數據清洗第1招——提升標題任務二數據類型規范

數據清洗第2招——行列操作刪除列刪除行任務二數據類型規范

數據清洗第3招——更改數據類型任務二數據類型規范

數據清洗第3招——更改數據類型小數定點小數整數百分比數值日期/時間日期時間日期/時間/時區持續時間日期文本True/False二進制文本任務二數據類型規范

數據清洗第4招——檢測數據類型任務實施

每位同學使用PowerBI軟件對老師發給大家的“資產負債表1”

進行處理。任務二數據類型規范

任務二數據類型規范

維度:一種“屬性、范圍、系數、承受能力”意思的包涵。在不同的對象指代不同的意思。——百度漢語一維表與二維表任務二數據類型規范一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數值的。一維表與二維表一維表二維表任務二數據類型規范一維表與二維表一維表是符合數據庫設計規范,數據豐富詳實,適合做流水賬,方便存儲,有利于做統計分析;二維表特點是明確直觀,適合打印、匯報。哪一種類型的表格適合作為源數據進行數據分析?字段——列為單位屬性一維表——數據分析任務二數據類型規范

數據清洗第5招——逆透視逆透視列的逆透視,是把二維表轉換到一維表的過程將表中的列換成了值透視任務二數據類型規范任務實施

同學在新浪財經網址上采集一家公司的資產負債表,并將采集到的數據轉換為一維表。網址如下:/corp/go.php/vFD_BalanceSheet/stockid/002269/ctrl/2020/displaytype/4.phtml采集不同公司或年度的數據只需替換上述網址中的股票代碼或年份即可。

數據類型殘缺數據——空值——刪除、替換或補充錯誤數據——異常值——刪除或補全重復數據——刪除課前回顧一維表:僅靠單行就能鎖定全部信息。二維表:需要行和列來定位數值的。

通過處理“資產負債表2”

復習清洗小招數:課前回顧第1招——提升標題第2招——逆透視第3招——替換值第4招——檢測并更改數據類型第5招——刪除錯誤/空值任務二數據類型規范

數據清洗第6招——替換值“–”替換為“0”任務二數據類型規范

數據清洗第7招——刪除錯誤/空值右鍵刪除錯誤篩選-去掉null勾選任務三數據清洗30招數據清洗運用場景討論:假如你是某公司數據分析人員,表格中存在哪些數據問題?任務三數據清洗30招數據清洗運用場景任務三數據清洗30招

1匯總文件夾數據2第一行用作標題3篩選刪除重復表頭4刪除列5刪除重復項目6刪除空白項目7數據格式調整8檢測數據類型9替換10填充11移動12拆分13重命名14提取分隔符之前的文本15修整格式16格式-首字母大寫17排序18逆透視(余下了解)19條件列20索引列21重復列22

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論