大學信息技術基礎教程課件 第7章 大數據與數據可視化 7.1~7.2_第1頁
大學信息技術基礎教程課件 第7章 大數據與數據可視化 7.1~7.2_第2頁
大學信息技術基礎教程課件 第7章 大數據與數據可視化 7.1~7.2_第3頁
大學信息技術基礎教程課件 第7章 大數據與數據可視化 7.1~7.2_第4頁
大學信息技術基礎教程課件 第7章 大數據與數據可視化 7.1~7.2_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第7章大數據與數據可視化目錄頁contents7.1大數據基礎7.2數據獲取和清洗7.3數據處理與分析基礎7.4數據可視化12347.5綜合練習5選題背景及意義ONE7.1大數據基礎7.1.1大數據基本概念7.1.1大數據基本概念

圖靈獎得主,關系型數據庫鼻祖吉姆·格雷(JimGray)提出:大數據不僅僅是一種工具和技術,更是一種思維方式,是繼實驗歸納、模型推演、仿真模擬之后,發展和分離出來的一個獨特的科學研究范式。7.1.1大數據基本概念1.大數據定義研究機構Gartner定義麥肯錫全球研究所學者弗里蒙特·賴德(FremontRider)定義7.1.1大數據基本概念大數據的意義

價值涌現質量涌現隱私涌現安全涌現7.1.1大數據基本概念2.大數據特征(1)Volume(2)Variety(3)Value(4)Velocity(5)Veracity(6)完備性(7)置信度高(8)多維度7.1.1大數據基本概念3.大數據的研究目標(1)實現從數據到智慧的升華(2)提供決策支持(3)商業應用(4)提供數據生態系統7.1.2大數據支撐技術7.1.2大數據支撐技術1.統計學簡介(1)分析對象從隨機樣本變成全體數據(2)追求目標從精確性變成混雜性(3)思維方式從關注因果關系轉化為關注相關關系7.1.2大數據支撐技術7.1.2大數據支撐技術2.機器學習簡介機器學習深度學習7.1.2大數據支撐技術7.1.2大數據支撐技術3.數據可視化簡介查爾斯·約瑟夫·米納德繪制的《1812-1813對俄戰爭中法軍人力持續損失示意圖》,堪稱數據可視化的杰作。圖中用帶狀圖展示了拿破侖軍隊的人數變化,帶寬表示士兵數量,一毫米代表一萬人。顏色區分行軍方向,黃色代表向莫斯科進軍,黑色代表撤退。圖中還包含溫度線圖,示意當時下降的溫度。通過這張圖,觀眾可以直觀地感受到拿破侖的40萬大軍如何在長途跋涉和嚴寒中逐步潰散。7.1.2大數據支撐技術7.1.2大數據支撐技術3.數據可視化簡介約翰·斯諾醫生通過一系列細致的調查和分析,確定了1854年倫敦霍亂爆發的源頭。他首先在地圖上標記了所有霍亂病例的居住地,發現大多數病例都集中在布羅德街的一個水泵附近。進一步調查發現,這個水泵的水源來自被污染的河流。斯諾還注意到,一些沒有飲用這個水泵水的人,如一家啤酒廠的工人,幾乎沒有感染霍亂。這些發現讓他確信霍亂是通過被污染的水傳播的。7.1.2大數據支撐技術7.1.2大數據支撐技術3.數據可視化簡介南丁格爾玫瑰圖,又稱雞冠花圖,是弗羅倫斯·南丁格爾在19世紀克里米亞戰爭期間發明的一種數據可視化工具。7.1.2大數據支撐技術7.1.2大數據支撐技術3.數據可視化簡介7.1.2大數據支撐技術7.1.2大數據支撐技術3.數據可視化簡介7.1.2大數據支撐技術7.1.2大數據支撐技術4.大數據分析與計算工具(1)數據科學語言工具(2)NoSQL數據庫工具(3)傳統數據庫和數據倉庫工具:(4)大數據計算支持工具(5)大數據管理、存儲和查詢工具(6)數據采集、聚合或傳遞工具(7)數據挖掘工具(8)數據可視化工具(9)統計分析工具TWO7.2數據獲取和清洗7.2.1數據獲取概述1.數據來源2.常用數據集(1)政府開放數據(2)企業或公益組織(3)大數據競賽機構(4)機器學習領域經典數據集(5)統計學領域經典數據集(6)其他7.2.2網頁信息爬取1.網絡爬蟲概述2.HTTP架構簡述3.Python網頁爬取和處理4.API利用和數據存儲5.法律和倫理考量7.2.3數據清洗和加工1、數據清洗(1)數據審查(DataAuditing)(2)數據清洗(DataCleaning)(3)數據驗證(DataValidation)(4)數據維護(DataMaintenance)(5)文檔記錄(Documentation)(6)反饋循環(FeedbackLoop)7.2.3數據清洗和加工2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論