人工智能與-大數據分析_第1頁
人工智能與-大數據分析_第2頁
人工智能與-大數據分析_第3頁
人工智能與-大數據分析_第4頁
人工智能與-大數據分析_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能與大數據分析目錄人工智能與大數據分析概述Python數據分析NumPy與Pandas簡介泰坦尼克號案例人工智能與大數據分析概述人工智能與大數據分析概述二十四節氣歌、朝霞不出門,晚霞行千里。對于一些簡單的自然現象,前人們通過歸納提取得出很多經驗知識。但是現代世界中有很多復雜問題,數據量極大,已經遠遠超出了人腦可處理的范圍。大數據分析是數學與計算機科學相結合的產物,在實用應用中,人們可以通過計算機工具和數學知識處理數據,得出結果作出判斷,以便采取適當行動。

人工智能與大數據分析概述數據(data)客觀事物未經加工的原始素材。包括文本、數字、音頻、圖像、視頻等等。大數據分析(dataanalysis)大數據分析是基于某種行業目的,有目的地進行收集,整理,加工和分析數據,

提煉有價值信息的一個過程。人工智能與大數據分析概述大數據分析是將數據轉化為知識/智慧的手段。數據原始素材信息有含義的數據知識對事物的正確理解和認識人工智能與大數據分析概述數據分析師常用工具PythonRSQLExcelSPSS人工智能與大數據分析概述大數據分析非常普遍,日常出行、購物、企業生產決策處處有數據分析。幾個實際的例子:沃爾瑪購物籃分析世界杯點球預測

UPS快遞——數據分析下的最佳行車路徑試衣間的數據分析應用阿里信用貸款和淘寶數據魔方

人工智能與大數據分析概述薩姆·沃爾頓將一個百貨商店沃爾瑪奇跡般地經營為全球最大的連鎖零售企業。早在1985年10月就被《福布斯》雜志列為全美富豪排行榜首位,連美國總統布什都贊揚他是地道的美國人,展現了企業創新精神,是美國夢的縮影…人工智能與大數據分析概述1983年,當一般零售商還在進行信息化建設的時候,沃爾瑪已經開始與休斯公司合作,花費了2400萬美元發射了一顆人造衛星,此后先后投入6億多美元建立起電腦與衛星系統,還發明了條形碼、無線掃描槍、計算機跟蹤存貨等技術。借助于整套的高科技信息網絡,沃爾瑪的各部門溝通、各業務流程可迅速、準確的運行,數據庫系統很快積累了海量的經營數據,包括大量的顧客消費行為記錄。人工智能與大數據分析概述圣誕節快要到來時,沃爾瑪的工作人員按照慣例籌備節日的營銷策略。這一次它們使用了一種新的購物籃分析的軟件,對海量的顧客消費行為進行分析,一個意外的發現讓人們瞠目結舌,跟尿布一起購買最多的商品竟然是啤酒!人工智能與大數據分析概述沃爾瑪派出市場調查人員和分析師對這一結果進行了深入研究,揭示了一條隱藏的在啤酒與尿布背后的美國人的一種行為模式:一些年齡在25-35歲的年輕父親下班后經常要去超市買嬰兒尿布,而他們中30%-40%的人會順手為自己購買幾瓶啤酒。人工智能與大數據分析概述沃爾瑪馬上采取行動,將賣場內原來相隔很遠的婦嬰用品與酒類飲料區的距離拉近。同時對這兩個產品的價格也做出調整,并向一次購買達到一定金額的顧客贈送嬰兒奶嘴以及其他小禮品,結果是尿布與啤酒的銷量雙雙大增。人工智能與大數據分析概述2006年世界杯上,阿根廷和德國在1/4決賽中120分鐘難分高下,在點球大戰開始之前,老門將卡恩將一張紙條遞到萊曼手中。結果是,萊曼所有點球都判斷對了方向,除了兩個點球質量太高無力回天外,其余全部撲出,阿根廷只能黯然出局。問題是,那張紙條上究竟寫了什么?人工智能與大數據分析概述上面記錄著阿根廷隊的克魯茲、阿亞拉、羅德里格斯以及坎比亞索習慣的腳法。德國隊守門員教練科普克如此精確的預測出阿根廷球員射出的點球方向,并不是他有什么過人的占卜天才。‘撲點球秘籍’來自于德國科隆體育學院數據分析小組夜以繼日的努力。

人工智能與大數據分析概述分析小組收集了阿根廷球隊13000個點球的錄像,并根據阿根廷射門練習的數據找出了一些可以描述射門動作的行為特征,比如“阿亞拉,短助跑,右下角;里克爾梅,斜上助跑,右下角;馬克西,長距離助跑,左上角…….”

這些行為特征描述了阿根廷隊誰罰點球、怎么罰點球的規律。最終從這些特征中提煉出更具體的特征,幫助德國隊獲得勝利。人工智能與大數據分析概述UPS(美國聯合包裹公司)是一家美國快遞公司,世界上最大的快遞承運商與包裹遞送公司。同時也是運輸、物流、資本與電子商務服務的領導性的提供者。人工智能與大數據分析概述UPS是一個充分利用數據分析技術帶來盈利和獎項的科技公司。UPS多效地利用了地理定位數據。為了使總部跟蹤到車輛的位置和預防引擎故障,它的貨車上裝有傳感器、無線適配器和GPS。人工智能與大數據分析概述這些設備方便了公司監督管理員工并優化行車線路。UPS為貨車定制的最佳行車路徑是根據過去的行車數據總結分析而來。2011年,UPS的駕駛員少跑了近4828萬公里的路程。人工智能與大數據分析概述普拉達(PRADA)是意大利奢侈品牌,由瑪麗奧·普拉達于1913年在意大利米蘭創建,當前全球最大的奢侈品牌之一。人工智能與大數據分析概述每件衣服上都有RFID碼,當顧客拿起衣服進試衣間時,衣服上的RFID會被自動識別,數據傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進試衣間停留多長時間,數據都被存儲起來加以分析。人工智能與大數據分析概述如果有一件衣服銷量很低,以往的作法是直接被廢棄掉。如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多。那就說明存在一些問題,衣服或許還有改進的余地。這項應用在提升消費者購物體驗的基礎上,PRADA還提升30%的銷售量。

人工智能與大數據分析概述中國最大的電子商務公司阿里巴巴(Alibaba)利用大數據的數據分析技術提供服務:阿里信用貸款與淘寶數據魔方。

人工智能與大數據分析概述

每天有數以萬計的交易在淘寶上進行。相應的交易時間、商品價格、購買數量會被記錄,同時這些信息可以與買方和賣方的年齡、性別、地址、甚至興趣愛好等個人特征信息相匹配。

人工智能與大數據分析概述

淘寶數據魔方就是淘寶平臺上的大數據應用方案。商家可以了解行業宏觀情況、品牌的市場狀況、消費者行為情況。消費者也能以更優惠的價格買到更心儀的寶貝。

人工智能與大數據分析概述

阿里信用貸款則是通過企業交易數據,借助大數據分析技術自動分析判定是否給予企業貸款,全程不會出現人工干預。人工智能與大數據分析概述開放數據為了滿足日益增長的數據需求,人們把很多數據資源放到了因特網上。這些被稱為開放數據(opendata)的數據資源對大眾免費開放。人工智能與大數據分析概述開放數據下面是網上比較常用的開放數據網站:開放數據中國(/)亞馬遜AWS開放數據集(/datasets)UCI機器學習數據庫(/ml)datahub網站(http://datahub.io/dataset)人工智能與大數據分析概述數據分析流程數據分析要做的事情可具體分為5步:與外界進行交互讀寫各種各樣的文件格式和數據庫數據準備對數據進行清理、整合、規范化、重塑、變形等處理數據轉換對數據集做一些數學和統計運算以產生新的數據集數據建模和計算將數據跟統計模型、機器學習算法聯系起來分析結果展示創建圖片或文字摘要,展示分析結果Python數據分析Python數據分析為什么用Python?數據科學家們希望:用最小的編程代價在大數據集上進行數值分析;編寫的代碼可讀性好、執行效率高、運行速度快;盡可能貼近一系列數學概念。Python數據分析為什么用Python?在科學計算領域,有很多符合這些要求的解決方案。在對比競爭中Python勝出,在科學領域被廣泛使用,具體原因如下:容易在Python中調用C、Fortran或者R代碼。Python是面向對象語言,比C和Fortran更高級。Python可以寫出易讀、整潔并且缺陷最少的代碼。Python數據分析為什么用Python?另外Python還有很多方面的用途,比如:通用型腳本語言,可以作腳本來用,還能操作數據庫;Django等框架的問世,Python近些年還廣泛用于開發web應用。Python數據分析Python數據分析常用庫NumPy

科學計算的基礎包庫Scipy

科學計算中的工具庫Matplotlib

繪制數據圖表庫Pandas

基于NumPy的數據分析庫Scikit-learn

機器學習建模庫Pytorch

一種深度學習框架NumPy和Pandas簡介NumPy和Pandas簡介NumPy是一個開源的Python科學計算庫。可以很自然地使用數組和矩陣,也包含很多實用的數學函數。NumPy和Pandas簡介為什么使用NumPy?對于數值計算任務,使用NumPy要比直接編寫Python代碼便捷得多。NumPy能夠直接對數組和矩陣進行操作,可以省略很多循環語句。NumPy眾多的數學函數能簡化編寫代碼的工作。NumPy和Pandas簡介Pandas是什么?

Pandas源自panel

data(面板數據)、Python

data

analysis(數據分析)NumPy和Pandas簡介Pandas的優勢Pandas以NumPy為基礎,能利用NumPy在計算方面性能高的優勢。Pandas提供了大量處理數據的函數和方法,強大而高效。兩種新型的結構Series和DataFrame使Pandas在處理表格數據非常有效。NumPy和Pandas簡介本課程用得最多的Pandas對象是DataFrameNumPy和Pandas簡介安裝NumPy和Pandas:第一種安裝方式:Python

pip

NumPy/Pandas第二種安裝方法:Anaconda集成環境NumPy和Pandas簡介第一種安裝方式:Python

pip

NumPy/Pandas

NumPy是基于Python的,在安裝NumPy之前,需要先安裝Python。本課程使用的是Python3.6版本。安裝時記得勾選安裝pip選項,并配置環境變量。NumPy和Pandas簡介安裝NumPy和Pandas:本課程使用的NumPy版本為1.14,Pandas版本為0.23。NumPy

:

pip

install

numpyPandas:

pip

install

pandasNumPy和Pandas簡介安裝NumPy和Pandas:卸載安裝包:pip

uninstall

package_name更新安裝包:pip

install–U

package_name

查看安裝模塊版本號:pip

list

/

pip

freezeNumPy和Pandas簡介第二種安裝方式:Anaconda集成環境Anaconda

是一種Python語言的增值開源發行版,用于進行大規模數據處理,預測分析,和科學計算,致力于簡化包的管理和部署。下載地址:/download/

NumPy和Pandas簡介安裝NumPy和Pandas:更新Anaconda:conda

update

conda查看Anaconda安裝包:conda

list

Anaconda內置了大多數數據處理,預測分析,和科學計算的模塊包(包括NumPy和Pandas),所以無需另外安裝。

NumPy和Pandas簡介安裝NumPy和Pandas:

Anaconda安裝模塊包:conda

install

package_name

Anaconda卸載模塊包:conda

uninstall

package_name

Anaconda更新模塊包:

conda

update

--

package_name

NumPy和Pandas簡介集成開發環境:

IDE:Integrated

Development

Environment,集成開發環境。數據分析領域:jupyter

notebook

NumPy和Pandas簡介集成開發環境:

pip下安裝方式:pip

install

jupyter安裝后命令行輸入jupyter

notebook

或ipython

notebook打開。

NumPy和Pandas簡介集成開發環境:

Anaconda環境下自帶jupyter

notebookNumPy和Pandas簡介啟動jupyternotebook:

選擇目錄上傳文件新建文件NumPy和Pandas簡介工作界面:

重命名文件名工具欄輸入框泰坦尼克號案例泰坦尼克號案例泰坦尼克號是19世紀初世界上體積最龐大、內部設施最豪華的客運輪船,有永不沉沒的美譽。然而諷刺的是,在處女航中,泰坦尼克號便遭厄運。泰坦尼克號案例1912年4月15日,載著1316號乘客和891名船員的豪華巨輪泰坦尼克號與冰山相撞而沉沒,次日凌晨2時20分左右,船體斷裂成兩截,沉入大西洋底3700米處。這場海難被認為是20世紀人間十大災難之一。1985年,泰坦尼克號的沉船遺骸在北大西洋兩英里半的海底被發現。

泰坦尼克號案例2200多名船員及乘客中,逾1500人喪生。二十世紀九十年代美國福斯電影公司、派拉蒙影業公司將泰坦尼克號拍成電影,這部愛情片也成為時代的經典,家喻戶曉。從Kaggle網站下載Titanic數據集,我們可以通過Python對數據進行解讀。數據集共有12列,目標變量Survived表示的是該乘客是否獲救,1表示獲救,0表示未獲救,其余都是乘客的個人信息。泰坦尼克號案例11列個人信息包括:PassengerId=>乘客IDPclass=>艙位等級(1/2/3等艙位)Name=>乘客姓名Sex=>性別Age=>年齡SibSp=>堂兄弟/妹個數Parch=>父母與小孩個數Ticket=>船票信息Fare=>票價Cabin=>客艙Embarked=>登船港口(C/Q/S港口)泰坦尼克號案例首先將數據導入Python中,Pandas會讀取數據轉換為一個二維數據框,類似表格。泰坦尼克號案例Pandas中有匯總和描述性統計的函數,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論