大數據思維-培訓學院_第1頁
大數據思維-培訓學院_第2頁
大數據思維-培訓學院_第3頁
大數據思維-培訓學院_第4頁
大數據思維-培訓學院_第5頁
已閱讀5頁,還剩90頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據思維-培訓學院第一頁,共95頁。大數據?大數據是因信息技術特別是數據獲取技術的革命性進步而形成的信息爆炸現象,因其規模巨大、類型復雜、產生速度快、價值密度低等因素,對現有信息技術產生巨大挑戰,需要運用新理念、新技術、新方法對其進行全生命周期的創新管理和應用,從而促進國民經濟的轉型升級、社會管理的模式更新,乃至國家綜合競爭力的全面提升。第二頁,共95頁。數據獲取技術的革命性進步傳感器等自動采集的數據WEB2.0等用戶生成數據(UGC)日志等系統自動生成數據ApacheWebServerLog第三頁,共95頁。大數據現象Source:Exabytes:Documentingthe'digitalage'andhugegrowthincomputingcapacity,TheWashingtonPost

第四頁,共95頁。新理念?大數據時代,我們需要什么樣的“新理念”?在思考問題和解決問題的方法上有什么新的特點通過一些案例來說明大數據時代我們應有的一些思維模式第五頁,共95頁。大數據?容量大真實性變化快類型多第六頁,共95頁。傳統數據庫的4個要求大型:LargeVolume共享:Shared(multi-user)持久:Durable(durability)可靠:Reliable(Reliability)ACID(Atomicity,Consistency,Isolation,Durability)Highperformance:TpmC第七頁,共95頁。類型多(Variety)數據類型多樣:結構化、半結構化、非結構化數據形態各異:流數據、圖數據、關系數據處理要求不同:批處理、聯機處理、流式處理在一個大數據應用中共存。第八頁,共95頁。變化快(Velocity)不是靜態的大數據,而是動態變化的數據不是低頻,而是高頻不是更新,而是插入第九頁,共95頁。真實性GIGO是MIS時代的金科玉律大數據是真實反映,也可能是虛假反映。數據質量問題是新的巨大的挑戰第十頁,共95頁。用大數據解決問題的新思路航線網絡: 頂點3k,邊50k聯程設計:根據聯程航班搭配規則生成聯程航班第十一頁,共95頁。Model-basedapproach第十二頁,共95頁。Bigdatabasedapproach?第十三頁,共95頁。大數據的價值大數據將逐漸成為現代社會基礎設施的一部分,就像公路、鐵路、港口、水電和通信網絡一樣不可或缺。大數據是信息時代的“石油”,是推動信息經濟發展的動力。第十四頁,共95頁。大數據的價值在于應用產業轉型與升級提升政府治理能力促進社會創新發展第十五頁,共95頁。大數據思維數據思維互聯網思維計算思維……第十六頁,共95頁。1“數據”思維

量化、決策、整合第十七頁,共95頁。1.1量化思維:一切皆可量化! 數據是指存儲在某種介質上能夠識別的物理符號,是對客觀事物性質和狀態的描述.先有數據再說應用第十八頁,共95頁。StephenBeck每一天,我們的身后都拖著一條由個人信息組成的長長的“尾巴”——◎點擊網頁◎切換電視頻道◎駕車穿過自動收費站◎用信用卡購物◎使用手機而雅虎、Google這樣的公司,正在以平均每人、每月2500條信息的速度,捕獲我們的詳細數據。第十九頁,共95頁。科學=數據《科學》發專刊,“科學就是數據,數據就是科學”“數據推動著科學的發展”《科學》2011年2月11日第二十頁,共95頁。基因測序數據在人體的基因中,有30億個堿基對,每個人的不同,就是由堿基對排列差異造成的第二十一頁,共95頁。大數據、大科學饒毅先生vs華大基因的楊煥明院士之爭跟帖評論:生命科學由實驗科學正向理論科學轉變。大數據,大科學研究思路必然會導致生命科學的變革。人類基因組計劃就是一個典型案例。第二十二頁,共95頁。腦科學的一些數字大腦由數十億神經元組成,通過數千個突觸相互連接;僅大腦皮層中的突觸連接數量就超過了160萬億個(萬億10^12)用電子顯微鏡來重建1mm^3的大腦(大約一根針的針頭)中的所有突觸回路,信息量大約在10^15字節(1PB)人類大腦包含約10^6個這樣大小的神經組織第二十三頁,共95頁。eScienceeScience是信息技術與科學家相遇而催生的新的學科,科學家利用許多不同的方法收集或產生了數據,如何從這些積累起來的海量數據中分析發現科學規律?正是這門學科的目的和任務。如何對海量的數據進行組織、管理和分析挖掘?第二十四頁,共95頁。第四研究范式的提出數據本身的價值越來越被認識,基于數據的科學發現,被認為是第四研究范式。科學實驗理論推導仿真計算基于數據的分析MicrosoftResearch,2009年10月第二十五頁,共95頁。James(Jim)Gray

數據庫技術和事務處理專家1944年生,加州大學伯克利分校計算機科學系博士。數據庫和事務處理研究專家1998年獲圖靈獎(時任微軟研究員)2007年1月失聯至今第二十六頁,共95頁。2個大數據應用TerraServer: 與美國地質調查局合作。引領了基于互聯網的地圖服務SDSS斯隆數字巡天項目:與天體物理研究聯合會(ARC)合作.后來發展為WWT(worldwidetelecsope)全球望遠鏡,全球百性均可觀看第二十七頁,共95頁。第四科學范式幾千年前科學以實驗為主描述自然現象過去數百年科學出現了理論研究分支利用模型和歸納過去數十年科學出現了計算分支對復雜現象進行仿真第二十八頁,共95頁。第四科學范式今天將理論、實驗和計算模擬統一起來由儀器收集或者計算模擬產生數據由計算機存儲和處理數據科學家通過數據分析挖掘軟件分析數據,發現規律第二十九頁,共95頁。人文社會學科馬克思說:“人的本質不是單個人所固有的抽象物,在其現實性上,它是一切社會關系的總和。”(《馬克思恩格斯選集》第2版第1卷第60頁)人與動物的區別就是人會勞動,而勞動就形成了一定的社會關系。第三十頁,共95頁。人文社會學科機理不清模型難以建立信息系統客觀地記錄了大量的”社會關系”,這些大數據庫本身可以看作是一個”模型”.第三十一頁,共95頁。BAT大數據企業大數據應用百度網頁數據搜索數據公眾行為阿里電商數據信用計算騰訊社交數據關系營銷第三十二頁,共95頁。政府治理業務層次:管理層次:決策層次:第三十三頁,共95頁。例:網格化管理對社區進行網格化劃分通過視頻監控、傳感器,以及配置網格管理員,收集信息。將信息上傳到一個統一的平臺上進行分享和管理 第三十四頁,共95頁。大數據治理(Governing)數據質量數據隱私數據安全數據標準數據溯源第三十五頁,共95頁。1.2決策思維:讓數據說話決策模式:直覺驅動的決策拍腦袋的決策,有隨意性邏輯驅動的決策基于邏輯分析的推理經驗驅動的決策用數據說話、用數據來管理、用數據來決策、用數據來創新第三十六頁,共95頁。如何看待大數據?概率論和統計學將經驗變成了“科學”數據分布(均勻分布,正態分布,高斯分布,泊松分布,。。。)數據抽樣假設檢驗大數定理第三十七頁,共95頁。大數定理在隨機事件的大量重復出現中,往往呈現幾乎必然的規律。在獨立同分布的假設下,重復試驗多次,隨機事件的頻率近似于它的概率。偶然中包含著某種必然。例子:拋硬幣試驗,硬幣落下后哪面朝上是偶然的,但是當拋硬幣的次數足夠多之后就會發現,硬幣朝上的次數約占總次數的二分之一。第三十八頁,共95頁。統計機器學習訓練測試預測模型第三十九頁,共95頁。線性回歸第四十頁,共95頁。大數定理的假設這個定理有前提獨立同分布試驗的次數非常大在很多情況下,這些假設不一定能滿足問題空間的參數太大,訓練數據對問題空間的覆蓋度不大試驗條件在變化,不能滿足獨立同分布第四十一頁,共95頁。“經驗”思維崇尚“經驗主義”、讓數據本身說話

第四十二頁,共95頁。要全部數據,不要抽樣!模型不再那么重要,讓數據說話“Allmodelsarewrong,butsomeareuseful.”---統計學家GeorgeBox

“Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.”

---PeterNorvig

第四十三頁,共95頁。案例:語言翻譯通過搜索去找到相同或者相似的句子,直接返回結果百度:如果你不離開我,我們會死在一起四級:你如果不離開我,我就和你同歸于盡。六級:你若不離不棄,我必生死相依。Ifyoudonotleaveme,wewilldietogether.

搜索引擎第四十四頁,共95頁。案例:IBM沃森問答系統北京時間2011年2月17日,電腦沃森狂勝人類三個比賽日的總成績,沃森獲得77147美元,肯·詹寧斯排名第二獲得24000美元,而布拉德·拉特只獲得了21600美元。第四十五頁,共95頁。1.3整合思維:跨界的創新數據孤島的形成技術的原因歷史的原因認識的原因打破數據孤島,是開展大數據應用的前提第四十六頁,共95頁。信息化3.0信息化1.0信息化2.0第四十七頁,共95頁。目標技術典型應用特點機器代替人工集中數據庫OA,MIS系統基于數據庫的信息系統部門級應用,信息孤島政府部門整體業務過程一體化分布式數據庫國家“金字”工程縱向整合,數據大集中對大數據進行整合分析,創造價值云計算大數據系統輿情分析,打擊犯罪信息開放、融合;大數據第四十八頁,共95頁。信息化3.0云計算解決了計算資源的共享問題大數據技術試圖解決數據的利用問題大數據是由于不同來源的數據匯集而帶來的“跨界”型創新應用。第四十九頁,共95頁。案例:淘寶微貸淘寶:電子商務平臺淘寶網(taobao):C2C業務,天貓(原名淘寶商城):平臺型B2C電子商務服務商淘網(etao):一站式購物搜索引擎開展微貸業務盡管不能經營儲蓄業務,但是支付寶平臺有上千億的存量基于交易記錄,可以進行自動化誠信評價違約率僅有百分之零點幾第五十頁,共95頁。跨界應用比比皆是2014年7月22號,上海。阿里巴巴宣布,和中行、招行、建行等7家銀行深度合作,為中小企業提供基于網商信用的無抵押貸款,最高授信額度1000萬元。阿里將平臺擁有的數萬家企業交易數據開放給銀行,降低銀行貸款風控成本的同時,亦為苦于無法自證信用的中小企業,提供了第三方擔保。第五十一頁,共95頁。案例:電信運營賣管道:經營流量賣服務:經營業務賣知識:經營數據第五十二頁,共95頁。小結量化思維:一切皆可量化決策思維:讓數據說話整合思維:數據跨界融合數據客觀地記載了我們的世界。只要有可能,我們努力去獲取、保存、處理之。第五十三頁,共95頁。以數據為中心的新思維大數據時代使得數據具有獨立存在的價值,數據作為資產的地位突顯。以前都是先有應用后有數據,現在是先有數據再說應用軟件是為數據服務的,我們需要以數據為中心的新思維

第五十四頁,共95頁。2“互聯網”思維第五十五頁,共95頁。互聯網的發展SNS 第五十六頁,共95頁。開放性封閉開放WEB1.0WEB2.0WEB3.0單向的被動接收型門戶分享的參與型博客互聯的平等型SNS,語義網199520052015第五十七頁,共95頁。互聯網大數據互聯網,特別web2.0之后的UGC,是大數據形成的重要原因之一。SNS是由于互聯網的發展而形成人-人間的互聯因此,大數據的應用自然而然會受到互聯網的影響,互聯網思維也會影響大數據應用。第五十八頁,共95頁。互聯網思維以客戶為中心:人本的思維萬物皆有聯系:關聯的思維反壟斷去中心化:平等的思維第五十九頁,共95頁。2.1“人本”思維互聯網應用將客戶作為了信息系統最重要的組成部分.傳統的信息系統是將業務邏輯作為最重要的內容.

第六十頁,共95頁。 “人本”思維互聯網應用的核心在于以用戶需求為主導,將用戶思考和用戶體驗做到極致是關鍵所在。有數據顯示,高達92%的顧客相信朋友推薦,有75%的顧客決策前參考社會化評價,70%的顧客相信在線評論。口碑營銷(病毒式營銷):通過社媒各渠道塑造品牌形象,直接影響消費決策。 第六十一頁,共95頁。“人本”思維互聯網應用中,最有價值的是社區。為用戶畫像,了解用戶的需求,提供個性化的服務。第六十二頁,共95頁。案例:MOOCMOOC=公開課+學習社區碎片化交互性社交性過程管理精品課程沒有無無無網絡公開課是無無無MOOC是有有有第六十三頁,共95頁。案例:推薦當你瀏覽網頁的時候,系統會給你推薦第六十四頁,共95頁。2.2“關聯”思維強調數據之間的關聯也很有用,而不去追求數據之間的因果關系。因果關系是最深刻的一類聯系,但是我們很多時候并不能獲得。第六十五頁,共95頁。計算機應用的發展科學計算企業計算個人計算計算的精度計算的速度硬件技術系統性能正確性關系理論事務理論信息關聯信息質量互聯網搜索引擎195019802000第六十六頁,共95頁。案例:監測今年7月,華東師范大學一名女生收到來自學校勤助中心的短信:“同學你好,發現你上個月餐飲消費較少,不知是否有經濟困難?如有困難,可電話、短信或郵件我。”第六十七頁,共95頁。案例:預測根據搜索關鍵字預測失業率失業率預測演示模型第六十八頁,共95頁。2.3 “平等”思維去中心化去壟斷化長尾效應第六十九頁,共95頁。去中心化建立和運維社區是大數據應用的關鍵。在社區中,成員都是平等的 第七十頁,共95頁。壟斷vs反壟斷互聯網本質上是反壟斷的技術反壟斷:開源社區信息反壟斷:信息公開是反腐的利器資源反壟斷:開放和標準是有效的辦法第七十一頁,共95頁。案例:媒體的演變傳統媒體:只能聽到中心的一個聲音博客:每個人都可以發表自己的想法。較之于傳統媒體,這是個巨大的飛躍。但是你的想法能讓多少人聽到,卻依然取決于門戶網站的編輯(是否被精選)微博:所有人可以在一個統一的公共討論空間討論,更重要的是這個討論空間,不再依靠一個中心,而是靠著興趣、關系的鏈條自動生成、壯大,編輯的力量被前所未有的削弱了。第七十二頁,共95頁。小結關聯的思維平等的思維人本的思維第七十三頁,共95頁。3“計算”思維第七十四頁,共95頁。計算思維“大數據”現象是計算技術發展和應用中出現的問題之一。大數據應用也還是計算機應用。因此大數據應用也應遵循應用計算機解決問題的一般規律。這個規律我們稱之為“計算思維”。第七十五頁,共95頁。計算思維“計算思維”的概念是2007年由時任CMU計算機系主任周以真(JeannetteM.Wing)提出來的。“ComputationalThinking”,CommunicationsofACM,49(3),pp.33-35.March2007第七十六頁,共95頁。是人的思維,不是計算機的思維計算思維是人類求解問題的一條途徑,但決非試圖使人類像計算機那樣地思考。計算思維也并非計算機專業人員才能掌握的思維模式,非計算機專業的人員也應具有。 第七十七頁,共95頁。計算的精髓計算就是問題求解抽象與自動化algorithm平臺與層次化platform平衡與最優化optimization

第七十八頁,共95頁。3.1算法思維計算思維的核心就是用計算機自動解決問題,而解決問題的核心就是算法。可計算嗎?計算量多大?是否有高效算法?是否有精確算法?如何設計近似算法?第七十九頁,共95頁。算法思維手工方法是不可能處理大數據的!我們需要思考,我們工作中的什么事情是可以自動化來完成的自動化的量化交易是否可能?第八十頁,共95頁。3.2平臺思維平臺:指計算機硬件或軟件的操作環境。泛指進行某項工作所需要的環境或條件(百度百科)技術平臺:微軟平臺,數據庫平臺,。。業務平臺:辦公系統第八十一頁,共95頁。大數據系統平臺需要一個計算機平臺!而且通常是一個計算機集群的云計算平臺多層次平臺存儲計算平臺分析挖掘平臺展示應用平臺第八十二頁,共95頁。平臺選擇平臺是我們工作的基礎,平臺的建立需要時間和經費,一旦確定之后很難更換,因此,選擇平臺要謹慎平臺選擇要重視開源平臺平臺并非唯一,需要根據應用特征來選擇平臺平臺選擇要考慮可擴展性,最好是scale-out方式的擴展。第八十三頁,共95頁。案例:PackagePrice的誘惑平臺綁定一個產品會帶來后患多方產品的選用標準化的系統接口第八十四頁,共95頁。關于開源平臺的討論大數據系統大多為開源平臺開放性可持續發展對于開源系統的把握能力第八十五頁,共95頁。大數據系統百花齊放產業競爭激烈,大家都覺得有機會,處于一個“競爭性壟斷”的階段(“三國時代”)與“寡頭性壟斷”相對應進入容易,退出也容易

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論