大數(shù)據(jù)技術及產(chǎn)業(yè)應用_第1頁
大數(shù)據(jù)技術及產(chǎn)業(yè)應用_第2頁
大數(shù)據(jù)技術及產(chǎn)業(yè)應用_第3頁
大數(shù)據(jù)技術及產(chǎn)業(yè)應用_第4頁
大數(shù)據(jù)技術及產(chǎn)業(yè)應用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1大數(shù)據(jù)問題及技術與產(chǎn)業(yè)應用清華大學蘇研院大數(shù)據(jù)處理中心林輝,趙勇1/27海量數(shù)據(jù)212+TBs

oftweetdata

everyday25+TBsof

logdataeveryday?TBsof

dataeveryday2+billionpeopleontheWebbyend30billionRFIDtagstoday

(1.3Bin)4.6billioncameraphonesworldwide100sofmillionsofGPSenableddevicessoldannually76millionsmartmetersin…

200Mby2/27數(shù)據(jù)分析復雜度3/27大數(shù)據(jù)BigData大數(shù)據(jù)是指無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理數(shù)據(jù)集合大數(shù)據(jù)=“海量數(shù)據(jù)”+“復雜類型數(shù)據(jù)”包括各個行業(yè)領域電力、電信、經(jīng)貿、教育、醫(yī)療、金融、石油、民航天文、氣象、基因、醫(yī)學、物理、互聯(lián)網(wǎng)與人類社會活動相關網(wǎng)絡數(shù)據(jù)44/27大數(shù)據(jù)特征5不一樣結構復雜數(shù)據(jù):關系型數(shù)據(jù)、日志和文本數(shù)據(jù)流量大:數(shù)據(jù)處理從批處理轉向流處理大容量:從TB、PB到ZB數(shù)據(jù)即資源,表達價值,數(shù)據(jù)中能挖掘出價值信息Variety:Velocity:Volume:Value:

5/27數(shù)據(jù)==價值6數(shù)據(jù)正在成為各行各業(yè),乃至每個人最關心、最有價值東西醫(yī)生需要了解病人病歷以及經(jīng)典病人治療方式相關數(shù)據(jù),方便對癥治療;疾病預防中心需要了解疫情暴發(fā)、擴散相關數(shù)據(jù),方便做好疫情防御;醫(yī)院需要病床、藥品及季節(jié)行流行病相關數(shù)據(jù),方便統(tǒng)一布署醫(yī)療設施;股票經(jīng)濟人需要對股票行情數(shù)據(jù)分析,判定下一個市場投資熱點;企業(yè)供給鏈需要了解產(chǎn)品進銷存數(shù)據(jù),方便下一步備料生產(chǎn);企業(yè)經(jīng)營者需要對市場數(shù)據(jù)進行分析,方便制訂企業(yè)下一步市場策略;投資者需要靠數(shù)據(jù)進行投資前景、可行性進行分析評定,確保投資收益;民航、酒店需要了解旅客出行規(guī)律,方便更加好服務客戶;商場、商家需要了解用戶生活習慣、購物心理,制訂最有效市場推廣方式;商業(yè)網(wǎng)站則需要了解用戶網(wǎng)絡瀏覽方式,方便推出更貼切客戶習慣產(chǎn)品;癌癥研究者需要了解分子結構和癌分子綁定數(shù)據(jù),方便研制新型抗癌藥;石油勘探需要需要了解地質數(shù)據(jù)并分析建模;氣象工作者需要了解海洋氣候數(shù)據(jù),方便公布及時準確公布;6/27大數(shù)據(jù)藍海7區(qū)域發(fā)展氣候信息行業(yè)信息市場信息國家戰(zhàn)略投資信息經(jīng)濟信息生活咨詢貿易信息旅游咨詢計算應用分析加工個人生活相關(投資理財、居家生活、旅游出行)企業(yè)發(fā)展相關(投資前景、市場戰(zhàn)略、市場先機)區(qū)域經(jīng)濟發(fā)展(區(qū)域規(guī)劃、城市發(fā)展、發(fā)展先機)國家發(fā)展戰(zhàn)略(全球經(jīng)濟、國計民生、政策法規(guī))大數(shù)據(jù)影響到我們生活周圍各個方面。7/27大數(shù)據(jù)處理意義8大數(shù)據(jù)不是噱頭,是技術發(fā)展的必然階段云計算等新興信息技術正在真正地落地和實施云計算等新興信息技術恰恰是是解決大數(shù)據(jù)問題的核心關鍵應用背景對大數(shù)據(jù)的推動作用大于其他條件有充足的應用場景有一個系統(tǒng)科學的方法論合理的人才和知識儲備有極為廣泛的創(chuàng)新動機大數(shù)據(jù)是一個不可多得的發(fā)展機遇關鍵技術和核心技術各國之間的差距不是很大,這是追趕和減少綁架進而實現(xiàn)自主創(chuàng)新的最大契機8/27海外市場環(huán)境美國奧巴馬政府推出了“大數(shù)據(jù)研究和發(fā)展倡議”,并投資2億美金支持大數(shù)據(jù)研發(fā),說明大數(shù)據(jù)已成為信息科技領域熱點。資本市場高度關注大數(shù)據(jù)技術型企業(yè)發(fā)展風投機構AccelPartners設置1億美元專題基金大數(shù)據(jù)分析企業(yè)Splunk,首日上市IPO即上漲109%大數(shù)據(jù)軟件提供商Birst企業(yè)今年已經(jīng)從紅杉資本等機構取得了2600萬美元投資為開源大數(shù)據(jù)技術Hadoop商業(yè)版本提供銷售和支持服務Cloudera取得7500萬美元投資MapR、10Gen、DataStax等大數(shù)據(jù)軟件服務商近期都完成了千萬美元級融資。99/27市場預測10依據(jù)Wikibon最近公布匯報,大數(shù)據(jù)市場正處于井噴式增加前夕,未來五年全球大數(shù)據(jù)市場價值將高達500億美元。國內云計算及大數(shù)據(jù)市場已經(jīng)初步具備發(fā)展態(tài)勢,據(jù)研究表明,大數(shù)據(jù)市場規(guī)模也將從167億元增加到年1174億元,年均復合增加率到達91.5%。10/27市場規(guī)模11政府、互聯(lián)網(wǎng)、電信、金融大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)二分之一市場份額。11/27大數(shù)據(jù)問題12速度方面的問題導入導出問題統(tǒng)計分析問題檢索查詢問題實時響應問題

種類及架構問題多源問題異構問題原系統(tǒng)的底層架構問題體量及靈活性問題線性擴展問題動態(tài)調度問題成本問題大機與小型服務器的成本比對原有系統(tǒng)改造的成本把控價值挖掘問題數(shù)據(jù)分析與挖掘問題數(shù)據(jù)挖掘后的實際增效問題存儲及安全問題結構與非結構數(shù)據(jù)安全隱私安全互聯(lián)互通與數(shù)據(jù)共享問題數(shù)據(jù)標準與接口共享協(xié)議訪問權限12/27大數(shù)據(jù)技術13計算結果展現(xiàn)報表、圖形、可視化工具、增強現(xiàn)實數(shù)據(jù)計算查詢、統(tǒng)計、分析、預測、挖掘、圖譜、BI數(shù)據(jù)存儲分布式文件系統(tǒng),分布式數(shù)據(jù)庫數(shù)據(jù)采集ETL工具,數(shù)據(jù)總線基礎架構支持云計算平臺、云存儲、分布式文件系統(tǒng)等13/27行業(yè)大數(shù)據(jù)應用挑戰(zhàn)1414/27清華大學大數(shù)據(jù)產(chǎn)品及結果云計算管理平臺:計算、網(wǎng)絡、存儲資源的虛擬化管理、調度、監(jiān)控虛擬資源池管理系統(tǒng):跨數(shù)據(jù)中心的虛擬資源池部署、配置、管理大規(guī)模分布式云存儲系統(tǒng):分布式自容錯、自恢復的云存儲系統(tǒng)分布式閃電數(shù)據(jù)庫:高效率的、支持綜合查詢及事務的分布式數(shù)據(jù)庫行業(yè)大數(shù)據(jù)處理平臺:結合多模態(tài)的大數(shù)據(jù)綜合處理平臺數(shù)據(jù)挖掘算法平臺:分布式數(shù)據(jù)挖掘平臺視頻處理平臺:多媒體綜合檢索、識別及語義分析平臺3D建模及體感交互技術:3D數(shù)字化建模及體感交互控制技術1515/27行業(yè)大數(shù)據(jù)處理方案云燕:大規(guī)模任務流程管理系統(tǒng)應用定制復雜流程管理自動容錯機制可視化云鷹:大規(guī)模任務調度系統(tǒng)輕型高效任務調度:每秒分發(fā)幾千個任務高可擴展性支持:上千萬任務、數(shù)十萬CPU跨數(shù)據(jù)中心資源協(xié)同使用自動負載均衡云龍:云資源管理監(jiān)控系統(tǒng)集中統(tǒng)一計算平臺:資源共享,彈性調度虛擬鏡像:自動應用環(huán)境布署完善監(jiān)控及日志功效1616/27云燕系統(tǒng)架構17云燕處理海量數(shù)據(jù)計算中數(shù)據(jù)多樣復雜性、系統(tǒng)異構性、系統(tǒng)流程管理問題;自動實現(xiàn)并行化運行,能夠運行于集群、網(wǎng)格、超級計算機及云平臺上。17/27管理調度160000個CPU核1818/27應用效果:醫(yī)藥學靶點分析19CPU核:118784任務數(shù):934803運行時間:2.01小時CPU年:21.43利用率:連續(xù):99.6%總體:78.3%吞吐量(任務/秒)

完成任務數(shù)處理器數(shù)目時間(秒)處理器活動任務完成任務吞吐量(任務/秒)19/27大數(shù)據(jù)應用20大數(shù)據(jù)智慧安全智慧商業(yè)國家電網(wǎng)中航信工商總局審計中移動智慧城市智能交通智能小區(qū)智能政務20/27國家電網(wǎng)2121/27中航信動態(tài)航班聯(lián)程300萬航班實時路徑搜索與規(guī)則匹配90%查詢操作在50ms內完成跨數(shù)據(jù)中心同時分布式數(shù)據(jù)庫2222/27中移動營銷數(shù)據(jù)分析及建模移動終端促銷數(shù)據(jù)業(yè)務/手機應用推廣2323/27社保審計大數(shù)據(jù)處理24政策分析模型績效監(jiān)測模型分析型監(jiān)測模型正當性合規(guī)性監(jiān)測模型基礎數(shù)據(jù)統(tǒng)計業(yè)務審計、財務審計、復核審計供養(yǎng)比、替換率、基尼系數(shù)可連續(xù)性、政策一致性等地市區(qū)劃或行業(yè)劃分業(yè)務流程險種企業(yè)職員基本養(yǎng)老保險發(fā)放數(shù)據(jù)A市職員基本醫(yī)療保險征繳數(shù)據(jù)24/27清華大數(shù)據(jù)中心運行模式25企業(yè)研究院生產(chǎn)一線企應用教授組政政府扶持力量海外資源產(chǎn)教授委員會研專業(yè)研究人員學師資團體企業(yè)化平臺合約關系優(yōu)勢:企業(yè)化運行獨立法人機構研發(fā)、實施、運維、服務以當代服務業(yè)理念服務于行業(yè)需求25/27大數(shù)據(jù)應用提議正確應對大機、單機問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論