大數據-課程介紹-684008683_第1頁
大數據-課程介紹-684008683_第2頁
大數據-課程介紹-684008683_第3頁
大數據-課程介紹-684008683_第4頁
大數據-課程介紹-684008683_第5頁
已閱讀5頁,還剩86頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

05二月2023大數據分析和內存計算第一講:課程介紹李國良清華大學計算機系提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023大數據(BigData)時代來臨移動互聯網Mobile

Internet物聯網InternetofThings新量級、新處理模式、新企業智能05二月2023在Web2.0時代,人們從信息的被動接受者變成了主動創造者大數據舉例互聯網:社交網絡、視頻、圖片、電子商務物聯網:移動設備、傳感器天文、地理、環境、氣象、交通信息掃描書籍、歷史文獻、社會交互信息醫療掃描、電子病歷05二月2023大數據典型應用搜索引擎:Google、Bing、Baidu、…電子商務:淘寶、京東、Amazon、eBay…零售業:Walmart可能凈利潤增長水平為60%或以上政府公共服務歐洲政府部門每年3500億美元,大約每年0.5%的增長率醫療服務美國每年3000億美元,大約每年0.7%的增長率制造業產品開發、組裝成本降低50%05二月202305二月2023大數據潛力不同行業中,企業信息化成熟度差異明顯政府等行業的信息化成熟度明顯領先,總體處于擴展和整合優化階段;除金融和電信之外的服務行業的信息化建設成熟度相對較低,仍處在成長階段。對大數據的處理需求將啟發對于IT系統投資新熱點,證實IT推動業務發展,增加對IT投資。從IT系統走向大數據決策分析未來著眼點在于服務2000制造業金融電信政府互聯網企業自動化走向初步信息化快速發展整體解決方案需求年600億投資規模信息化走向移動互聯化基本架構已經建立相對成熟500億以上投資規模手工化向自動化轉型:成熟度低成長階段中國建筑信息化投入占總收入0.03%建筑流通移動互聯化數據智能化大數據05二月2023大數據潛力05二月2023國外大公司的角逐Google:滿足用戶需求,將互聯網將變得越來越智能。Facebook:人際網絡,創造新的需求。Google利用好用的、免費得軟件產品,換取對用戶的理解;通過精準的廣告,找到生財之道,顛覆了微軟賣軟件拷貝賺錢的模式?;ヂ摼W越來越智能Google精確掌握用戶行為、獲取需求05二月2023國內大數據計劃國內各地制定云計算“十二五”規劃云計算、物聯網園區中國各地制定或公布了云計算、物聯網等產業規劃;這些工程的初始著眼點在房地產,政績工程居多,大數據作為核心內容端,使得政績工程變為使用工程。

云計算、物聯網、社交化媒體、GIS為大數據提供了豐富的數據來源。因此大數據中包括的每個用戶的身份、地點、時間、喜好、厭惡、社會關系等等大量的信息。伴隨數據挖掘和分析的技術發展,我們即將步入基于大數據的智能化時代。提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月2023大數據誕生BigData??疘T企業研究報告科學研究“第四范式”“十二五”規劃美國重大研究計劃DealingwithData??髷祿嬎爿o助社會管理促進民生改善支持商業決策推動科技進步傳染病預測海嘯實時預警搜索與電子商務大數據研究意義智能交通大數據研究意義

居民消費價格指數(CPI)CPI意義:與民生密切相關的國家

經濟決策重要指標反映通貨膨脹率

目前存在問題:“滯后、不科學”—原社科院金融發展室主任易憲容“86%認為CPI與消費感受不符合”—中國政協網如何準確計算分析CPI大數據計算大數據定義及特點大數據是通過傳統數據庫技術和數據處理工具不能處理的龐大而復雜的數據集合。規模大(Volume)

速度快(Velocity)類型多(Variety)

價值密度低(Value)

5億用戶8億商品20億PV/天用戶評論3萬條/秒5萬訂單/分鐘提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023什么是“大數據”?海量數據(信息)非結構化數據Hadoop+Map/Reduce云計算數據(CloudData)數據密集型計算數據(DICData)05二月2023大數據的性質(4V)Volume海量的數據規模Variety多樣的數據類型ValueVelocity快速的數據流轉巨大的數據價值05二月2023大數據的性質實例——城市計算速度快(Velocity)北京出租車每分鐘400萬條定位數據類型多(Variety)POI、路網、軌跡、路況、評論價值密度低(Value)特殊事件(賽事、事故)用戶評論(污染、堵塞)規模大(Volume)街旁網有1億次簽到數據機器&人工05二月2023大數據——外延與應用密切相關的各類數據,強調對于支持實際應用所涉及到的多個來源且相互關聯的大量、高速、異構、質量差的數據生產數據、設計數據、統計數據文本、多媒體數據、各種文檔數據HeterogeneousInformationNetwork世界上的數據80%是非結構化數據80-20規則提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023與大數據相關的幾個熱點問題非結構化數據云計算與大數據Hadoop+HDFS+Map/ReduceNoSQL05二月2023什么是半結構化/非結構化數據23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog05二月2023云計算與大數據云計算是一種通過Internet以服務的方式提供動態可伸縮的虛擬化的資源的計算模式云計算是繼大型主機、PC、互聯網之后的IT領域的最新一次重大變革Amazon和Google是始作俑者雖然云計算和大數據是沿著不同的道路發展而來的,兩者在技術和應用上相輔相成云計算提供的服務離不開它所能承載的大數據解決大數據的挑戰,云計算模式是可行的方案云計算遭遇大數據是發展的必然趨勢云計算與大數據云計算是一種通過Internet以服務的方式提供動態可伸縮的虛擬化資源的計算模式云計算是繼大型主機、PC、互聯網之后的IT領域的最新一次重大變革Amazon和Google是始作俑者云計算技術、CTO、成本大數據業務、CEO、價值云計算遭遇大數據是發展的必然趨勢05二月2023Amazon云服務彈性計算云EC2簡單存儲服務S3簡單數據庫服務SimpleDB簡單隊列服務SQS彈性MapReduce服務內容推送服務CloudFront電子商務服務DevPay靈活支付服務FPS05二月2023大數據技術就是Hadoop+M/R?來源于Google,在類似搜索引擎的查詢并行化分析處理領域取得極大成功針對大規模數據密集型應用的編程范式(programmingparadigm)所基于的BigTable和HDFS是非常質樸的數據模型和存儲系統適用領域有限,為大數據研究打開了思路,但絕不代表大數據技術全部回到起點來重新審視數據管理之目的MapReduceMapReduce是一種編程模型,用于大規模數據集(一般大于1TB)的并行運算的實現特性用戶自定義函數自動并行化容錯I/O調度監聽05二月2023MapReduceHadoop一個分布式系統和并行執行環境Hadoop這個框架實現了MapReduce,方便用戶海量處理數據特點:擴容能力強成本低高效率可靠性適合場景大數據分析離線分析不適合場景少量數據復雜數據在線分析05二月2023大數據和數據庫的關系數據庫界從一開始就探索過,但還是過于保守忘不掉ACID,舍不得Relation,忽視實際應用沉浸在自己的世界里空值理論(NullValue),泛關系(UniversalRelation)數據庫設計的范式理論(FD,MVD,4NF,5NF,……)潛意識地奉行“一招鮮”(OneSizeFitsAll,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS響亮一擊回到起點來考慮數據管理問題,豁然開朗大數據是數據庫的自然延伸數據庫關系代數索引查詢優化事務處理05二月2023姓名學號班級年齡性別住址籍貫電話張三100計9120男北京海淀北京89150李四200計9219男北京東城北京88888王五300計9318女北京西城北京77777趙六400計9419女北京朝陽北京99999劉七500計9521男北京豐臺北京88666課程名課程號地點教師DB15101李國良DB25102馮建華DM35103王建勇學號課程號分數10019920019830029705二月202305二月2023事務處理原子性(Atomicity)

-不可分割

一致性(Consistency)-前后一致隔離性(Isolation)-并發持久性(Durability)-永久05二月202305二月2023大數據的系統需求Highperformance–高并發讀寫的需求

高并發、實時動態獲取和更新數據HugeStorage–海量數據的高效率存儲和訪問的需求

類似SNS網站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴展性和高可用性的需求

需要擁有快速橫向擴展能力、提供7*24小時不間斷服務高并發讀寫大數據存儲的核心需求高效率存儲和訪問高可擴展性和高可用性低成本建設運維保證一致性的開銷過大,難以實現高并發存儲性能受限于控制器,性能難以保證關系型表單存儲難以適應不同數據類型上億行數據的超級達標效率極低傳統基于盤陣的存儲設備,造價昂貴,且市場壟斷嚴重,建設成本居高不下,擴容成本尤其高許可和維護花費高昂無法簡單的通過添加服務節點來擴展數據容量和負載能力,難以進行橫向擴展數據庫升級需要停機維護和數據遷移,導致服務中斷不保證遵循ACID原則,提高并發讀寫性能

Schema-Free存儲適應不同數據類型舍棄SQL標準功能,盡量簡化數據操作,提升效率MapReduce實現高效訪問基于X86設備,價格低廉開源系統,節省許可費用支持水平擴展,可簡單的通過添加服務節點來擴展數據容量和負載能力數據庫升級不影響服務持續RDMSNoSQL05二月202305二月2023大數據管理三個層次Web數據管理決策數據管理科學數據管理05二月2023Web數據管理數據處理檢索實時檢索查詢連續查詢分析文本結構化數據圖搜索引擎BigQuery(Google)Pregel,TrinityGoogleAlertG.R-T.search,FBSearchGoogleTrends/AnalyticsPageRanketc.YahooPipes通常依賴于廉價PC機所搭建的集群05二月2023Web數據管理示例:社交媒體數據管理關注列表join活動列表活動列表join活動列表實時統計推送系統的行為用戶頁面獲取個性化內容展示“消息鏈”豐富信息量節省通訊目的看似簡單的頁面顯示需要后臺的大量查詢處理支持05二月2023Web數據管理示例:社交媒體數據管理難點T:110M條消息/天≈1200條/秒

19GB/天(文本)W:峰值32312條/秒W:平均每個人關注540人

T:平均每個人關注36人W:轉發超過1000的微博中,超過80%的轉發發生在1個小時之內的占59%要求:(準)實時,大規模并發計算:查詢,連接,統計關注列表join活動列表活動列表join活動列表實時統計推送T:W:05二月2023決策數據管理數據處理檢索實時檢索查詢連續查詢分析文本結構化數據圖QA、

技術支持、

專家系統/

知識庫構造OLAP報表物流優化通常使用高性能服務器和專用存儲設備決策數據管理傳統DBMS秉承的one-size-fits-all的理念不合適OLAP和數據倉庫技術在新的硬件和體系結構情形下有新的發展機遇高可靠的MPP架構內存計算列存儲應用:實時商務智能研究問題內存數據庫,廉價高性能集群,優化分析05二月2023決策數據管理示例:商務智能(BI)傳統處理方式離線:ETL,物化視圖,報表生成,規則提取/模型訓練在線:OLAP新問題:實時決策分析數據來源于各種傳感器GPS,RFID,…即時處理,即時響應離線ETL不能滿足需要應用:智能電網、供應鏈管理、物流優化、…05二月202305二月2023科學數據管理數據處理檢索實時檢索查詢連續查詢分析文本結構化數據非結構/

半結構數據文獻檢索內容訂閱自動綜述,知識庫構建實驗數據/觀測數據/檢測數據管理實驗數據分析生物/…

數據分析異構、分布式系統05二月2023新型信息服務的商業模式互聯網廣告:Web+BI05二月2023新型信息服務:互聯網廣告數據處理檢索實時檢索查詢連續查詢分析文本結構化數據非結構/

半結構數據廣告選擇請求解析廣告檢索在線更新提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023BigData帶來的挑戰不同“看”數據的方式需要更高性價比的數據計算與儲存方式不同的數據管理策略超越企業現有IT的數據解決能量05二月2023超越企業現有IT數據解決能量每天幾百GB、幾TB的資料,且持續成長中儲存Storing在收數據的同時做必要的前置處理(pre-processing),并區分數據處理的優先等級(prioritizing)計算Processing如何有效的避免因硬件毀壞所導致的資料損毀管理Managing如何從中挖掘出所關注事件的pattern或behavior分析Analyzing50大數據研究挑戰全面考量高可擴展性高性能高度容錯多類型傳統數據倉庫無法存儲日益增長的海量數據傳統數據倉庫無法有效處理新型業務的數據05二月2023提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023大數據處理平臺MapReduceHadoopSparkNoSQLKey-valueColumnAmazonEC2S3Mturk提綱大數據背景大數據由來大數據定義大數據與相關領域的關系大數據挑戰大數據現有系統大數據現有關鍵技術課程介紹課程考核05二月202305二月2023大數據管理模型軟件即服務——多租戶模型大規模并行數據管理——MapReduce編程模型NoSQL數據模型CAP理論05二月2023多租戶(Multi-Tenancy)多租戶是服務提供商來提供軟件和硬件在數據庫層面實現虛擬化用戶將軟件、硬件、維護移交給第三方用戶只需與第三方提供的服務交互05二月2023抓住長尾大型用戶$/用戶

運營成本長尾理論獲利#用戶數長尾市場>>現有市場05二月2023大數據管理模型軟件即服務——多租戶模型大規模并行數據管理——MapReduce編程模型NoSQL數據庫CAP理論05二月2023MapReduceMapReduce是一種編程模型,用于大規模數據集(一般大于1TB)的并行運算的實現特性用戶自定義函數自動并行化容錯I/O調度監聽05二月2023MapReduce步驟Key-value05二月2023Hadoop一個分布式系統和并行執行環境Hadoop這個框架實現了MapReduce,方便用戶海量處理數據特點:擴容能力強成本低高效率可靠性適合場景大數據分析離線分析不適合場景少量數據復雜數據在線分析05二月2023大數據管理模型軟件即服務——多租戶模型大規模并行數據管理——MapReduce編程模型NoSQLCAP理論NoSQL簡介NotOnlySQL,non-relationaldatabases處理超大數據量,TBorPB級別(Search)高并發(萬/s),不注重事務(CAP原則)易部署、易擴展、易開發(透明)便宜05二月202305二月2023NoSQL背景大數據時代下的系統需求Highperformance–高并發讀寫的需求

高并發、實時動態獲取和更新數據HugeStorage–海量數據的高效率存儲和訪問的需求

類似SNS網站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴展性和高可用性的需求

需要擁有快速橫向擴展能力、提供7*24小時不間斷服務05二月2023NoSQL數據庫分類Key/ValueStores(鍵/值存儲庫)AmazonSimpleDB/simpledb/BerkeleyDB/database/berkeley-db/db/index.htmlMemcacheDB/Redis/p/redis/DocumentStores(文檔庫)CouchDB/MongoDB/GraphDatabase(圖形數據庫)Neo4j/WideColumnStores(列存儲庫)Hadoop/Cassandra/cassandra/大數據管理模型軟件即服務——多租戶模型大規模并行數據管理——MapReduce編程模型NoSQLCAP理論05二月2023CAP理論一致性(Consistenc)可用性(Availability)分區容錯性(PartitionTolerance)三者只能滿足2個05二月2023Availability可用性傳統關系數據庫Key-value數據庫Consistency一致性Partitiontolerance分區容錯性05二月2023大數據應用舉例移動互聯網大數據時空大數據移動互聯網擁有大數據大量用戶大量數據用戶通話信息用戶喜好位置信息網絡訪問電子交易用戶行為分析05二月202305二月2023大數據給移動互聯網帶來的機遇大數據分析平臺,通過挖掘海量用戶信息,提供更好服務用戶,更好創造價值更好的引入新客戶移動廣告推送在線應用平臺–applestore軟件即服務應用平臺–amazon05二月2023移動網絡中用戶行為分析數據來源更多,除傳統數據外,我們還關注:用戶的通訊信息:電話、短信、數據服務基于位置的信息:GPS、WiFi、傳感器基于時間的信息:具體時間或日期05二月2023移動網絡中用戶行為分析05二月2023個性化推薦的相關技術研究用戶用戶研究,用戶網上行為分析,用戶消費心理社會化網絡分析研究商品文本挖掘圖像識別數據挖掘,機器學習,模式識別,人工智能相關性算法,Behavior Targeting概率統計,因子分析,主成分分析分布式計算因分析實時計算,實時推薦,事件營銷知識提取情境感知表示度量定量度量獲取融合劣質容忍總體研究方案大規模多源異構數據能效優化能耗復雜性能耗機理眾包、知識圖譜、情境感知能耗數學原理抽樣鄰域理論分析決策城市大數據挖掘分析數據獲取城市大數據深度理解與融合城市大數據知識圖譜構建城市大數據的挖掘與分析實時智能交通城市設施規劃移動用戶分析結構化數據資源半結構化/非結構化數據資源大數據實例——城市計算速度快(Velocity)北京出租車每分鐘400萬條定位數據類型多(Variety)POI、路網、軌跡、路況、評論價值密度低(Value

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論