




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據(shùjù)時代Iscoming……ERP班組(bānzǔ)2021.11第一頁,共三十二頁。全球每秒鐘發送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有
2.88萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3年…推特上每天發布5千萬條消息,假設10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產生6.3百萬筆訂單…每個月網民在Facebook上要花費7千億分鐘,被移動(yídòng)互聯網使用者發送和接收的數據高達1.3EB…Google上每天需要處理24PB的數據…在web2.0的時代,人們從信息(xìnxī)的被動接受者變成了主動創造者BigData時代(shídài)到來第二頁,共三十二頁。TBPBZBEB大量新數據源的出現那么導致(dǎozhì)了非結構化、半結構化數據爆發式的增長根據IDC監測,人類產生的數據量正在呈指數級增長,大約每兩年翻一番,這個速度在2020年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量數據量增加數據結構日趨復雜這些由我們創造的信息背后產生的這些數據早已經遠遠超越了目前人力所能處理的范疇大數據時代正在來臨..BigData時代(shídài)到來第三頁,共三十二頁。1.Volume2.
Variety3.value4.Velocity結構化數據、半結構化數據和非結構化數據如今的數據類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價值密度低以視頻為例,一部一小時的視頻,在連續不間斷監控過程中,可能有用的數據僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據洶涌背景下亟待解決的難題實時獲取需要的信息大數據區分于傳統數據最顯著的特征。如今已是ZB時代,在如此海量的數據面前,處理數據的效率就是企業的生命大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容(nèiróng)進行抓取、管理和處理的數據集合什么(shénme)是BigData數據量巨大全球在2021年正式(zhèngshì)進入ZB時代,IDC預計到2021年,全球將總共擁有35ZB的數據量第四頁,共三十二頁。20世紀90年代,數據倉庫之父的BillInmon就經常(jīngcháng)提及BigData2021年5月,在“云計算(jìsuàn)相遇大數據〞為主題的EMCWorld2021會議中,EMC拋出了BigData概念BigData名詞(míngcí)由來第五頁,共三十二頁。1
并購進行技術整合2
自身提高研發實力相較于“大數據〞一詞在2021年才開始躥紅(cuānhónɡ)不同,在計算機研究領域和產業界,“大數據〞早已眾人皆知,各大IT巨頭紛紛布局大數據業務,通過收購大數據相關廠商來實現技術整合,以圖搶占全新的制高點各大IT企業紛紛推出自身的大數據分析產品,包括Google、IBM、EMC、Oracle、微軟、惠普、SAP、Teradata,這些企業幾乎囊括了目前全球最頂尖的搜索(sōusuǒ)效勞、數據庫、效勞器、存儲設備、企業解決方案的主要提供商,足以顯示大數據在產業界的洶洶來勢BigData名詞(míngcí)由來第六頁,共三十二頁。大數據技術將被設計用于在本錢可承受〔economically〕的條件下,通過非常(fēicháng)快速〔velocity〕的采集、發現和分析,從大量化〔volumes〕、多類別〔variety〕的數據中提取價值〔value〕,將是IT領域新一代的技術與架構企業用以分析的數據越全面,分析的結果就越接近于真實。大數據分析意味著企業能夠從這些新的數據中獲取新的洞察力,并將其與已知業務的各個細節相融合什么(shénme)是BigData技術第七頁,共三十二頁。云計算(jìsuàn)與大數據白云(báiyún)下面數據跑藍藍的天上(tiānshàng)白云飄如果數據是財富,那么大數據就是寶藏,而云計算就是挖掘和利用寶藏的利器!沒有強大的計算能力,數據寶藏終究是鏡中花;沒有大數據的積淀,云計算也只能是殺雞用的宰牛刀!第八頁,共三十二頁。分布式“云計算〞〔CloudComputing〕是分布式處理(chǔlǐ)〔DistributedComputing〕、并行處理(chǔlǐ)〔ParallelComputing〕和網格計算〔GridComputing〕的開展,或者說是這些計算機科學概念的商業實現。——百度百科AAvailabilityCAP理論一個分布式系統不可能滿足一致性、可用性和分區容錯性這三個需求,最多只能同時滿足兩個——EricBrewerCConsistencyPPartitionTolerance分布式計算是一門計算機科學,它研究如何把一個(yīɡè)需要非常巨大的計算能力才能解決的問題分成許多小的局部,然后把這些局部分配給許多計算機進行處理,最后把這些計算結果綜合起來得到最終的結果。第九頁,共三十二頁。CAP博弈(bóyì)分區(fēnqū)容錯性是不能犧牲的AmazonDynamo是一個經典的分布式Key-Value存儲系統,具備去中心化,高可用性,高擴展性的特點,但是為了達到這個目標在很多場景中犧牲了一致性。A+P支付寶這樣的交易和賬務數據則是非常敏感的,通常不能容忍超過秒級的不一致C+P第十頁,共三十二頁。KeyValue分布式存儲系統查詢速度快、存放數據量大、支持高并發不能進行復雜的條件(tiáojiàn)查詢輔以實時搜索引擎進行復雜條件檢索、全文檢索,可替代并發性能較低的關系型數據庫,節省幾十倍效勞器數量B+TreeHash算法(suànfǎ)第十一頁,共三十二頁。大數據(shùjù)時代下的系統需求Highperformance–高并發讀寫的需求 高并發、實時動態獲取和更新數據HugeStorage–海量數據的高效率存儲(cúnchǔ)和訪問的需求 類似SNS網站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴展性和高可用性的需求 需要擁有快速橫向擴展能力、提供7*24小時不間斷效勞第十二頁,共三十二頁。RDBMSVS.NoSQL高并發(bìngfā)讀寫大數據(shùjù)存儲的核心需求高效率存儲(cúnchǔ)和訪問高可擴展性和高可用性低本錢建設運維保證一致性的開銷過大,難以實現高并發存儲性能受限于控制器,性能難以保證關系型表單存儲難以適應不同數據類型上億行數據的超級達標效率極低傳統基于盤陣的存儲設備,造價昂貴,且市場壟斷嚴重,建設本錢居高不下,擴容本錢尤其高許可和維護花費高昂無法簡單的通過添加效勞節點來擴展數據容量和負載能力,難以進行橫向擴展數據庫升級需要停機維護和數據遷移,導致效勞中斷不保證遵循ACID原那么,提高并發讀寫性能
Schema-Free存儲適應不同數據類型舍棄SQL標準功能,盡量簡化數據操作,提升效率MapReduce實現高效訪問基于X86設備,價格低廉開源系統,節省許可費用支持水平擴展,可簡單的通過添加效勞節點來擴展數據容量和負載能力數據庫升級不影響效勞持續第十三頁,共三十二頁。NoSQLNoSQL運動兩個核心理論根底:Google的BigTable BigTable提出了一種很有趣的數據模型,它將各列數據進行排序存儲。數據值按范圍(fànwéi)分布在多臺機器,數據更新操作有嚴格的一致性保證。Amazon的Dynamo Dynamo使用的是另外一種分布式模型。Dynamo的模型更簡單,它將數據按key進行hash存儲。其數據分片模型有比較強的容災性,因此它實現的是相對松散的弱一致性:最終一致性。NoSQL是NotOnlySQL的縮寫,而不是NotSQL,它不一定遵循傳統數據庫的一些(yīxiē)根本要求,比方說遵循SQL標準、ACID屬性、表結構等等。相比傳統數據庫,叫它分布式數據管理系統更貼切,數據存儲被簡化更靈活,重點被放在了分布式數據管理上。第十四頁,共三十二頁。BigTable為管理大規模結構化數據而設計的分布式存儲系統,可以擴展(kuòzhǎn)到PB級數據和上千臺效勞器。Key-Value映射(yìngshè):(row:string,column:string,time:int64)→string
數據模型支撐(zhīchēng)技術Bigtable的表會根據行鍵自動劃分為片〔tablet〕,片是負載均衡的單元。用GFS來存儲日志和數據文件按SSTable文件格式存儲數據用Chubby管理元數據參考文獻:?TheChubbylockserviceforloosely-coupleddistributedsystems? ——Google論文第十五頁,共三十二頁。BigTable一個供客戶端使用的庫一個主效勞(xiàoláo)器〔masterserver〕許多片效勞器〔tabletserver〕
BigTable集群片的定位(dìngwèi)B+樹Chubbyfile:保存roottablet的位置roottablet:元數據表的第一個分片其它(qítā)的元數據片第十六頁,共三十二頁。NoSQL數據庫第十七頁,共三十二頁。NoSQL數據庫使用(shǐyòng)現狀第十八頁,共三十二頁。騰訊在天津投資建立亞洲最大的數據中心;新浪推出企業(qǐyè)微博產品,提供精準的數據分析效勞。商業價值在大數據推動的商業革命暗涌中,要么學會使用大數據的杠桿創造(chuàngzào)商業價值,要么被大數據驅動的新生代商業格局淘汰。標準的虛擬化及分布式存儲內存計算技術——SAP中國區企業信息(xìnxī)管理咨詢資深參謀杜韜Hadoop數據應用策略、數據流技術機器學習算法——百度首席科學家威廉.張Hadoop數據采集、數據存儲、數據處理——Yahoo!北京全球軟件研發中心架構師韓軼平持續創新傳統的企業級數據倉庫產品線收購AsterDataHadoop、MapReduce——Teradata首席客戶官周俊凌第十九頁,共三十二頁。馬云的判斷(pànduàn)來自于數據分析商業價值——淘寶雙“十一〞背后(bèihòu)的技術討論第二十頁,共三十二頁。系統邏輯(luójí)架構系統(xìtǒng)物理架構性能(xìngnéng)比照OceanBase第二十一頁,共三十二頁。政府、金融、電信等行業投資建立大數據的處理(chǔlǐ)分析手段,實現綜合治理、業務開拓等目標;應用到制造等更多行業。商業價值第二十二頁,共三十二頁。結構化數據向非結構化數據演進,使得未來IT投資重點不再是建系統為核心,而是圍繞(wéirào)大數據為核心;海量數據可以在各個部門創造重大的財物價
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 纖維生產項目管理與成本控制考核試卷
- 派遣工績效考核考核試卷
- 毛皮制品加工安全生產培訓考核試卷
- 內蒙古包頭市第二中學2025年初三下學期2月份月考生物試題含解析
- 網絡安全技術實踐教程(微課版)-教案 Linux操作系統安全加固
- 山東體育學院《學前教育研究方法與應用》2023-2024學年第二學期期末試卷
- 十堰市鄖縣2025屆五年級數學第二學期期末聯考模擬試題含答案
- 山西工商學院《中國文化英語教程》2023-2024學年第一學期期末試卷
- 寧夏石嘴山市名校2025屆初三第一次模擬(期末)考試生物試題試卷含解析
- 江西省鷹潭市貴溪市2024-2025學年初三下學期回頭考試數學試題含解析
- 內蒙古自治區部分學校2024-2025學年高三下學期二模地理試題(原卷版+解析版)
- 教研項目合同協議
- JJF 2231-2025感應式磁傳感器校準規范
- 云南省昆明地區2025屆小升初模擬數學測試卷含解析
- 委托設計框架合同協議
- 風險化學品事故應急預案
- 第3課 中華文明的起源(教學設計)七年級歷史上冊同步高效課堂(統編版2024)
- 【浙江卷地理試題+答案】浙江省高考科目考試2025年4月紹興市適應性試卷(紹興二模)
- 2024年高校輔導員筆試重點試題及答案
- 農藝師行業標準與職業道德探討試題及答案
- 人工智能在情緒調節與積極心理學中的應用-全面剖析
評論
0/150
提交評論