




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據時代的數據庫11云計算概念提出2Hadoop的發展歷史3Hadoop的核心技術MapReduce4Hadoop核心技術數據庫Hbase5其它NoSQL數據庫23大數據特性4V特性Volume(數據量大)Variety(種類多)Value(價值密度低,商業價值高Velocity(處理速度快)對傳統數據庫的挑戰4用一個實例來理解云計算512345開發人員部署代碼,上傳數據庫結構和數據,并進行必要的測試,之后運維人員開通網站運行期間,企業需要雇傭專門人員負責服務器和網絡的維護,定期備份數據等日常工作購買數據庫服務器來部署后臺數據庫配置網站的域名等工作購買應用服務器來部署這個網站云計算所需解決的問題
——假設某家企業開發一個旅游網站數據量6云計算所需解決的問題
——假設某家企業開發一個旅游網站企業需要待解決的問題1、購買新的服務器2、增加更多的運維成員3、購買和安裝設備都是需要時間的,可能在此期間整個網站出現響應減慢,經常出錯、導致大量的客戶流失4、淡季的時候,訪問量低,剛購買的服務器又成為資源的浪費成本效益怎樣解決這個問題呢?7云計算所需解決的問題
——假設某家企業開發一個旅游網站
引入云計算,它可以從根本上解決這個問題,因為云計算是通過互聯網將共享的硬件軟件資源按需提供給使用者,所有的設備都是由云計算服務商維護,這樣無論是專業的軟件開發商,還是最終的客服,都可以將全部精力集中于業務領域,而無須考慮硬件維護、容災等運維問題,無形之中也為企業節省了成本、提高了經濟效益…………8何為云計算?(理解1)
云計算,其實就是把所有的計算應用和信息資源都用互聯網連接起來,供個人和企業用戶隨時訪問、分享、管理和使用,相關的資源可以通過全球任何一個服務器和數據中心來提取的技術。9何為云計算?(理解2)
是通過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再由多部服務器所組成的龐大系統搜索、計算分析之后將處理結果回傳給用戶。通過這項技術,遠程的服務供應商可以在數秒之內,達成處理數以千萬計甚至億計的信息,達到和“超級電腦”同樣強大性能的網絡服務。10網絡計算發展趨勢2012云格(Gloud=Grid+Cloud)1995集群計算原理:指令層次的并行1998網格計算原理:任務并行1999對等計算原理:數據并行2007云計算原理:位層次的并行(可處理長字節)網格技術:主要解決分布在不同機構的各種信息資源的共享問題云計算:主要解決計算力和存儲空間的集中共享使用問題。11為什么云計算如此流行特別是NoSQL---非關系型數據庫12那么云計算數據庫是怎樣提出的呢?數據量1、關系數據庫高并發讀寫速度慢2、關系數據庫支撐容量有限------類似Facebook、Twitter這樣的SNS網站,
用戶每天產生海量的用戶動態,每月
會產生幾億條用戶動態,對于關系型
數據庫來說,在一張數億條記錄的表
里面進行SQL查詢,效率是極其低下
乃至不可忍受的。3、關系數據庫擴展性差4、數據日趨龐大,無論是入庫和查詢,
都出現性能瓶頸5、用戶的應用和分析結果呈整合趨勢,
對實時性和響應時間要求越來越高Nosql13關系數據庫與Hadoop分布式系統的比較————為何云計算數據采用Hadoop分布式系統14云計算的核心技術15云計算提出——hadoop思想用很多小型PC機來代替大型服務器16云計算核心技術——hadoop子項目家族數據倉庫工具,可以看成是從SQL到Map-Reduce的映射器ZooKeeper用于協調分布式系統上的各種服務,應用場景、實現Namenode自動切換Avro數據序列化工具,用于支持大批量數據交換的應用。支持二進制序列化方式,可以便捷,快速地處理大量數據
Chukwa在Hadoop之上的數據采集與分析框架、主要進行日志采集和分析Pig可以看做hadoop的客戶端軟件,可以連接到hadoop集群進行數據分析工作17云計算核心技術——英特爾hadoop發行版組件SQL-to-HDFS工具,利用jdbc連接關系形數據庫如連接Oracle要安裝:ojdbc6.jar如連接My-Sql要安裝:mysql-connector18云計算核心技術——hadoop的發展歷史2004年,Google發表論文,向全世界介紹了MapReduce。2005年初,為了支持Nutch搜索引擎項目,Nutch的開發者基于Google發布的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用。
2006年1月,DougCutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網絡上運行的系統。2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。2007年,中國移動開始在“大云”研究中使用Hadoop技術,規模超過1000臺。2008年,淘寶開始投入研究基于Hadoop的系統——云梯,并將其用于處理電子商務相關數據。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB數據。
19云計算核心技術——hadoop的發展歷史
2008年7月,Hadoop打破1TB數據排序基準測試記錄。Yahoo!的一個Hadoop集群用209秒完成1TB數據的排序,比上一年的紀錄保持者保持的297秒快了將近90秒。2009年5月,Yahoo的團隊使用Hadoop對1TB的數據進行排序只花了62秒時間。2010年5月,IBM提供了基于Hadoop的大數據分析軟件——InfoSphereBigInsights,包括基礎版和企業版。2011年8月,Cloudera公布了一項有益于合作伙伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商以及系統集成商可以一起探索如何使用Hadoop更好的洞察數據。2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——ClouderaEnterprise。20Hadoop框架云計算核心技術1、管理文件系統的命名空間記錄每個文件數據塊在各個Datanode上的位置和副本信息2、協調客戶端對文件的訪問3、記錄命名空間內的改動或空間本身屬性的改動4、Namenode使用事務日志記錄HDFS元數據的變化。使用映像文件存儲文件系統的命名空間,包括文件映射,文件屬性等1、負責所在物理節點的存儲管理2、一次寫入,多次讀取3、文件由數據塊組成,典型的塊大小是64MB4、數據塊盡量散布道各個節點21——分布式文件系統(HDFS)/MapReduce原理云計算核心技術MAPReduce22云計算核心技術——MapReduce編程模型23Example:CountingWordsMap()?Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<”hello”,1>Reduce()?Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<”hello”,(3527)>=><”hello”,17>24云計算核心技術——Hbase數據庫的基本概念1、HBase是一個分布式的、面向列的開源數據庫,來自Google論文“Bigtable:一個結構化數據的分布式存儲系統”
2、HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫.另一個不同的是HBase基于列的而不是基于行的模式25——Hbase邏輯模型云計算核心技術1、以表的形式存放數據2、表由行與列組成,每個列屬于某個列族,由行和列確定的存儲單元稱為元素3、每個元素保存了同一份數據的多個版本,由時間戳來標識區分限定符,列名Key值天生面向時間查詢的數據庫26——Hbase物理模型云計算核心技術Hmaster管理元數據(表分區、管理該分區的RegionServer)RegionServer負責Region數據的存儲和讀取通過client讀寫數據Hbase的所有數據(Hlog和Hfile)均存儲到HDFS上,HDFS將文件劃分為64MB的block,并存儲多個副本災難分析一個列簇27云計算核心技術——行式數據庫與列式數據庫理解281、對應每次數據操作的時間,可由系統自動生成,也可以由用戶顯式的賦值2、Hbase支持兩種數據版本回收方式:A、
每個數據單元,只存儲指定個數的最新版本B、保存指定時間長度的版本(例如7天)3、常見的客戶端時間查詢:“某個時刻起的最新數據”或“給我全部版本的數據”。云計算核心技術——Hbase特點與BigTable思想29云計算核心技術——Hbase和Oracle比較1、Hbase適合大量插入同時又有讀取的情況
2、Hbase的瓶頸是硬盤傳輸速度3、Oracle的瓶頸是硬盤尋道時間4、Hbase很適合尋找按照時間排序topn的場景30云計算核心技術——Hbase場景案列:瀏覽歷史31云計算的核心技術在現實應用注意:下面實例大部分摘錄于2012年hadoop與大數據技術大會該會議舉行時間:2012年11月30日-12月1日在北京該會議權威級別:32------應用之一HadoopinTelecom云計算核心技術載波的優化用戶的分割瞬間查詢3G用戶數量的記錄33云計算核心技術------應用之二HadoopinSmartCity罰單信息流處理34云計算核心技術------應用之三阿里云“云梯”集群發展淘寶的搜索引擎能夠對數十億的商品數據進行實時搜索,另外還擁有自主研發的文件存儲系統和緩存系統,以及Java中間件和消息中間件系統,這一切組成了一個龐大的電子商務操作系統。35云計算核心技術------應用之三阿里云“云梯”數據平臺框架36云計算核心技術------應用之三百度數據倉庫框架DW37云計算核心技術HADOOP------數據存入和抽取每小時移動數十TB的交易數
據、交互數據和流數據38全球領先的獨立企業數據集成軟件提供商云計算核心技術----應用五
大數據是云計算的兩大核心內容之一39云計算核心技術----應用五
大數據是云計算的兩大核心內容之一全世界權威IT咨詢公司研究報告預測KB,MB,GB、TB,PB、EB、ZB、YB、BB
1ZB=1.153*1018
KB40一、大數據存儲管理和索引查詢問題二、Hadoop性能優化問題三、圖數據并行計算模型和框架四、并行化機器學習和數據挖掘算法五、社會網絡分析六、排名和推薦七、Web信息挖掘和檢索八、媒體分析檢索九、自然語言處理十、大數據可視化計算與分析云計算核心技術當今數據熱點研究的十個問題:----數據分析發展趨勢系統層基礎算法應用算法應用技術41Hadoop----發展形勢hadoop42BerkeleyBDAS平臺43NoSQL數據庫基礎理論CAP理論與一致性模型數據存儲模型與數據庫Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44CAP理論強一致性(Consistency)系統在執行某操作后仍處于一致的狀態。可用性(Availability)每一個操作能夠在一定時間內返回結果,如果超時則被認為不可用。分區容錯性(Partitiontolerance)在網絡分區(被劃分成孤立的區域)的情況下仍可接受請求。45/101多副本數據一致性模型強一致性無論更新在哪個副本上進行,之后的所有操作都能獲得更新的數據。弱一致性用戶讀到某一操作對系統的更新需要一段時間最終一致性保證用戶最終能夠讀到某一操作對系統的更新46/10147應用場景:內容緩存,主要用于處理大量數據的高訪問負載,也用于一些日志系統。優點:查找迅速缺點:數據無結構,通常只被當做字符串或二進制數據48Java實現的開源key-value數據庫特征數據自動冗余備份于多個結點上數據分區存儲單點故障對整個系統透明支持復雜數據類型的序列化將數據項進行版本化,出現故障時最大限度保證數據的完整性49開源項目,源代碼采用了Apache2.0的使用許可特征自動將在線數據遷移到低延遲的存儲介質的技術(內存,固態硬盤,磁盤)可選的寫操作一一異步,同步(基于復制,持久化)多線程低鎖爭用盡可能使用異步處理自動實現重復數據刪除動態再平衡現有集群通過把數據復制到多個集群單元和支持快速失敗轉移來提供系統的高可用性。5051應用場景:分布式文件系統優點:查找迅速,可擴展性強,更容易進行分布式擴展缺點:功能相對有限525354最初由Facebook開發,用于儲存收件箱等簡單格式數據,集GoogleBigTable的數據模型與AmazonDynamo的完全分布式的架構于一身Facebook于2008將Cassandra開源,此后,由于Cassandra良好的可擴放性,被Digg、Twitter等知名Web2.0網站所采納,成為了一種流行的分布式結構化數據存儲方案。主要特征:模式靈活:使用Cassandra,像文檔存儲,你不必提前解決記錄中的字段。真正的可擴展性:Cassandra是純粹意義上的水平擴展。為給集群添加更多容量,可以指向另一臺電腦。你不必重啟任何進程,改變應用查詢,或手動遷移任何數據。分布式寫操作:有可以在任何地方任何時間集中讀或寫任何數據。并且不會有任何單點失敗。列表數據結構:在混合模式可以將超級列添加到5維。對于每個用戶的索引,這是非常方便的。55應用場景:web應用等優點:數據要求不嚴格,不需要預先定義結構缺點:查詢能力不高,缺乏統一的查詢語法56可以通過JavaScriptObjectNotation(JSON)API訪問“Couch”=
“ClusterOfUnreliableCommodityHardware”,目標具有高度可伸縮性,提供了高可用性和高可靠性,即使運行在容易出現故障的硬件上也是如此特點CouchDB是分布式的數據庫,他可以把存儲系統分布到n臺物理的節點上面,并且很好的協調和同步節點之間的數據讀寫一致性CouchDB是面向文檔的數據庫,存儲半結構化的數據CouchDB支持RESTAPI,可以讓用戶使用JavaScript來操作CouchDB數據庫,也可以用JavaScript編寫查詢語句,用AJAX技術結合CouchDB開發出來的CMS系統會簡單方便57工作原理CouchDB構建在強大的B+樹儲存引擎之上。這種引擎負責對CouchDB中的數據進行排序,并提供一種能夠在對數均攤時間內執行搜索、插入和刪除操作的機制。數據庫的結構獨立于模式,依賴于使用視圖創建文檔之間的任意關系,使用Map/Reduce計算這些視圖的結果在CouchDB中沒有鎖機制,它使用的是多版本并發性控制(Multiversionconcurrencycontrol,MVCC)58特點介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的支持的數據結構非常松散,是類似json的bson格式,因此可以存儲比較復雜的數據類型支持的查詢語言非常強大,其語法有點類似于面向對象的查詢語言,幾乎可以實現類似關系數據庫單表查詢的絕大部分功能,而且還支持對數據建立索引59技術特點面向集合存儲,易存儲對象類型的數據。模式自由。支持動態查詢。支持完全索引,包含內部對象。支持復制和故障恢復。使用高效的二進制數據存儲,包括大型對象(如視頻等)。自動處理碎片,以支持云計算層次的擴展性。支持RUBY,PYTHON,JAVA,C++,PHP,C#等多種語言。文件存儲格式為BSON(一種JSON的擴展)。60應用場景:社交網絡、推薦系統、關系圖譜優點:算法可以直接存取圖結構,提高性能缺點:功能相對有限,不好做好分布式集群解決方案61stolefromloveslovesenemyenemyAGoodManGoestoWarappearedinappearedinappearedinappearedinVictoryoftheDaleksappearedinappearedincompanioncompanionenemy62
Modelsofgraphs
RepresentationofagraphSocialscale...DataSpaceWhat’sNeo4j?It’sisaGraphDatabaseEmbeddableandserverFullACIDtransactionsdon’tmessaroundwithdurability,ever.Schemafree,bottom-updatamodeldesign67CoreAPINeo4jLogicalArchitectureRESTAPIJVMLanguageBindingsTraversalFrameworkCachesMemory-Mapped(N)IOFilesystemJavaRubyClojure…GraphMatching68DataaccessisprogrammaticThroughtheJavaAPIsJVMlanguageshavebindingstothesameAPIsJRuby,Jython,Clojure,Scala…ManagingnodesandrelationshipsIndexingTraversin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年注冊會計師考試《會計》套期會計財務報告模擬試題
- 2025年專升本藝術概論考試模擬卷:藝術與科技融合對藝術評論的影響試題
- 2025年小學英語畢業考試模擬試卷:英語歌曲與童謠教學情境模擬案例試題
- 2025年大學輔導員選拔:學生心理健康測評技巧與策略試題試卷
- 2025年專升本藝術概論考試沖刺卷(藝術史論重點時期解析及答案)
- 2025年ACCA國際注冊會計師考試真題卷:稅法與稅收籌劃策略
- 2025年鄉村醫生考試題庫:農村醫療衛生服務體系建設政策試題
- 2025年小學語文畢業升學考試全真模擬卷(基礎夯實版)-小學語文基礎知識鞏固試題
- 2025年鄉村醫生考試題庫:農村婦幼保健知識慢性病管理試題匯編
- 內蒙古能源職業學院《工程數學》2023-2024學年第二學期期末試卷
- 天然氣管道置換記錄表
- 護士單人心肺復蘇技術操作考核評分標準
- 高中生物奧賽輔導資料
- 人類行為與社會環境課件
- 搞好班組安全建設
- 富馬酸伊布利特幻燈課件
- 陜西省潼關縣潼峪-蒿岔峪金礦開采項目環評報告
- 高中化學常見晶體的結構及晶胞
- 著色探傷作業指導書
- 2002-2022廣東省深圳市中考數學歷年真題(共24套最全)學生版+解析版
評論
0/150
提交評論