




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1講《數據庫技術》簡介一.本課程主要內容二.主要參考書三.課程要求和考核方式四.數據庫領域研究的三個主要方面五.數據管理技術的產生和數據庫系統組成六.數據庫系統外部體系結構的演變七.數據庫領域的新技術
簡單介紹Key/Value數據庫、大數據技術、云計算中的數據庫。一.本課程主要內容(包括關系數據庫和新型數據庫)第一章關系和關系模型數據模型,關系和關系模式,鍵,關系的更新.第二章關系運算布爾運算,選擇,投影,連接,除,常關系,屬性命名,關系代數.第三章數據依賴函數依賴、多值依賴和連接依賴,數據依賴的公理系統,依賴集的等價和覆蓋及算法。第四章關系數據庫范式范式的概念,1NF~5NF,模式分解及其算法,生成范式的不同算法。第五章數據庫系統設計數據庫系統設計與數據庫設計,數據庫系統設計的任務與內容,數據庫系統設計方法與步驟。第六章數據庫管理系統數據庫管理系統的系統結構、主要功能、實現技術、語言處理,當前流行的主流數據庫管理系統簡介。
關系數據庫補充內容:連接面向對象編程和關系數據庫的橋梁---Hibernate應用程序的分層體系結構和Hibernate的作用、軟件的模型、
在Java應用中使用Hibernate的步驟:創建Hibernate的配置文件、 創建持久化類、創建數據庫Schema、創建對象-關系映射文件 、通過HibernateAPI操縱數據庫。新型數據庫部分第七章分布式數據庫系統分布式數據庫系統的特點,分布式數據庫系統的體系結構,分布式查詢處理,分布式事務管理,分布式目錄,數據庫的安全保護,數據庫的完整性保護。第八章面向對象數據庫
新應用的需求與傳統數據庫的局限性,面向對象數據模型,面向對象數據庫系統的查詢、并發控制,面向對象數據庫管理系統,對象-關系數據庫管理系統。第九章云計算中的數據庫
介紹幾種典型云計算中的數據庫存儲和管理系統,包括:Google云計算中的數據庫Bigtable、Hadoop中的數據庫HBase、Amazon云計算中的中的簡單數據服務SimpleDB和關系數據庫服務RDS、微軟云計算中的數據庫SQLAzure等。云計算補充內容:云計算的概念、云計算發展現狀、云計算實現機制等。
第十章數據庫技術新進展
數據庫技術新進展,包括:數據倉庫、數據挖掘、并行數據庫、Web數據庫、多媒體數據庫、工程數據庫、主動數據庫等。第十一章數據庫技術論文選讀選擇10-15篇與教學內容相關的學術論文進行講解,讓學生了解本學科的基本研究方法和研究方向。
二.
主要參考書1.周志逵江濤,數據庫理論與新技術北京理工大學出版社2001.42.王珊薩師煊,數據庫系統概論高等教育出版社20093.孫衛琴,精通Hibernate:Java對象持久化技術詳解第2版
電子工業出版社2013.14.李昭原,數據庫技術新進展清華大學出版社2007.105.劉鵬,云計算(第二版),電子出版社,2011.10
因為數據庫技術涉及內容廣泛,本課程使用了比較多的參考書,不同章節使用不同參考書中相關部分,但本課程內容本身自成體系。對以前一點沒有學過數據庫基本知識的同學,可以從參考書2或其它相關參考書中進一步相關知識。
三.
課程要求和考核方式掌握相關理論、原理和技術完成有課后書面作業和上級實踐期末閉卷考試成績:平時作業(20)+期末考試成績(80)四.數據庫領域研究的三個主要方面1.數據庫管理系統(DBMS)
研究數據庫設計方法和實現技術,數據模型,對持久性數據的有效存儲和存取方法,數據結構定義和數據操縱語言,用戶接口等。數據庫管理系統軟件是位于用戶和操作系統之間的數據管理軟件。如ORACLE、SQLServer、DB2、ACCESS等。2.
數據庫應用系統的設計方法和工具
早期有設計指南和規范標準,設計階段的計算機輔助設計工具,計算機輔助設計全過程。要求設計工具能夠支持不同應用領域數據庫設計,如支持復雜對象設計等。
3.有關數據模型及設計理論的研究(7方面)(1)數據依賴理論函數依賴、多值依賴、連接依賴(2)規范化理論范式、算法、模式分解(3)查詢優化理論包括邏輯層和物理層的優化(4)泛關系理論泛關系模型、泛關系表示、泛關系查詢(5)符號表追蹤理論(6)超圖理論利用超圖研究數據庫模式的特性(7)空值理論(不確定信息)空值表示,加了空值后的運算、推理,空值的分類,分解方法、查詢優化等。
1.數據管理技術產生人工管理階段(上世紀50年代初期)應用程序管理數據數據不共享數據不具有獨立性應用程序1應用程序2應用程序n數據集1數據集2數據集n
五.數據管理技術產生和數據庫系統組成
數據庫系統階段(上世紀60年代后期)數據結構化數據的共享性高,冗余度低,易擴充數據獨立性高數據由DBMS統一管理和控制程序1程序2程序n數據庫管理系統數據庫2.數據庫系統(DBS)組成
由:數據庫、數據庫管理系統、應用系統、數據庫管理員(DBA)、數據庫用戶構成的系統用戶1用戶2用戶3應用系統操作系統數據庫用戶開發工具數據庫管理系統DBA后頁數據庫(DataBase,DB)長期存放在計算機內的、有組織的、可共享的數據集合。數據庫管理系統(DataBaseManagementSystemDBMS)數據庫管理系統是位于用戶和操作系統之間的數據管理軟件。如ORACLE、SQLServer、DB2、ACCESS等。數據庫管理系統的功能是:科學地組織和存儲數據、高效地獲取和維護數據。數據庫管理員
DatabaseAdministratorDBA全面負責管理和控制數據庫系統具體任務決定數據庫中信息內容和結構存儲結構和存取方式定義定義數據的安全性和完整性約束條件改進和重構數據庫系統監控數據庫的使用和運行數據庫用戶用戶(DatabaseUsers)可以按照使用系統的不同方式進行區分:復雜用戶可直接使用查詢語言的技術人員專家用戶:可根據需要編寫特定的數據庫應用程序簡單用戶使用編制好的應用程序訪問數據庫如銀行的職員、機票預定人員、旅館總臺服務員偶然用戶企業或組織機構的高中級管理人員其它人員:系統分析員負責應用系統的需求分析和規范說明與用戶及DBA協商,確定系統的硬軟件配置參與數據庫系統的概要設計數據庫設計人員參加用戶需求調查和系統分析確定數據庫中的數據設計數據庫各級模式應用程序員設計和編寫應用系統的程序模塊進行調試和安裝六.數據庫系統外部體系結構的演變(1)單用戶結構(2)主從式結構(3)分布式結構(4)客戶/服務器結構的數據庫系統(C/S)(5)瀏覽器/服務器模式(B/S)(6)嵌入式數據庫系統1.單用戶數據庫系統整個數據庫系統(應用程序、DBMS、數據)裝在一臺計算機上,為一個用戶獨占,不同機器之間不能共享數據早期的最簡單的數據庫系統例如一個企業的各個部門都使用本部門的機器來管理本部門的數據,各個部門的機器是獨立的。由于不同部門之間不能共享數據,因此企業內部存在大量的冗余數據2.主從式結構的數據庫系統一個主機帶多個終端的多用戶結構數據庫系統,包括應用程序、DBMS、數據,都集中存放在主機上,所有處理任務都由主機來完成各個用戶通過主機的終端并發地存取數據庫,共享數據資源主從式結構的數據庫系統的優缺點優點:易于管理、控制與維護缺點:當終端用戶數目增加到一定程度后,主機的任務會過分繁重,成為瓶頸,從而使系統性能下降系統的可靠性依賴主機,當主機出現故障時,整個系統都不能使用分布式數據庫系統是地理上分布在網絡的不同結點,而邏輯上屬于同一個系統的數據庫系統。
分布式數據庫將分散存儲在計算機網絡中的多個節點上的數據庫在邏輯上統一管理。它是建立在數據庫技術與網絡技術發展的基礎之上的。
最初的數據庫一般是集中管理的,隨著網絡的擴大,增加了網絡的負荷,對數據庫的管理也困難了,分布式數據庫則可克服這些缺點,分布式數據庫可供地理位置分散的用戶共享彼此的數據資源。
3.分布式數據庫系統21分布式數據庫的特點和組成
分布式數據庫系統的特點1.數據是分布的2.數據是邏輯相關的3.結點自治性
分布式數據庫管理系統的組成
1.局部數據庫管理系統(LDBMS)2.全局數據庫管理系統(GDBMS)3.全局數據字典GDD4.網絡通信管理CM
計算機計算機計算機通信網絡數據庫數據庫數據庫4.C/S結構的數據庫系統客戶/服務器(Client/Server,C/S)
C/S是一種網絡架構,它把客戶端(Client)與服務器(Server)區分開來。每一個客戶端軟件的實例都可以向一個服務器或應用程序服務器發出請求。C/S結構的數據庫系統把DBMS功能和應用分開網絡中某個(些)結點上的計算機專門用于執行DBMS功能,稱為數據庫服務器,簡稱服務器其他結點上的計算機安裝DBMS的外圍應用開發工具和用戶的應用系統,稱為客戶機客戶/服務器數據庫系統的種類集中的服務器結構一臺數據庫服務器,多臺客戶機分布的服務器結構在網絡中有多臺數據庫服務器分布的服務器結構是客戶/服務器與分布式數據庫的結合客戶/服務器結構的優點客戶端的用戶請求被傳送到數據庫服務器,數據庫服務器進行處理后,只將結果返回給用戶,從而顯著減少了數據傳輸量數據庫更加開放客戶與服務器一般都能在多種不同的硬件和軟件平臺上運行可以使用不同廠商的數據庫應用開發工具客戶/服務器結構的缺點“胖客戶”問題:系統安裝復雜,工作量大應用維護困難,難于保密,造成安全性差相同的應用程序要重復安裝在每一臺客戶機上,從系統總體來看,大大浪費了系統資源系統規模達到數百數千臺客戶機,它們的硬件配置、操作系統又常常不同,要為每一個客戶機安裝應用程序和相應的工具模塊,其安裝維護代價便不可接受了。多層(三層)C/S結構,在客戶和服務器間增加了應用服務器一級,專門處理商業邏輯,關鍵算法。…服務器客戶客戶客戶客戶應用服務器三層C/S結構多層C/S結構前端的客戶層:負責提供可以移植的表達邏輯
中間的應用層:實現各類業務邏輯后端的數據管理層與服務層:提供對專門服務的訪問
Internet由許多獨立的商業網、教育網、政府機構網互連而組成。Internet上提供的服務有信息瀏覽、電子郵件、會議、發送接收文件等。網絡間通過公共協議(TCP/IP)通信。
Web是一個基于超媒體的信息網絡,通過超級連接瀏覽Internet上的信息。Web中的計算機可有二種角色:客戶機(瀏覽器)、服務器。作為服務器,可以提供信息;作為客戶機可以瀏覽和請求信息。服務器與瀏覽器間通過HTTP協議交換信息。5.瀏覽器/服務器模式(B/S)
中間件負責管理Web服務器與數據庫服務器間的通信,應用程序的業務計算和數據庫訪問。Web客戶機InternetWeb客戶機Web客戶機HTTP中間件(CGI)WeB服務器數據庫服務器結束6嵌入式數據庫系統
嵌入式數據庫或移動式數據庫(EDBS/EMDBS)
各種移動設備、智能計算設備、嵌入式設備(手機、機頂盒、電冰箱、洗衣機)
基于GPS的應用
通過地球同步通訊衛星(GPS)傳送地圖信息或位置信息。用于車輛定位、對自然資源和環境的控制和管理
Key/Value數據庫大數據技術
云計算中的數據庫(9)分布式數據庫(7)面向對象數據庫(8)對象—關系數據庫(8)
數據倉庫和數據挖掘(10)主動數據庫(10)空間數據庫(10)時態數據庫(10)嵌入式數據庫(10)并行數據庫(10)多媒體數據庫(10)工程數據庫(10)
七.數據庫領域的新技術
除了關系數據庫外,有新的數據庫不斷出現,包括:
1.Key/Value數據庫
具備高可靠性及可擴展性的海量數據存儲對互聯網公司來說是一個巨大的挑戰,傳統的數據庫往往很難滿足該需求,并且很多時候對于特定的系統絕大部分的檢索都是基于主鍵的的查詢,在這種情況下使用關系型數據庫將使得效率低下,并且擴展也將成為未來很大的難題。在這樣的情況下,使用Key-value存儲將會是一個很好的選擇。
目前幾種典型云計算系統也采用Key-value存儲方法,或Key-value存儲方法的變體。比如:
亞馬遜Dynamo就是一種高可用的分布式Key/value數據存儲與管理系統;
FacebookCassandra---開源的高可伸縮分布式Key/value數據存儲與管理系統;GoogleBigTable的數據結構采用一個多維稀疏矩陣,矩陣中所有信息基于主鍵進行排序。
key/value的數據結構域(Domain)+數據項(Item)
域類似于“表”,但無結構;作用是容納數據項。
數據項用Key定義,所有與一個數據項相關的內容都存儲到該數據項中。
可以將Key-value數據存儲系統理解為面向數據項的系統,所有與一個數據項相關的內容都存儲帶該數據項中。在同一個域中存儲的數據項可以有不同的結構,一個給定的數據項也許有多個動態變化的屬性。
由于與數據項相關的內容都存儲在一個單獨的數據項中,因此要獲取一個數據項的相關內容無需多個表之間的Jion操作。Key/Value數據模型和關系數據庫模型舉例
一個域中,不同數據項中很可能有重復存儲的數據內容,好在由于磁盤的單位價格越來越低,重復存儲并不是很大的問題了,而這種數據結構卻為系統的可伸縮性帶來了很大的便利,數據可以容易得擴展到其他機器上。一個Key/Value數據模型例子如下圖:
關系數據庫模型如下圖:
關系數據庫中的SQL與Key/Value模型中的API
關系數據庫的數據創建、更新、刪除和獲取都使用SQL完成,SQL查詢可以從單個表或者通過多個表的Join操作來獲取數據,SQL查詢包括聚集、復雜的數據過濾等功能。傳統關系數據庫還包括將一些數據處理邏輯嵌入到數據存儲中的實現,例如存儲過程、觸發器等。
Key/Value數據的創建、更新、刪除和獲取都是用API方法調用。
Key/Value的特點數據模型:無數據模式,與數據項相關的內容都存儲在一個單獨的數據項中–要獲取一個數據項的相關內容無需多個表之間的Join操作–便于擴展–重復存儲–在數據模型設計時,沒有范式的概念,沒有表示關系和關系約束的機制(增加了應用程序的負擔)數據訪問機制:–API,而非SQL,少數提供類似SQL的語法定義過濾規則–關系數據庫有存儲過程、觸發器等,將數據處理邏輯在數據存儲和管理系統中實現,但Key/Value的這些處理邏輯全部實現在應用代碼中。應用接口:–SOAP/REST服務接口–一個數據項和一個“對象”對應,直接映射到應用程序代碼,無需進行對象關系映射.
Key/Value數據模式優缺點
Key/Value的優點:–便于擴展,適于云計算的環境–與應用程序代碼的兼容性更好
Key/Value的缺點:–數據完整性約束轉移至應用程序–目前的很多Key/Value數據存儲系統之間不兼容–在云環境中,很多用戶和應用使用同一個系統。為了避免一個進程使共享環境超載,往往嚴格限制一個單獨的查詢所能夠產生的全局影響。
例如,在SimpleDB中,不允許用戶運行一個超過5秒鐘的查詢,在GoolgeAppEngine數據存儲中,用戶一次查詢返回的數據項只允許在1000條以內。這對于很多商業應用來說,是不現實的。特別是對于數據分析應用,例如用戶使用模式跟蹤、推薦系統等來說,這樣的限制是不可容忍的。
分布式key/value存儲系統比關系數據庫更適于互聯網環境互聯網環境中進行數據處理的需求特點:
數據規模較大,數據存儲必須便于擴展;
大多是非結構化的數據,很多情況下無需進行復雜的查詢;關系數據庫:
數據結構化、為進行復雜的數據查詢設計
表結構較為復雜,不便于在分布式環境下進行數據擴展。
分布式Key/value數據存儲與管理系統應用舉例1
(1)
亞馬遜Dynamo---高可用的分布式Key/value數據存儲與管理系統
Amazon運行一個全球性的電子商務服務平臺,在繁忙時段使用位于世界各地的許多數據中心的數千臺服務器為幾千萬的客戶服務。Amazon平臺有嚴格的性能、可靠性和效率方面操作要求,并支持持續增長,因此平臺需要高度可擴展性。可靠性是最重要的要求之一,因為即使最輕微的系統中斷都有顯著的經濟后果和影響客戶的信賴。Amazon服務平臺中的許多服務只需要主鍵訪問數據存儲。對于許多服務,如提供最暢銷書排行榜、購物車、客戶的偏好、會話管理、銷售等級、產品目錄,常見的使用關系數據庫的模式會導致效率低下、有限的可擴展性和可用性。Dynamo提供了一個簡單的主鍵唯一的接口,以滿足這些應用的要求。Dynamo通過一個簡單的接口將對象與key關聯,它有了兩個操作:get()和put()。get(key)操作在存儲系統中定位與key關聯的對象副本,并返回一個對象或一個包含沖突的版本和對應的上下文對象列表。put(key,context,object)操作基于關聯的key決定將對象的副本放在哪,并將副本寫入到磁盤。
分布式Key/value數據存儲與管理系統應用舉例2(2)
Cassandra---開源的高可伸縮分布式Key/value數據存儲與管理系統
Cassandra是一個分布式的存儲系統,可用來管理分布在大量廉價服務器上的巨量結構化數據,并同時提供沒有單點故障的高可用服務.Cassandra是一套高度可擴展、最終一致、分布式的結構化鍵值存儲系統,結合了Dynamo的分布技術和Google的BigTable數據模型,更好滿足了海量數據存儲需求,解決了應用與關系數據庫模型之間存在的非依賴關系。
Cassandra中的表是一個按照主鍵索引的分布式多維圖.
Cassandra的API由下面三種方法組成.?insert(table,key,rowMutation)?get(table,key,columnName)?delete(table,key,columnName)
2.大數據技術簡介(1)大數據的由來和特征
(2)大數據的應用(3)大數據相關技術(4)大數據的研究方向想駕馭這龐大的數據,我們必須了解大數據的特征。地球上至今總共的數據量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB
=2^50字節1EB
=2^60字節1ZB=2^70字節(1)大數據的由來和特征
大數據時代的爆炸增長何為大?___數據度量
1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes《紅樓夢》含標點87萬字(不含標點853509字)每個漢字占兩個字節:1漢字=16bit=2*8位=2bytes1GB約等于671部紅樓夢1TB約等于631,903部1PB約等于647,068,911部美國國會圖書館藏書(151,785,778冊)(2011年4月:收錄數據235TB)中國國家圖書館:2631萬冊1EB=4000倍美國國會圖書館存儲的信息量MGI估計,全球企業2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數據,同時,消費者在PC和筆記本等設備上存儲了超過6EB新數據
21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。
互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。“大數據”的誕生:半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。大數據時代的背景“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。VolumeVelocityValueVariety大數據的4V特征
(2)大數據的應用
互聯網上的數據看起來數量龐大卻用處寥寥,但事實上,只要處理好這些數據,就能給商家帶來巨大的利益。舉一個簡單的例子:商家針對性地給客戶提供廣告與優惠信息消費服務前瞻來看,隨著互聯網對網民的理解,網民對網絡的反作用,互聯網將變得越來越智能。它在滿足你需求的同時,也在創造新的需求。前者的代表是Google,后者的典型則是Facebook。谷歌的盈利在于所有的軟件應用都是在線的。用戶在免費使用這些產品的同時,把個人的行為、喜好等信息也免費的送給了Google。因此Google的產品線越豐富,他對用戶的理解就越深入,他的廣告就越精準。廣告的價值就越高。這是正向的循環,谷歌好用的、免費得軟件產品,換取對用戶的理解;通過精準的廣告,找到生財之道。顛覆了微軟賣軟件拷貝賺錢的模式。成為互聯網的巨擘。互聯網越來越智能Google精確掌握用戶行為、獲取需求政治經濟監控手機的使用狀況和賬單的繳付模式如果數據突然發生變化,那可能預示著經濟困境正在加劇國情調控對Twitter和Facebook等社交媒體網站的數據篩查若社交媒體提及糧食或種族沖突,那可能預示爆發了饑荒或者國內騷亂醫療保衛社交媒體上提到某地區受到感染,是對疫情流行的有效早期預警密不可分的大數據與云計算商業模式驅動應用需求驅動云計算本身也是大數據的一種業務模式大數據是落地的云云計算的模式是業務模式,本質是數據處理技術。數據是資產,云為數據資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數據資產的能力,挖掘價值性信息和預測性分析,為國家、企業、個人提供決策和服務,是大數據核心議題,也是云計算的最終方向。政府職能變革重視應用大數據技術,盤活各地云計算中心資產:把原來大規模投資產業園、物聯網產業園從政績工程,改造成智慧工程;在安防領域,應用大數據技術,提高應急處置能力和安全防范能力;在民生領域,應用大數據技術,提升服務能力和運作效率,以及個性化的服務,比如醫療、衛生、教育等部門;解決在金融,電信領域等中數據分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數型數據的統計分析;政府投入將形成示范效應,大大推動大數據的發展。大數據的應用舉例——政府美國奧巴馬政府在白宮網站發布《大數據研究和發展倡議》,提出“通過收集、處理龐大而復雜的數據信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創新步伐,強化美國國土安全,轉變教育和學習模式”;中國工程院院士鄔賀銓說道,“智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯和有效,隨著智慧城市的建設,社會將步入“大數據”時代。”難點:1、在最初就合理規劃智慧城市(深度思考哪些領域能夠運用);2、在城市發展基礎設施和“云產業”的同時,更多重視“數據”的價值;3、在大數據處理領域的核心技術不足,需要政府更大的投入。大數據的應用舉例——熱點:智慧城市政府、金融、電信等行業投資建立大數據的處理分析手段,實現綜合治理、業務開拓等目標;應用到制造等更多行業。更多行業的應用大數據賦予我們洞察未來的能力馬云成功預測2008年經濟危機“2008年初,阿里巴巴平臺上整個買家詢盤數急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數據;我們提前半年時間從詢盤上推斷出世界貿易發生變化了。”通常而言,買家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網站統計數據中,就是查詢點擊的數量和購買點擊的數量會保持一個相對的數值,綜合各個維度的數據可建立用戶行為模型。因為數據樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數據的下降,自然導致買盤的下降。大數據帶來的機遇人類從依靠自身判斷做決定到依靠數據做決定的轉變,也是大數據作出的最大貢獻之一。——《大數據時代》結構化數據向非結構化數據演進,使得未來IT投資重點不再是建系統為核心,而是圍繞大數據為核心;海量數據可以在各個部門創造重大的財物價值,未來投資傾斜。未來IT投資重心轉移(3)大數據相關技術
?分析技術o數據處理:自然語言處理技術o統計和分析:A/Btest;topN排行榜;地域占比;文本情感分析o數據挖掘:關聯規則分析;分類;聚類o模型預測:預測模型;機器學習;建模仿真?大數據技術o
數據采集:ETL工具o數據存取:關系數據庫;NoSQL;SQL等o基礎架構支持:云存儲;分布式文件系統等o計算結果展現:云計算;標簽云;關系圖等大數據相關技術
?存儲o結構化數據:?海量數據的查詢、統計、更新等操作效率低o非結構化數據?圖片、視頻、word、pdf、ppt等文件存儲?不利于檢索、查詢和存儲o半結構化數據?轉換為結構化存儲?按照非結構化存儲?存儲問題解決方案o在CAP理論指導下數據庫技術適當“退化”?NoSQL技術:HDFS,HBASE,OceanBase,MongoDB等大數據相關技術?計算o因結構變化為導致計算模式變更o需求模式變化帶來的計算碰到瓶頸?解決方案oHadoop(MapReduce技術)o流計算(twitter的storm和yahoo!的S4)
(4)
大數據的研究方向
3.云計算中的數據庫簡介(1)
云計算的定義
(2)
云計算的服務類型
(3)云計算的特點(4)
云計算在國內外的發展現狀(5)云計算中的數據庫
。62
(1)
云計算的定義
云計算是分布式計算的一種形式,它強調在互聯網上建立大規模數據中心等IT基礎設施,通過面向服務的商業模式為各類用戶提供基礎設施能力,是建造和運維互聯網分布式系統相關技術的總稱。
云計算包括信息基礎設施(硬件、平臺、軟件)以及建立在基礎設施上的信息服務,提供各類資源的網絡被稱為“云”,“云”中的資源在使用者看來是可以無限擴展的,并且可以隨時獲取、按需使用、隨時擴展、按使用付費。
云計算是并行計算(ParallelComputing)、分布式計算(DistributedComputing)和網格計算(GridComputing)的發展,或者說是這些計算機科學概念的商業實現。
云計算是虛擬化(Virtualization)、效用計算(UtilityComputing)、IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等概念混合演進并躍升的結果。
云計算是一種商業計算模型。它將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和各種軟件服務。63
(2)
云計算的服務類型
IaaS—將基礎設施作為服務將硬件等基礎資源封裝成服務供用戶使用用戶相當于使用裸機用戶需考慮多機協同工作問題PaaS—將平臺作為服務向用戶提供應用程序運行需要的環境服務商負責資源的動態管理用戶在特定的編程環境下使用特定的編程模型SaaS—將軟件作為服務把特定的應用軟件功能封裝成服務64
(3)云計算的特點
超大規模:“云”具有相當的規模,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器。企業私有云一般擁有數百上千臺服務器。“云”能賦予用戶前所未有的計算能力
虛擬化:云計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自“云”,而不是固定的有形的實體。
高可靠性:“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠。
通用性:云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行。
高可擴展性:“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要
按需服務:“云”是一個龐大的資源池,你按需購買;云可以象自來水,電,煤氣那樣計費。
極其廉價:由于“云”的特殊容錯措施可以采用極其廉價的節點來構成云,“云”的自動化集中式管理使大量企業無需負擔日益高昂的數據中心管理成本,“云”的通用性使資源的利用率較之傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢。
65
(4)
云計算在國內外的發展現狀
國外大公司云平臺:(a)Amazon公司的云計算系統Amazon是互聯網上最大的在線零售商,每天負擔著大量的網絡交易,同時Amazon也為獨立軟件開發人員以及開發商提供云計算服務平臺。Amazon將其云計算平臺稱為彈性計算云(elasticcomputecloud,簡稱EC2),是最早提供遠程云計算平臺服務的公司。Amazon的彈性計算云是建立在公司內部的大規模集群計算的平臺上,用戶可以通過彈性計算云的網絡界面去操作在云計算平臺上運行的各個實例(instance),用戶只需為自己所使用的計算平臺實例付費,運行結束后計費也隨之結束。這里所說的實例、即是由用戶控制的完整的虛擬機運行實例。通過這種方式,用戶無需自己去建立云計算平臺,節省了設備與維護費用。
亞瑪遜云計算服務(AWS-AmazonWebService)包括以下功能模塊:
彈性計算云ElasticComputerCloud(EC2)
簡單存儲服務SimpleStoregeService(S3)
簡單數據庫服務SimpleDB
簡單隊列服務SQS、彈性MapReduce服務
內容推送服務CloudFront、
電子商務服務DevPay
靈活支付服務FPS66
(b)Google的云計算平臺Google搜索引擎建立在分布在30多個站點、超過200萬臺服務器構成的云計算設施的支撐之上,這些設施的數量正在迅猛增長。Google的一系列成功應用,包括Google地球、地圖、Gmail、Docs等也同樣使用了這些基礎設施。
目前,Google已經允許第三方在Google的云計算中通過GoogleAppEngine運行大型并行應用程序。Hadoop模仿了Google的實現機制。
Google云計算平臺技術架構包括:文件存儲,GoogleDistributedFileSystem,GFS并行數據處理MapReduce分布式鎖Chubby結構化數據表BigTable67
(c)IBM的“藍云”計算平臺IBM在2007年11月推出了“改變游戲規則”的“藍云”計算平臺,為客戶帶來即買即用的云計算平臺。IBM正在與17個歐洲組織合作開展名為RESERVOIR云計算項目,以“無障礙的資源和服務虛擬化”為口號。歐盟提供了1.7億歐元作為部分啟動資金。2008年8月,IBM宣布將投資約4億美元用于其設在北卡羅來納州和日本東京的云計算數據中心改造。IBM計劃在2009年在10個國家投資3億美元建13個云計算中心。IBM的“藍云”計算平臺是一套軟、硬件平臺,將Internet上使用的技術擴展到企業平臺上,使得數據中心使用類似于互聯網的計算環境。“藍云”大量使用了IBM先進的大規模計算技術,結合了IBM自身的軟、硬件系統以及服務技術,支持開放標準與開放源代碼軟件。
“藍云”基于IBMAlmaden研究中心的云基礎架構,采用了Xen和PowerVM虛擬化軟件,Linux操作系統映像以及Hadoop軟件(GoogleFileSystem以及MapReduce的開源實現)。IBM已經正式推出了基于x86芯片服務器系統的“藍云”產品。
68
(d)微軟云平臺體系架構
該平臺包含了四個部分:--最底層是微軟全球基礎服務系統——GlobalFoundationServices(GFS),由遍布全球的第四代數據中心構成
--GFS之上是一個云計算基礎服務層(FundamentalService)
--在此之上的是一個構建服務平臺(BuildingBlockService--再往上則是為客戶提供的服務層(FinishedService)
微軟的云計算概念提出的相對較晚,其云計算平臺是Azure,云計算模型是S+S(Software+Services)。微軟把未來的計算定義在云+端、軟件+服務,微軟面對的挑戰是如何成為用戶的唯一的選擇。
云計算服務平臺的底層是微軟新一代的云操作系統WindowsAzure,包括計算、存儲、管理等。在WindowsAzure操作系統之上,目前運行著LiveServices,.NETServices,SQLServices,SharePointServices和DynamicsCRMServices五大服務,作為未來微軟下一代網絡服務的基礎。
在Windows體系中,現有服務器架構和云計算并不矛盾,而是互相補充,這也是Azure服務平臺獨特的策略。69
(e)Saleforce公司Saleforce公司是軟件即服務的先驅,并成為第一個年銷售額超過10億美元的SaaS/云計算公司,相比之下,其他公司的云計算計劃起步較晚。
2008年1月,Salesforce公司推出了隨需應變平臺DevForce,F平臺是世界上第一個平臺即服務的應用——PaaS。
Salesforce公司拋開了讓用戶覺得太過科學性描述的云計算,而推出了“商業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三年級信息技術上冊 第7課 裝扮美麗的花園教學設計 粵教版
- 人教版(2024)五年級下冊因數和倍數教學設計
- 人教版(2024)七年級2025年10.1 二元一次方程組的概念教案配套
- 公司員工花名冊
- 人教版一年級音樂上冊教學計劃教案
- 六年級下冊心理健康教育教案-16.學畫思維導圖 蘇科版
- 七年級生物下冊 第四單元 第七章 第一節 分析人類活動對生態系統的影響教學設計2 (新版)新人教版
- 2024吉林鎮賚縣鑫陽新能源有限公司招聘工作人員5人筆試參考題庫附帶答案詳解
- 體育教學設計(單杠和仰臥起坐)
- 人教部編版八年級上冊法不可違教案配套
- 2024年高考生物真題模擬題專項匯編-21實驗與探究含解析
- 滬教版數學三年級下冊除法豎式計算題100道及答案
- 混凝土結構后錨固技術規程
- 2024-2030年中國自然教育行業市場發展分析及前景趨勢與投資研究報告
- DL∕T 1475-2015 電力安全工器具配置與存放技術要求
- 四川省瀘州市2024年中考物理試題(含答案)
- 產褥期生活護理及月子餐制作含內容課件
- 投訴法官枉法裁判范本
- 食材配送服務方案投標方案(技術方案)
- (正式版)G-B- 20052-2024 電力變壓器能效限定值及能效等級
- DLT 5285-2018 輸變電工程架空導線(800mm以下)及地線液壓壓接工藝規程
評論
0/150
提交評論