《大數據金融》 課件 第3章大數據相關技術_第1頁
《大數據金融》 課件 第3章大數據相關技術_第2頁
《大數據金融》 課件 第3章大數據相關技術_第3頁
《大數據金融》 課件 第3章大數據相關技術_第4頁
《大數據金融》 課件 第3章大數據相關技術_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章大數據相關技術Bigdatarelatedtechnologies大數據金融CONTENTS01大數據存儲bigdatastorage02大數據處理與計算Bigdataprocessingandcomputing03大數據挖掘方法Bigdataminingmethods大數據存儲bigdatastorage第一節一、分布式文件系統分布式文件系統需要解決的關鍵技術問題包括可擴展性、數據冗余性、數據一致性、緩存等。常見的分布式文件系統有GFS、HDFS、Lustre、Ceph等,它們各自適用于不同的領域,其中GFS和HDFS最具有代表性。一、分布式文件系統(一)HDFS系統的概念和特性

第一,HDFS系統是一個文件系統,用于存儲文件,通過統一的命名空間——目錄樹來定位文件。

第二,HDFS系統是分布式的,由很多服務器聯合起來實現其功能,集群中的服務器有各自的角色。一、分布式文件系統(一)HDFS系統的概念和特性不支持文件隨機寫入。需要客戶端與HDFS交互。適合大文件讀取場景。吞吐和并發能力具備可橫向擴展性不適合高響應系統一、分布式文件系統(二)HDFS的結構1.NameNodeNameNode是一個通常在HDFS實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。2.DataNodeDataNode也是一個獨立運行的軟件。通常以機架的形式組織,機架通過一個交換機將所有系統連接起來。3.ClientClient一般用于實現客戶端文件存儲的所有操作,包括文件的增刪以及查詢等。一、分布式文件系統(三)HDFS文件寫入與讀取(1)客戶端創建的文件,然后Client通過RPC方式與NameNode通信,創建一個新文件映射關系。(2)客戶端寫數據:FSDataOutputStream把寫入的數據分成包(packet)并放入一個中間隊列——數據隊列(dataqueue)中。(3)FSDataOutputStream也維護著確認隊列(ackqueue)。(4)所有文件寫入完成后,關閉文件寫入流。二、非關系型分布式數據庫非關系型分布式數據庫(notonlysQL,NoSQL)是分布式存儲的主要技術。相比于傳統數據庫,它的主要特點包括易擴展、靈活的數據模型、高可用性、大數據量、高性能等。(一)NoSQL簡介與特性

1.不需要預定義模式

2.BASE特性

3.分區

4.異步復制

5.彈性可擴展二、非關系型分布式數據庫(二)NoSQL的分類1.列存儲數據庫

(1)HBase基于HadoopHDFSappend方式進行數據追加操作,非常適合列族文件存儲架構。

(2)HBase寫請求,都會先寫redolog,然后更新內存中的緩存。

(3)當某一列的MapFile數量超過配置的閾值時,一個后臺線程就開始將現有的MapFile合并為一個文件,這個操作稱為Compaction。

(4)讀操作會先檢查緩存,若未命中,則從最新的MapFile開始,依次往最老的MapFile找數據。二、非關系型分布式數據庫(二)NoSQL的分類

列存儲數據庫鍵值存儲數據庫文檔型數據庫圖數據庫1234三、虛擬存儲技術與云存儲技術(一)虛擬存儲技術虛擬存儲技術是指將存儲系統的內部功能從應用程序、計算服務器、網絡資源中進行抽象、隱藏或隔離,最終使其獨立于應用程序、網絡存儲與數據管理。(二)云存儲技術云存儲是一種以數據存儲和管理為核心的云計算系統,它是指利用集群應用、分布式文件和網絡技術系統等功能,通過應用軟件協同網絡中大量的各種不同類型的存儲設備,共同建設一個具有數據存儲和業務訪問功能的系統,以保證數據的安全性,節約存儲空間。大數據處理與計算Bigdataprocessingandcomputing第二節一、基于并行計算的分布式數據處理技術HadoopMapReduce是一種分布式海量數據處理框架。它采用主從結構,在一個MapReduce集群中有一個控制節點和多個工作節點。設計思想:其一,大規模數據并行處理,即“分而治之”的思想;其二,MapReduce編程模型;其三,分布式運行時環境。二、分布式內存計算處理技術對于一些需要快速實時分析的業務操作,需要快速地對最新的業務數據進行分析處理。在線實時分析計算框架是為集群計算中特定類型的工作負載而設計的,引進了內存集群計算的概念。Spark引進了名為彈性分布式數據集(resilientdistributeddatasets,RDD)的抽象。RDD是分布在一組節點中的只讀對象集合。這些集合是彈性的,如果數據集的一部分丟失,則可以對它們進行重建。三、分布式流處理技術對于現在大量存在的實時數據,如股票交易數據,實時性強、數據量大且不間斷,這種實時數據被稱為流數據。(一)流式數據的概念流式數據是指所產生的數據不是批量地傳輸過來,而是連續不斷地像水一樣流過來。1.靜態數據2.動態數據3.實時處理三、分布式流處理技術(二)流式數據源傳感器數據圖像數據互聯網及Web流量流媒體傳輸三、分布式流處理技術(三)大數據的計算模式1.大數據流式計算模型在流式計算中,無法確定數據的到來時刻和到來順序,也無法將全部數據存儲起來。因此,不再進行流式數據的硬盤存儲,而是當流動的數據到來之后在內存中直接進行數據的實時輸入、實時計算、實時輸出。三、分布式流處理技術(三)大數據的計算模式2.流式計算與批量計算的比較大數據挖掘方法Bigdataminingmethods.第三節一、數據挖掘的概念數據挖掘(datamining,DM)是從大量的、有噪聲的、不完全的、模糊的、隨機的數據中提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程。數據挖掘的特點:(1)數據量巨大(2)動態性(3)適用性(4)系統性二、數據挖掘的原理數據挖掘的實質是綜合應用各種技術,對與業務相關的數據進行一系列科學的處理,這個過程中需要用到數據庫、應用數學、統計學、機器學習、可視化、信息科學、程序開發及其他學科。三、數據挖掘常用的方法數據挖掘常用方法01分類分析02回歸分析06序列分析05聚類分析03預測04關聯分析07偏差分析三、數據挖掘常用的方法(一)分類分析分類分析是指運用訓練數據集,通過分析數據的特征和運用一定的算法求得分類規則,該分類規則就是數據分類的模型。1.決策樹分類法決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、規則的實例中推理出以決策樹表示的分類規則。三、數據挖掘常用的方法(一)分類分析2.貝葉斯分類法貝葉斯分類法是利用統計學中的貝葉斯定理來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。3.k-近鄰分類法k-近鄰分類法不是事先通過數據來選好分類模型,再對未知樣本進行分類,而是存儲帶有標記的樣本集,給一個沒有標記的樣本,用樣本集中k個與之相近的樣本對其進行即時分類。k-近鄰分類法就是找出k個相似的樣本來建立目標函數逼近。三、數據挖掘常用的方法(二)回歸分析1.線性回歸線性回歸是利用數理統計中的回歸分析來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,運用十分廣泛。2.Logistic回歸分析Logistic回歸模型是一種概率模型,適合于病例對照研究、隨訪研究和橫斷面研究,且結果發生的變量取值必須是二分的或多項分類。三、數據挖掘常用的方法(三)預測三、數據挖掘常用的方法(四)關聯分析關聯分析主要用于發現隱藏在大型數據集中的有意義的聯系,所發現的聯系可以用關聯規則或頻繁項集的形式表示。1.Apriori算法:使用候選項集找頻繁項集2.基于劃分的算法3.FP-樹頻集算法三、數據挖掘常用的方法(五)聚類分析聚類是根據相似度將數據分組,使同一聚類內的個體距離較近或變異較小、不同聚類間的個體距離較遠或變異較大。其中,相似度可以利用不同的距離或相關來定義。三、數據挖掘常用的方法(六)序列分析序列分析是對序列數據進行分析以發現蘊藏其中的模式和規律。序列數據和時間序列都是連續的觀測值,觀測值之間相互依賴。(七)偏差分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論