互聯網大數據文獻綜述_第1頁
互聯網大數據文獻綜述_第2頁
互聯網大數據文獻綜述_第3頁
互聯網大數據文獻綜述_第4頁
互聯網大數據文獻綜述_第5頁
已閱讀5頁,還剩9頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

互聯網大數據文獻綜述互聯網大數據文獻綜述大數據分析的趨勢亮點大數據分析中的當前的最先進技術的概述。大數據分析的規模和應用前景趨勢。在硬件上的現況和未來的發展趨勢,如何幫助我們解決大規模數據集。討論目前采用的軟件技術和未來趨勢,以解決大數據分析應用。關鍵詞:大數據分析數據中心分布式系統摘要:大數據分析是并行的分布式系統未來的主要應用之一。數據倉庫目前應用的規模已經超過EB級,并且其規模還在不斷增長。當數據集和相關應用程序超出了他們的規模,給這些的構成要求和軟件開發方法的考慮帶來了重大挑戰。數據集通常是分布式,它們的大小和安全考慮到分布式技術來得到保證。數據經常駐留在不同的平臺上計算,對網絡能力,容錯性,安全性和訪問控制的考慮是在許多應用中的關鍵。在其他應用程序中,分析任務的截止時間主要與數據質量有關。對于大多數新興應用程序,數據驅動的模型和方法,能夠大規模操作的方法,到目前還未找到。即使知道可以縮放的方法,驗證結果又是一個重大的問題。硬件平臺的特性和軟件堆棧從根本上影響數據分析。在這篇文章中,我們提供了一個概述的最先進的硬件和軟件的趨勢在大數據分析應用程序前景的應用。引言隨著互聯網關鍵的技術的發展,計算作為一個實用程序的設想在上世紀90年代中期開始形成。在網格計算時代的早期人們通常認為硬件作為主要資源。網格計算技術專注于分享、選擇和聚合各種各樣的地理上分布的資源。這些資源包括超級計算機、存儲和其他設備,用來解決在科學、工程和商業的大規模計算密集型問題。這些框架的一個關鍵特性是他們的支持透明跨域管理和資源管理能力?!皵祿促Y源”的概念被普及在p2p系統。Napster、Gnutella,和BitTorrent允許節點共享多媒體數據內容通常直接彼此以分散的方式。這這些框架強調互操作性和動態性,降低成本,資源共享特定的溝通和協作,聚集。然而,在這些平臺上,匿名,隱私問題和擴展性問題的考慮是次要的。最近,云計算環境的可靠性、服務的健壯性被(通常的訪問來自客戶機的瀏覽器)來自于客戶端,大規模生產的移動設備和通用計算機的訪問檢驗。云計算的服務觀念概述為“基礎架構即服務”(云計算資源在云中可用),數據即服務(數據在云中可用)和軟件即服務(訪問程序在云中執行)。從服務提供者的角度來看這提供了相當大的好處(在硬件和管理的成本降低),整體資源的利用率,以及更好的客戶端接口。云環境的計算底層通常依賴于高效和彈性的數據中心架構,基于虛擬化的計算和存儲技術,高效利用商品硬件組件。目前的數據中心通常規模為成千上萬的節點,計算在云計算中經常跨越多個數據節點。新興的基于云的環境與分布式數據中心托管的大型數據倉庫,同時也為分析提供強力的處理有效的并行/分布式算法的需要。潛在的社會經濟效益的大數據分析,與多樣性的應用提出是很大的挑戰,在本文的其他部分我們重點強調數據分析問題的規模和范圍。我們描述了常用的硬件平臺上執行分析應用的相關情況,并考慮存儲,處理,網絡和能量。然后,我們專注于應用程序,即虛擬化技術,運行時系統/執行環境和編程的軟件基礎模型。我們在多樣性數據分析的應用中,對健康和人類福利進行計算機建模與模擬得出一個簡短的結論。1.1數據分析的規模和范圍最近保守的研究估計,在2008年世界上的企業服務器系統已經能處理了9.57×10^21字節的數據。這一數字預計將從這基礎上每兩年翻了一番。舉一個例子,沃爾瑪的服務器每過一個小時就要處理超過一百萬客戶交易,這些信息插入到數據庫,存儲超過2.5PB的數據與167座國會圖書館的書籍數量相當。在歐洲核子研究中心的大型強子對撞機每年將產生大約15千兆字節的數據,足以填滿超過170萬個雙層DVD。每天,Facebook產生近500TB的用戶日志數據和數百萬TB的圖像數據。每分鐘,在YouTube有100小時的視頻被上傳,有135000小時的視頻被觀看。每一秒,有超過28000個多媒體(MMS)消息被發送。在2012大約4600萬的移動應用程序被下載了,每一個應用程序收集到更多的數據。推特的服務上有超過5億5000萬的活躍用戶,他們每秒鐘產生9100條推特。eBay系統每一天處理超過100PB的數據。在其他領域,波音噴氣發動機每運轉30分鐘能產生10TB的操作信息。其中,如果每一天有25000的航班,僅僅數據傳感器和機器生產的足跡信息的數據,在橫渡一次大西洋將產生幾百TB的數據。這些例子只是驚鴻一瞥,來自不同數據源的生態系統的數據集在迅速擴張。結構化數據(例如,金融,電子醫學記錄,政府統計),半結構化數據(例如,文本,微博,電子郵件),非結構化(例如,音頻和視頻),和實時數據(如網絡痕跡,一般的監測日志)。如果有組織和適當的分析的話,所有這些應用都有可能提供寶貴的見解。在當今廣泛公認需要有效分析的大型數據集的應用程序。這些應用包括醫療保健分析(例如,個性化基因組學),業務流程優化,和社會網絡為基礎的建議。然而,預測表明數據增長將在很大程度上超過了可預見的成本改善,密度的存儲技術,來處理它可用的計算能力和相關的能源熵。例如,在2002和2009之間數據流量增長了56倍,相比,相應的計算能力的增加是16倍(主要是跟蹤穆爾的法律)。相比之下,1998至2005數據中心的規模的增長是每年173%。這些趨勢推斷,大概需要13年對于計算能力的增加才能滿足需求。然而,能源效率并不是像預期在同一時間內增加25倍。這產生幾乎40倍的嚴重的不匹配的增加在數據分析能源足跡上。負載特性。大數據工作負載的全面研究,可以幫助他們理解對硬件和軟件設計的影響。由數值計算的“七個小矮人”,MEHUL,Shah等。試圖定義一組“數據小矮人”即關鍵數據處理內核用來提供當前和未來的數據中心的負載特性的報道。在2010年借鑒一組廣泛的負載特性,他們建立了一套分類尺寸(響應時間,訪問模式,工作組,數據類型,讀與寫,處理復雜度),并得出結論,五個工作負載模型可以令人滿意的覆蓋以數據為中心的工作負載:(一)在PB級規模的分布式排序,(二)在內存中的索引搜索,(三)推薦系統,具有較高的處理負載和規則的通信模式,(四)順序訪問為基礎的數據復制(五)視頻上傳和流交互應答率的服務器。在聯機分析處理(OLAP)的工作負載可以表示為(1)、(3)、(4)的組合、在線事務處理(OLTP)的工作量只能部分捕獲,在未來可能需要另一個類別,在內存索引和查詢支持捕獲一些這些負載特性的方面,但工作集因為太大而不能放在內存中。1.2.設計考慮在未來,大的規模、范圍和性質(負載特性)的大數據分析應用,能獨立的分別對硬件系統,軟件系統和架構設計提供有趣的見解。對硬件的影響。數據訪問模式和訪問數據的頻率(冷與熱數據)可以驅動未來的內存層次結構的優化:數據一般為熱數據;但是隨著時間的推移,它變成了歸檔,冷的數據,最適合存儲在NVM中。然而,有顯著的例外的周期性或客戶流失的訪問模式(季節相關主題,名人的標題),和熱龐大的數據集(比較基因組計算)應加以考慮。此外,潛在的維度之間的相關性出現能對硬件堆棧的進行預測:一個視頻,由于存在多種格式或語言字幕,結果有許多版本,這些可以離線生成和存儲(因此需要足夠的存儲)或動態生成(代碼轉換和翻譯調控)數據給數據中心,或是在用戶的設備上(客戶端計算)帶來計算壓力。另外,可能要重新考慮相對優先級的進展,在處理器設計的性能的考慮在當前的子系統的I/O之上。存在這樣一種替代的極端,一種選擇將是考慮一個可能的“版本”:層次結構的計算支持數據存儲的元素,而不是今天的設計存儲層次結構為計算元素服務。逐漸瓦解現有的存儲層次結構的平滑過渡,這樣進一步提供節省能源消耗。了解工作負載也能在硬件識別可能會用于直接執行特殊用途處理單元。圖形處理器、現場可編程門陣列(FPGA),專業化的特定應用集成電路(ASIC),和專用的視頻編碼器/解碼器都是值得考慮的。這樣的硬件加速器大大減少能源消耗,與通用處理相比較。這些可以集成在芯片上,導致的以數據為中心的家族是非對稱處理器。對軟件的影響。軟件系統、存儲和計算的需要為了迎合一個相當大的問題:數據規模的空間、工作負載的性質和其他應用程序的需求,像一致性、可用性和分區容忍。大數據規模需求高度可擴展的分布式存儲系統能夠適應大量的數據,有效率的入口和出口的機制;Apache的Flume就是這樣的有利于數據收集的系統。此外,這些存儲系統應該支持高效查詢的內存緩存和其他OLTP工作負載;即使HDFS最近增加了支持緩存。不同工作負載需求各種各樣的計算特點引擎,流式處理更多的在線數據的查詢與事務支持。大數據分析通常允許對其定量的輸出放寬精度約束,從而影響算法設計。隨機的算法應用原始的、

昂貴的計算內核和最后犧牲精度(數據可證明的界限尺寸/精度權衡)。能源意識到計算內核可以減少能源足跡的分析計算,同時保留性能與最小精度退化

(能源/精度權衡)。2.數據分析的硬件平臺我們現在考慮當前數據分析的硬件平臺,以及這些平臺將來如何發展。2.1內存/存儲在傳統的系統設計,磁盤用于數據持久化和DRAM內存更快的訪問/磁盤緩存。然而傳統磁盤有移動的部件,很大程度上制約了他們的一生和建立對其訪問的時間界限。另一方面,DRAM芯片需要靜態刷新電路獨立消費能源判斷是否有數據讀/寫活動。非易失性存儲器(NVM)技術能解決這些缺點,并有望在未來設計發揮重大作用。有幾個以數據為中心的NVM應用程序[的建議?;贔lash的應用可以公開為塊存儲通過串行連接SCSI(SAS)和串行先進技術附件(SATA)或PCIExpress接口甚至結合解散匯總內存提供降低成本效益解決方案。其他類型的非易失性存儲器如相變存儲器(PCRAM)和憶阻器已提出將集成作為字節尋址的內存在芯片上的存儲器總線或直接堆放(3D堆)。非易失性存儲器也可以用于實現額外的緩存層次,或更換持久存儲,從而用于各級促進減緩內存崩潰的內存類型。這些建議的共同點是穩定的轉變用于持久性數據存儲的內存接口,理由是性能與簡化。移動計算更接近數據也受到許多大型數據管理任務的一般結構,隨后產生相關框架。例如在經常使用的MapReduce范式中,數據被分區在可用的節點和任務計劃,這樣配置與數據操作的數量有關。任務和相關數據的搭配也很注重節約能源。最近的毫微級儲存方案主張計算與持久性數據存儲的搭配。這是讓人想起過去的想法,活躍存儲,增強磁盤控制器處理特殊計算任務,是當時應用程序范圍有限的原始提案。從進化的角度來看,磁盤仍然具有很高的成本。因此,他們不太可能完全被取代在之后的一段時間。NVM技術應被視為近期未來設計的有吸引力的組成部分。在這方面,我們還應該考慮到變化的應用將引發在總體的軟件的棧的變化。例如,當前的文件系統是在以毫秒的延遲優化。NVMs提供延遲減少約三個數量級在這段時間(微秒)。有的建議基于閃存的固態硬盤(SSD)支持key-value存儲抽象,有利于它的工作負載。還有其他人建議固態硬盤作為傳統硬盤的緩存組織(混合設計)。理想情況下NVMs應該暴露在的持久性指令集級別(ISA),操作系統可以使用他們有效(例如,通過重新設計的部件,承擔記憶波動或提供給上層,放置檔案資料節能NVM模塊API。)的數據。另一方面,持久的記憶能力將降低分離性;可以通過持久的內存交換解決這個問題。從算法的角度設計和相關的數據結構,non-volatility可以推動替代,優化設計和索引的實現結構,鍵值存儲數據庫和文件系統,所有大數據分析的主要組件。2.2網絡資源對于數據分析主要考慮設計標準通信協議棧的鏈路,網絡和傳輸層的設計與互操作性的不同的技術和制造商的組件。在這個設計中鏈路層是不可靠的,因此擁塞或不可靠的通信信道會造成數據包丟失。為了補救,傳輸層在最后要求讓步傳播,從而影響帶寬。然而,一個典型的數據中心網絡環境是完全不同的廣域網。首先,它的信道可以被認為是無損的,這一假設應該理想地反映在它實現的流動機制。在一個單一的行政控制下,它大多是均勻的,所以向后兼容已經部署的協議不是問題。負載平衡器和應用程序代理從外部通信所以沒有單獨的內部交通與常規TCP公平性問題。在排隊的情況下,往返時間(RTT)可小于250微秒。應用程序同時需要非常高的帶寬和非常低的延遲。此外,很少有統計復用,所以一個流可以主導一個特定的路徑。數據中心網絡中的一個特殊性能瓶頸是在許多大型網絡應用程序廣泛使用的分區/總設計模式:從更高層次的應用程序的請求被分解成塊,并在較低層的代理聚集,查看這些代理的反應,然后匯總產生的結果。由此可見,數據以傳回多對一的方式遍歷一個瓶頸環節。隨著并發者數量的增加,吞吐量的應用水平在接收時比容量低幾個數量級。例如,這可能發生在MapReduce工作的shuffle階段,當中間的鍵-值對多映射轉移到適當的reducers。最近的一個變種TCP,TCP數據中心(DCTCP),解決了這個Fork-Join網絡交通結構,利用工程變更協議在大多數商品交換中實現的擴展,允許端到端的網絡擁塞通知丟棄數據包。相反,未來的性能問題可能會帶動開關設備的定制。注意,處理特定網絡的缺點的細節與選擇的協議基本上是相關的。這個基本的競爭者是以太網和無線帶寬。無線帶寬是一種能量比例網絡,這個屬性讓這種技術的優勢,因為能源效率是一個主要的設計目標在未來數據中心。預計這兩個選項將在即將到來的未來會成為應用程序為基礎。關于互連技術,光學和電氣光學設計有著顯著的優點。然而,由于光電轉換代表能源效率的瓶頸,我們的目標是使用一個全光開關結構。這種轉變將被首先消除了網絡接口控制器(NIC),所以網絡處理器將直接對話;同樣也可以使光成為處理到內存的路徑,最近發布的第一個平行光收發模塊原型具有每秒傳輸一個TB信息能力,由IBM清楚地識別大數據分析作為目標市場,強調設備的能源效率。英特爾還計劃推出一個成本有效的光學互連的雷電接口電纜(已準備在蘋果產品中使用)。作為一種混合電/光開關的一個例子,太陽神是一個體系結構有顯著減少的,布線,成本和功耗的開關元件。它是一個二級多根樹的開關和核心交換機,其中的核心包括傳統的電分組交換機和微機電系統為基礎的光電路開關。包括電氣交換機的原因是需要處理在聚集的交通需求之間的不同對突發性證明:支持這一類型的交通所需的(光)電路的數目將是禁止的,和電分組交換將是可取的。2.3大數據分析中的能量問題能量均衡是云計算的一個重要目標系統和組件。大多數數據中心操作超過一半的峰值負載,雖然它們的效率最大化在峰值負載。能量比例意味著功率消耗與負載之間一個線性關系。這是可以實現的明確地使用能量比例的設備,或僅為計算過程中絕對必要的組件。更具體地說,工作整合通常適用于粗—像單個服務器機器一樣的細粒度組件,這種方法的適用性很大程度上取決于類型的計算:批量處理產生理想的功率減少但在線或并行應用程序不允許這樣的能量儲蓄計劃。請注意能量相稱性不是名義上的光網絡技術的特點(靜態激光功率消費)。然而,能量優化與系統在更大的部署中更容易節省電力,特別是在輸送電子設備之前的能量,管道移動或存儲數據處理。冷卻功率交付在大多數情況下,適合于能源的設計和實施。安德烈等人因子數據中心的效率為三個計算設備,服務器的能源轉換,執行計電子元件的效率,和計算的本身。盡管第三項是最相關的我們的討論,前兩個因素每瓦特“生產性”消耗2.2瓦的能量。以一個更整體的方法來優化第三項。巴利加等人??紤]優化能源消費在全球云系統首先分析能耗概況的運輸,儲存,并在各種存儲即服務繪制場景服務器,軟件作為一種服務,和處理作為一個云計算服務方面。在一個更細的粒度下,已經提出了減少CPU的功耗:如動態電壓和頻率縮放(DVFS),關閉功能單元的選擇(占到大約三分之一的能量到硬件子系統)。然而,靜態功耗和性能要求的基本被限制。能源方面的考慮促使不對稱設計建議(專業芯片多處理器,多核處理器);hardavellas等人。[42]填充一個大的,多樣化的應用程序特定的異構內核的骰子,可以動態禁用所有,但最適用于特定的應用程序的核心(導致在黑暗的硅點),可以達到峰值性能和能源效率。3.虛擬化技術的虛擬化是一個云部署背后的關鍵的概念來協調軟件和硬件之間的天然鴻溝。它的基本組成部分是虛擬機監控器(VMM),一個軟件抽象層,使分區的底層硬件平臺成一個或多個虛擬機[80]。最重要的是(i)應該運行未修改現有的軟件在每個虛擬機,(ii)優勢指令的子集必須直接在處理器上執行(iii)VMM在系統資源的完全控制(經典虛擬化)。虛擬化是在20世紀60年代末主機上下文的技術開發,最初,高性價比的機器隨后的增殖,分享,取決于虛擬化資源的需要,抓住存在,在某種程度上,現代的硬件本身不支持這種模式。然而,它提供的優點,特別是在可靠性,安全和管理硬件成為一個池資源,以運行任意服務的需求,使其使用以數據為中心,大數據分析的多租戶環境中尤為重要。具體而言,VMM提供的虛擬機的封裝,從而有利于負載均衡的任務,虛擬機器復制,儲存和運輸,暫停/恢復方案,硬件和軟件/配置故障處理。此外,VMM虛擬墻之間提供隔離多臺虛擬機的多個虛擬機的多路復用同樣的硬件變得透明,從而產生了戲劇性的成本效益。安全性和可靠性的優點自然遵循由于故障是由于程序錯誤或安全妥協是孤立于其它的虛擬機,問題不宣傳機器執行相同的VMM下。所有硬件子系統(中央處理器、內存、輸入/輸出、網絡等)都可以在原則上進行虛擬化。目前,CPU虛擬化相對成熟,其次有趣的改進是,虛擬內存管理單元(MMU)的創新和研究的建議,I/O子系統和網絡。如果它支持直接執行基本的VMM技術的CPU架構是虛擬的,虛擬機在真實的機器上執行;但是VMM有CPU的極限控制。這通常是通過運行虛擬機的特權和非特權在CPU的特權模式的代碼和保留VMM的特權模式執行;當虛擬機試圖執行特權操作CPU陷入VMM,從而模擬它的更新虛擬機狀態。然而,無處不在的x86架構不提供安全透明的所有特權操作語義的陷阱。因此,各種技術已被提出。在半虛擬化的操作系統(OS)在虛擬機執行修補與設計適當的取代非虛擬操作,虛擬化的等價物。然而,改變操作系統的源代碼也可能由于許可問題,它可能產生的不兼容。一個替代的方法,二進制翻譯器運行非虛擬,特權的部分動態補丁“offending”指令,同時保留在高速緩存塊的優化目的的翻譯。內存管理,VMM

維護

每個虛擬機的內存管理數據結構,其影子頁表的影子。VMM

更新操作系統的變化反映出這些結構,并建立映射到實際的頁面在硬件內存中。這里的挑戰包括使

VMM

利用高效分頁進出和跨多個虛擬機,由一個單一的

VMM

監測共享相同的物理頁面的操作系統的內部狀態。此共享將均勻池

(在用軟件配置)

的虛擬機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論