使用大數據技術實現企業數據倉庫的現代化_第1頁
使用大數據技術實現企業數據倉庫的現代化_第2頁
使用大數據技術實現企業數據倉庫的現代化_第3頁
使用大數據技術實現企業數據倉庫的現代化_第4頁
使用大數據技術實現企業數據倉庫的現代化_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大多數組織的企業數據倉庫是使用有15-20年歷史的以在線事務處理(OLTP)為中心的技術和體系結構構建的。近年來,這些系統中聚集了越來越多的數據,受傳統和移動業務智能產品的推動,查詢負載呈指數級增長,這導致數據倉庫容易崩潰、超負載運轉、成本高昂,可能耗費數小時才能返回查詢結果。它們并不滿足業務日益增長的數據需求,卻管理著數量不斷增加的結構化和非結構化數據源,而不能在必需的粒度級別或以充分及時的方式解答運行業務所需的問題。是的,我們已經對其投入了太多,而不能將其直接淘汰。大數據市場動態已經促使形成了新的技術、產品和方法,可用于使這些容易飽和、不靈活的數據倉庫現代化,并使它們對業務更敏捷地響應,而不必淘汰現有設備。本文描述了可以使用企業現有技能快速實施并迅速實現投資回報的五種戰術。EMC視點基于大規模并行處理(MPP)的數據庫提供高效利用成本、橫向擴展的數據倉庫環境,允許組織利用摩爾定律1提高x86處理器的性能/成本比率。MPP數據庫提供非侵入性分析平臺/數據倉庫,用于對海量數據執行數據發現和挖掘工作。MPP數據庫構建于并不昂貴的商用群集上,在管理海量詳細數據的同時,可以擴展、補充或替代您現有數據倉庫的某些部分,還能提供靈活的查詢、報告、控制面板和分析(請參見圖1)。好處MPP數據庫不僅提供與您現有數據倉庫相同的許多好處,還提供以下優勢:好處可利用更詳細、更強大的維度數據?具有預測零售狀況和能源消耗?具有預測零售狀況和能源消耗的季節性?通過本地化查明借貸或進行欺詐曝光?可進行數字媒體歸屬或醫療保健治療分析的超維度?自動參數化?像任何其他數據庫那樣的加載和查詢能力?并行掃描和處理所有節點?極高的可擴展性和優化的I/O?易于添加節點和存儲的線性可擴展性?改進的查詢和加載性能1摩爾定律是計算硬件歷史上長期以來的觀察結果,即集成電路上的晶體管數目每兩年大約增加一倍。其結果是,同等成本的計算能力每18-24個月便會翻番一次。/wiki/MPP數據倉庫將使更多精細數據用于查詢、報告以及控制面板深入查看和橫向查看挖掘。可以對詳細數據而非數據聚合進行分析。最新的發展現在允許您直接在Hadoop數據文件系統(HDFS)上構建您的數據倉庫,以受益于HDFS提供的成本效益、橫向擴展體系結構和本機并行度,同時使用組織的基于SQL的標準BI工具提供訪問。從分析的角度而言,一旦開發了某個模型,并從這些數據集中點滴積累了業務洞察力,就可以直接將該模型和/或分析洞察力遷移到現有數據倉庫中,以便集成到當前的業務智能環境中。另外,分析建模也可以在MPP平臺上執行,使其成為生產流程的一部分。好處利用低延遲(高速)數據訪問好處利用低延遲(高速)數據訪問?推動實時客戶購置、預見性維護或網絡優化決策?根據當前市場或當地天氣情況按需更新分析模型大數據最具有影響的一個發展是數據庫內分析的出現。數據庫內分析解決了執行高級分析中一個最大的缺點,即,需要將大量數據移來移去。這種需要導致許多組織和數據科學家不得不被迫使用聚合表,因為分析發掘和發現流程中非常容易發生數據傳輸問題。數據庫內分析通過將分析算法移至存儲數據的位置,逆轉了這一流程,從而加快了建模的開發和部署。數據移動的消除帶來了相當多的好處:?移動幾個TB的數據,可能會耗費數小時。而使用數據庫內分析,移動數據的時間直降為零。?由于數據移動在邏輯處理時間上是最耗時間的活動,減少數據移動則會將處理時間減少至原來的1/N,其中,N是處理單元的數量。對于僅有5個處理器的系統,1TB的處理時間可以減少至原來的1/16,從193分鐘降為12分鐘(參見圖2)。好處管理眾多的結構化和非結構化數據源?集成非結構化的索賠描述,以減少欺詐性索賠?利用移動數據生成實時促銷?利用傳感器讀數優化收益和定價Hadoop分布式文件系統(HDFS)提供功能強大但價格實惠的方案,以實現操作數據存儲區(ODS)和數據轉移區域的現代化。HDFS是一個高效利用成本的大型存儲系統,具備固有的計算和分析功能(MapReduce)。HDFS構建于商用群集上,簡化了各種數據源的采集和存儲,這些數據包括結構化數據、半結構化數據(例如,Web日志和傳感器饋送)或者非結構化數據(例如,社交媒體、圖像、視頻和音頻)。一旦納入Hadoop文件系統,好處管理眾多的結構化和非結構化數據源?集成非結構化的索賠描述,以減少欺詐性索賠?利用移動數據生成實時促銷?利用傳感器讀數優化收益和定價一旦采用Hadoop,用戶就可以通過采納新的ELT(提取/加載/轉換)模式,極大地強化現有的ELT(提取/加載/轉換)例程和開發新的ELT例程。現有的ETL例程可通過Hadoop的本機并行特性大大加速,而新的“數據濃縮”過程則可以進行開發,以生成新的指標(頻率、時間跨度、順序),這些指標可能成為更好的業務績效預測系數。最終的結果就是一個為數據倉庫和分析環境同時饋送數據的單一平臺。這種價格實惠、橫向擴展的解決方案可用于存儲您的所有數據。好處利用從非結構化數據源中點滴積累的新指標、維度和維度屬性?利用客戶的興趣、熱情、關聯和隸屬關系改善微細分?利用從非結構化數據源中點滴積累的新指標、維度和維度屬性?利用客戶的興趣、熱情、關聯和隸屬關系改善微細分?將傳感器生成的性能數據添加到您的制造、供應鏈或者產品預見性維護模型中使用Hadoop和MapReduce開始構建體驗的一種簡易方式就是,使用這些技術從非結構化數據源生成新的指標,這些指標可以饋送到企業數據倉庫中。這將提供一種功能,即,利用社交媒體、手機、消費者評論、醫生便條或索賠描述等數據確定可以成為更好的績效預測因素的新指標。最新的發展使得組織可以使用其基于SQL的標準BI工具直接在本機并行的HDFS平臺中訪問組織的結構化表。性價比令人難以置信。它還大大簡化了組織處理和分析非結構化數據(日志文件、文本文件、研究出版物)的能力,從而找出非結構化數據中的主要度量單位,并將該數據在同一個Hadoop環境中加載為結構化(表格)格式。使用日志文件分析示例:?將日志文件按原樣載入(流入)Hadoop,可采用的文件格式為:.csv格式的HDFS文件,可直接作為外部表映射到查詢,或者作為HBase數據庫文件用于存放“粉碎的”事件列表。在這種用途中,HAWQ可以使用HBase引擎過濾結果集,然后再響應?使用MapReduce分析每個日志記錄,以確定“會話ID”、“用戶ID”、“開始時間”、“停止時間”、“傳輸的數據”等字段?將這些字段加載到仍處于同一個hadoop環境下的表結構中?使用基于SQL的標準BI工具查詢該表(參見圖4)。這些新指標是從您的詳細結構化數據或新的非結構化數據源(例如,社交媒體、手機或傳感器生成的數據)中收集的,現在可以很容易地集成到現有業務智能查詢、報告、控制面板和分析(參見圖5)。好處注意:隨著Hadoop繼續融入關系數據庫市場,實施此戰術可以使公司立于不敗之地。能夠在Hadoop上生成指標和處理數據,利用發展很快的HBase和Hive等工具,以及讓BI工具直接連接到HDFS,這可能會使數據倉庫專業人員產生疑問:為什么他們需要將數據移動到一個關系數據庫。好處?快速地將您的數據倉庫環境擴展到使用不常訪問的數據源??快速地將您的數據倉庫環境擴展到使用不常訪問的數據源?支持一次性業務分析請求?在移入企業數據倉庫前測試和驗證業務使用情形數據聯合領域的持續發展現已允許組織根據需要將數據倉庫擴展到訪問非數據倉庫和外部數據源。這種“虛擬數據倉庫”或擴展的數據結構可以支持組織快速訪問不常引用的數據源的需求,而無需花費數周或數月的時間將這類數據移動到企業數據倉庫。這種數據可讓用戶以虛擬方式訪問和分析,如果系統確定需要以更高的頻率訪問這種數據源,會將其置于數據倉庫環境中(參見圖6)。注意:對于大規模的統計和計算機學習建模,則需要將大型數據集饋送給模型,因而數據聯合將不再適用。在革命性的、改變游戲規則的大數據開發領域,數據倉庫現代化聽起來有點像進化發展。但是,它目前可以使用現有數據倉庫技能來執行,這代表著以通過大數據技術獲取立即實現的商業價值和實現企業靈活性為目標的萬里長征第一步。您還在等什么?EMC全球服務提供組織所需的戰略指導和技術專業知識,用于解決組織面臨的業務和信息基礎架構難題,并從其信息資產和投資中挖掘最大價值。我們承諾通過卓越的服務提供優異的總體客戶體驗。我們有遍及世界各地的15,000多名專業人員和支持服務專家,并有一個全球聯盟和合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論