




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據成功關鍵課件大數據成功關鍵 --高效地實現大數據的移動劉春霞liuchunx@IBM軟件部資深信息整合顧問大數據成功關鍵劉春霞3InfoSphere:維護信息供應鏈信息治理治理質量安全和隱私生命周期標準事務和協作應用業務分析應用外部信息源分析整合管理多維數據集流大數據主數據內容數據流信息數據倉庫內容分析整合和清洗3InfoSphere:維護信息供應鏈信息治理治理質量安全和ThirstforInformation可靠信息移動的速度敏捷
用戶想要快速地訪問數據,幾分鐘內和小時級內(如自主的數據整合)對分析的需求兩者都需要!權威性
在一個流程框架內內的可靠信息避免信息冗余需要敏捷和可靠的數據訪問ThirstforInformation可靠信息移動的速任何數據到大數據大數據到任何數據大數據中心批量數據整合(用于大數據)任何數據ETL/
ELTETL/
ELTELT加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實時流數據提取獲益從多種來源提取數據:機器數據、社交數據、多結構成熟的整合工具,更高的生產力數據中心獲益以大數據形式產生和分析的數據–從不清除用于完成大數據運行時內的工作的圖形工具將現有的企業數據引入一個探索性分析平臺將社交數據和機器數據引入一個企業數據倉庫系統自動化一個低成本數據暫存區域的工具對數據的推送處理(不是其他方法)任何數據到大數據批量數據整合(用于大數據)任何數據ETL/BigInsightsHadoopInfoSphereBigInsights的批量數據整合集市數據倉庫倉庫集市DataStage數據庫FilesFiles文件并行寫入DataStage子集并行讀取細節和摘要BigInsightsInfoSphereBigInsig與大數據來源交換信息將企業信息轉移到大數據來源,使它可包含在分析中獲取Hadoop的分析結果,并將它們應用于其他IT解決方案并行性和規模對HDFS的支持通過信息服務器并行引擎提供了大規模可伸縮性作業血統與大洞察來源/目標步驟使用信息服務器中的擴展性功能大數據文件組件與大數據來源交換信息大數據文件組件使用BDFS作為來源BDFS引入了新來源選項NamenodeClusterHost和PortBDFS可并行讀取文件模式BDFS可使用Readers選項并行讀取單個文件使用BDFS作為來源BDFS引入了新來源選項NameBDFS數據流程圖名稱節點文件請求BDFS數據節點BDFS數據數據PXPXBDFS使用多個讀取器流程并行化HDFS讀取InfoSphereDataStageBDFS數據流程圖名稱節點文件請求BDFS數據節點BDFS使用BDFS作為目標BDFS引入了新的目標選項NamenodeClusterHost和PortBDFS通常寫入單個文件BDFS能夠并行寫入多個文件使用BDFS作為目標BDFS引入了新的目標選項NamBDFS示例
客戶情緒傾向性分析作業可以通過分析電子郵件在InfoSphereBigInsights中執行。客戶情緒傾向性摘要將被更新到倉庫中。InfoSphereDataStage作業將挑選信息并更新數據倉庫(使用SCD階段的客戶維度)可執行基于分類的電子郵件的風險識別。可以將電子郵件分類為高風險和低風險。分析作業輸出風險分類BDFS示例客戶情緒傾向性分析作業可以通過分析電子郵件在12BDFS:可擴展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可擴展性和性能InformationServ13InformationServer–Bigdataintegration-讀寫都具有近線性的可擴展能力-最高可達5.2TB/小時-DataStage節點翻倍,處理效率翻倍直至磁盤資源全部占用BDFS:可擴展性和性能13InformationServer–Bigdat平衡的優化–從DataStage生成HadoopMapReduce作業使用DataStageDesign流程生成ETL作業使用BalancedOptimization將其編譯為在BigInsights上運行。將支持完全下推–Hadoop內的所有處理(如果可能)
混合下推–內部的一些處理和外部剩余處理,具體取決于來源和目標平衡的優化–從DataStage生成Hadoop15通過InformationServer和Hadoop數據文件系統(HDFS)的
整合,強化了IBM在大數據的領導地位通過JobSequencer對BigInsights和其他MapReduce作業進行編程調用,結合DataStage和Hadoop實現端到端工作流。利用設計器用戶界面和標準階段結構來生成MapReduce作業,為用戶提供處理BigData來源的能力,可以使用Hadoop更高效地處理這些來源。實現InfoSphereDataStage和InfoSphereStreams之間的直接數據流整合,結合兩個平臺的強大功能和應用范圍通過所有用例提供豐富元數據支持。自動化的大數據作業生成15通過InformationServer和Hadoop從DataStage調用Oozie工作流Oozie是Hadoop中的一個工作流計劃引擎Oozie提供了一個JavaAPI來調用Oozie工作流調用者是Oozie客戶端DS可充當Oozie客戶端使用OozieAPI,我們構建了一個Oozie調用者模塊該模塊是同步的成功執行工作流時返回1發生錯誤時返回0作業調度程序有一個執行命令階段Oozie調用者模塊從執行命令階段執行使用返回代碼在發生錯誤時放棄作業序列序列從DataStage調用Oozie工作流OozieInfoSphereStreams-InformationServer連接器1) 用戶希望向現有DataStage作業添加Streams分析2) 用戶希望向現有Streams應用添加DataStage處理3) 從頭創建一個DataStage作業和Streams應用。
這些整合可能具有以下數據流:? DataStage->Streams? DataStage->Streams->DataStage? Streams->DataStageInfoSphereStreams-Information聯邦整合(用于大數據)18分析和報告工具Web應用建模–查詢–交付搜索–分析–可視化VivisimoVelocityInfoSphereFederationHive
(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大數據聯邦解決方案的另一個企業數據來源聯邦整合(用于大數據)18分析和報告工具建模–查詢–新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”只需幾次單擊,便可在文件/數據庫與BigInsights之間移動數據滿足需求,以便:生成用于個人開發工作的沙盒用戶界面顯示了一些策略選項,
無需任何編碼即可將它們自動化。基于所選的策略和源系統功能來
利用InfoSphereDataStage和
InfoSphereDataReplication。整合的設計和操作元數據,用于
內置治理
用于大數據的InfoSphereDataClick:敏捷和可控的整合DB2/
ORACLEInfoSphereDataClickBigInsights分析應用數據倉庫轉換/復制分析存儲分析DS/
CDC新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”實時整合(用于大數據)20InfoSphere
數據復制應用程序事務日志高速雙向數據對實時信息的低延遲捕獲分析極大規模的移動信息每秒TB級數據,每天PB級數據。分析各種信息分析原生格式的各種信息–流音頻、視頻、空間等信息非擴散性的記錄捕獲從事務數據庫日志中讀取數據,將數據分發給任何目標–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS
消息隊列ETLHadoop系統流系統倉庫實時整合(用于大數據)20InfoSphere
數據復制應用21InfoSphereDataClick實時數據高性能傳遞JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數據倉庫數據及時性,動態的數據倉庫結合
ETL/ELT優化批處理從源到目標更少的時間和處理即使禁止抽取,數據也可以獲取為轉換清洗ETL提供實時的數據降低數據集市的成本21InfoSphereDataClick實時數據高性221stClick2ndClick預選數據源和目標Tab頁上顯示的核對標志表明所需的配置完成復查配置
Execution!!!InfoSphereDataClick–點擊兩下完成數據整合221stClick2ndClick預選數據源和目標復查23頂級性能加速時間價值:
InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel?Xeon?E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel?Xeon?E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel?10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel?Xeon?E55202.27GHzStorageSpace:128TB*
*@4xcompressionratioNetworkCard:Intel?10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸載速度=2.58TB/hour加載速度=2.38TB/hour23頂級性能加速時間價值:
InformationServ24大數據清洗(驗證、充實和匹配)對傳統數據和大數據的統一和整合訪問驗證、標準化、充實和匹配數據值得信任的數據存儲實現了整體視圖業務洞察事務數據傳統應用源社會網絡視頻和照片整合數據質量倉庫風險儀表板流計算24大數據清洗(驗證、充實和匹配)對傳統數據和大數據驗證、標InformationServer提供市場上最全面的數據集成和數據管理解決方案獨特優勢Business/ITcollaborationondataqualityobjectivesAutomatedbusiness/
ITcollaborationEstablishframeworkfor
metadatalineageUnderstandyourdataIncludesautomated
datadiscoveryCleanseandvalidatedataHighestperformancetools
inthemarketMonitordataqualityOnlysolutionofferingrealtime/in-flightdatavalidationandmonitoringFlexibilitySOAenabledBreadthofsupportedsources
andtargets優點LowestTotalCostofOwnership(TCO)EnablessharedservicesandcentralizedrulemanagementProvidesasharedmetadatarepositoryBestinclassdataqualityanalysistoolsUnderstandthecontent,quality,
andstructureofdatasourcesAutomatedataprofilingandanalysisMonitordataqualityovertimeUniqueparallelprocessingengineDeliversunmatchedabilitytoscaleforhugedatavolumesInformationServer提供市場上最全面的數據大數據成功關鍵課件大數據成功關鍵 --高效地實現大數據的移動劉春霞liuchunx@IBM軟件部資深信息整合顧問大數據成功關鍵劉春霞28InfoSphere:維護信息供應鏈信息治理治理質量安全和隱私生命周期標準事務和協作應用業務分析應用外部信息源分析整合管理多維數據集流大數據主數據內容數據流信息數據倉庫內容分析整合和清洗3InfoSphere:維護信息供應鏈信息治理治理質量安全和ThirstforInformation可靠信息移動的速度敏捷
用戶想要快速地訪問數據,幾分鐘內和小時級內(如自主的數據整合)對分析的需求兩者都需要!權威性
在一個流程框架內內的可靠信息避免信息冗余需要敏捷和可靠的數據訪問ThirstforInformation可靠信息移動的速任何數據到大數據大數據到任何數據大數據中心批量數據整合(用于大數據)任何數據ETL/
ELTETL/
ELTELT加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實時流數據提取獲益從多種來源提取數據:機器數據、社交數據、多結構成熟的整合工具,更高的生產力數據中心獲益以大數據形式產生和分析的數據–從不清除用于完成大數據運行時內的工作的圖形工具將現有的企業數據引入一個探索性分析平臺將社交數據和機器數據引入一個企業數據倉庫系統自動化一個低成本數據暫存區域的工具對數據的推送處理(不是其他方法)任何數據到大數據批量數據整合(用于大數據)任何數據ETL/BigInsightsHadoopInfoSphereBigInsights的批量數據整合集市數據倉庫倉庫集市DataStage數據庫FilesFiles文件并行寫入DataStage子集并行讀取細節和摘要BigInsightsInfoSphereBigInsig與大數據來源交換信息將企業信息轉移到大數據來源,使它可包含在分析中獲取Hadoop的分析結果,并將它們應用于其他IT解決方案并行性和規模對HDFS的支持通過信息服務器并行引擎提供了大規模可伸縮性作業血統與大洞察來源/目標步驟使用信息服務器中的擴展性功能大數據文件組件與大數據來源交換信息大數據文件組件使用BDFS作為來源BDFS引入了新來源選項NamenodeClusterHost和PortBDFS可并行讀取文件模式BDFS可使用Readers選項并行讀取單個文件使用BDFS作為來源BDFS引入了新來源選項NameBDFS數據流程圖名稱節點文件請求BDFS數據節點BDFS數據數據PXPXBDFS使用多個讀取器流程并行化HDFS讀取InfoSphereDataStageBDFS數據流程圖名稱節點文件請求BDFS數據節點BDFS使用BDFS作為目標BDFS引入了新的目標選項NamenodeClusterHost和PortBDFS通常寫入單個文件BDFS能夠并行寫入多個文件使用BDFS作為目標BDFS引入了新的目標選項NamBDFS示例
客戶情緒傾向性分析作業可以通過分析電子郵件在InfoSphereBigInsights中執行。客戶情緒傾向性摘要將被更新到倉庫中。InfoSphereDataStage作業將挑選信息并更新數據倉庫(使用SCD階段的客戶維度)可執行基于分類的電子郵件的風險識別。可以將電子郵件分類為高風險和低風險。分析作業輸出風險分類BDFS示例客戶情緒傾向性分析作業可以通過分析電子郵件在37BDFS:可擴展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可擴展性和性能InformationServ38InformationServer–Bigdataintegration-讀寫都具有近線性的可擴展能力-最高可達5.2TB/小時-DataStage節點翻倍,處理效率翻倍直至磁盤資源全部占用BDFS:可擴展性和性能13InformationServer–Bigdat平衡的優化–從DataStage生成HadoopMapReduce作業使用DataStageDesign流程生成ETL作業使用BalancedOptimization將其編譯為在BigInsights上運行。將支持完全下推–Hadoop內的所有處理(如果可能)
混合下推–內部的一些處理和外部剩余處理,具體取決于來源和目標平衡的優化–從DataStage生成Hadoop40通過InformationServer和Hadoop數據文件系統(HDFS)的
整合,強化了IBM在大數據的領導地位通過JobSequencer對BigInsights和其他MapReduce作業進行編程調用,結合DataStage和Hadoop實現端到端工作流。利用設計器用戶界面和標準階段結構來生成MapReduce作業,為用戶提供處理BigData來源的能力,可以使用Hadoop更高效地處理這些來源。實現InfoSphereDataStage和InfoSphereStreams之間的直接數據流整合,結合兩個平臺的強大功能和應用范圍通過所有用例提供豐富元數據支持。自動化的大數據作業生成15通過InformationServer和Hadoop從DataStage調用Oozie工作流Oozie是Hadoop中的一個工作流計劃引擎Oozie提供了一個JavaAPI來調用Oozie工作流調用者是Oozie客戶端DS可充當Oozie客戶端使用OozieAPI,我們構建了一個Oozie調用者模塊該模塊是同步的成功執行工作流時返回1發生錯誤時返回0作業調度程序有一個執行命令階段Oozie調用者模塊從執行命令階段執行使用返回代碼在發生錯誤時放棄作業序列序列從DataStage調用Oozie工作流OozieInfoSphereStreams-InformationServer連接器1) 用戶希望向現有DataStage作業添加Streams分析2) 用戶希望向現有Streams應用添加DataStage處理3) 從頭創建一個DataStage作業和Streams應用。
這些整合可能具有以下數據流:? DataStage->Streams? DataStage->Streams->DataStage? Streams->DataStageInfoSphereStreams-Information聯邦整合(用于大數據)43分析和報告工具Web應用建模–查詢–交付搜索–分析–可視化VivisimoVelocityInfoSphereFederationHive
(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大數據聯邦解決方案的另一個企業數據來源聯邦整合(用于大數據)18分析和報告工具建模–查詢–新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”只需幾次單擊,便可在文件/數據庫與BigInsights之間移動數據滿足需求,以便:生成用于個人開發工作的沙盒用戶界面顯示了一些策略選項,
無需任何編碼即可將它們自動化。基于所選的策略和源系統功能來
利用InfoSphereDataStage和
InfoSphereDataReplication。整合的設計和操作元數據,用于
內置治理
用于大數據的InfoSphereDataClick:敏捷和可控的整合DB2/
ORACLEInfoSphereDataClickBigInsights分析應用數據倉庫轉換/復制分析存儲分析DS/
CDC新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”實時整合(用于大數據)45InfoSphere
數據復制應用程序事務日志高速雙向數據對實時信息的低延遲捕獲分析極大規模的移動信息每秒TB級數據,每天PB級數據。分析各種信息分析原生格式的各種信息–流音頻、視頻、空間等信息非擴散性的記錄捕獲從事務數據庫日志中讀取數據,將數據分發給任何目標–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS
消息隊列ETLHadoop系統流系統倉庫實時整合(用于大數據)20InfoSphere
數據復制應用46InfoSphereDataClick實時數據高性能傳遞JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數據倉庫數據及時性,動態的數據倉庫結合
ETL/ELT優化批處理從源到目標更少的時間和處理即使禁止抽取,數據也可以獲取為轉換清洗ETL提供實時的數據降低數據集市的成本21InfoSphereDataClick實時數據高性471stClick2ndClick預選數據源和目標Tab頁上顯示的核對標志表明所需的配置完成復查配置
Execution!!!InfoSphereDataClick–點擊兩下完成數據整合221stClick2ndClick預選數據源和目標復查48頂級性能加速時間價值:
InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel?Xeon?E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel?Xeon?E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel?10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel?Xeon?E55202.27GHzStorageSpace:128TB*
*@4xcompressionratioNetworkCard:Intel?10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespeci
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農村醫療健康活動設計合同
- 鐵路旅客運輸服務授課張芬香課件
- 雙語客運值班員旅客乘車的條件課件
- 體能訓練立定跳遠課件
- 鐵道概論橋隧之最94課件
- 中國主題課件
- 機場跑道施工合同
- 企業專職安全生產員合同范本
- 平頂山學院《中國審美文化解讀與欣賞》2023-2024學年第一學期期末試卷
- 長春早期教育職業學院《時間序列分析及應用》2023-2024學年第一學期期末試卷
- 金屬廢料資源化利用
- 2023裝配式建筑標準化產品系列圖集(預制內墻條板)SJT 03-2023
- 遠動設備故障處理措施
- 《真空熱處理爐》課件
- 醫院檢驗科實驗室生物安全管理手冊
- 企業財務管理優化方案
- NB-T 47013.2-2015 承壓設備無損檢測 第2部分-射線檢測
- 實用版建筑工程工程合同模板
- 新型馬路劃線機設計
- 《兒科學》課件第9章第九節 腹瀉病
- 小學生主題班會 拒絕作弊+誠信考試+宣傳教育 課件(共28張PPT)
評論
0/150
提交評論