大數據技術應用實施方案建議-V10_第1頁
大數據技術應用實施方案建議-V10_第2頁
大數據技術應用實施方案建議-V10_第3頁
大數據技術應用實施方案建議-V10_第4頁
大數據技術應用實施方案建議-V10_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據技術大數據技術應用實施方案建議應用實施方案建議信息技術管理部2013年6月1目錄 我行新一代數據集成平臺能力要求 業內大數據技術的特性及應用研究 我行大數據技術的應用策略2新一代管理分析類應用需求3運營與信息安全運行日志存儲與分析安全日志存儲與分析營銷支持加強客戶洞察分析,實現靈活深入的客戶細分;科學的客戶行為及渠道經營分析報告與決策全面的計劃預算管理 價值導向的管理會計;流程化的財務會計體系 集成高效的財務運作 及時、準確的財務報告風險管理 滿足新協議合規和內部管理需要的全面風險管理體系市場風險、信用風險、操作風險等全面的風險計量;風險建模監管合規支持全面整合的反洗錢和欺詐風險管理;監

2、管合規長時間保存數據需求;審計供數;非結構化數據保存數據管控支持數據完整、全面(廣度、深度);數據可信;數據易用;數據生命周期管理應用需求新一代管理分析類應用對于大數據處理分析技術提出了高要求新一代數據集成平臺數據特點與挑戰4Volume數量大 數據內容豐富(賬戶信息、賬戶明細、流水信息等) 數據存儲周期長(監管要求保存20年) PB級的海量數據Variety種類多 數據類型多樣,包括結構化、半結構化、非結構化數據,如交易數據、日志數據、影像視頻數據等等Velocity速度快 近實時數據處理(即席數據分析) 實時訪問(如歷史數據查詢) 流式數據計算(如反欺詐)大數據時代,技術面臨著Volume

3、、Variety、Velocity 3V的挑戰目錄 我行新一代數據集成平臺能力要求 業內大數據技術的特性及應用研究 技術特性研究 技術應用研究 我行大數據技術的應用策略5大數據技術一覽圖6大數據技術主要包含應用領域(如商務智能)、基礎設施領域(結構化數據庫技術、分析型數據技術等)和基礎技術領域的各種相關技術。重點調研的相關大數據存儲技術產品調研基于商用硬件的分布式數據庫技術HADOOP技術對于大數據技術、產品的調研分兩類進行,即關系型數據庫與非關系型技術,前者以基于X86的MPP技術為代表,后者以HADOOP技術為代表大數據技術特性研究結論8分析維度X86 MPPHADOOP數據特性僅支持結構

4、化數據支持非結構化、半結構化、結構化數據擴展性可擴展至數百節點可擴展至數千個節點數據可靠性每份數據只有一個備份每份數據可有多個備份產品成熟度介于傳統關系型數據庫與HADOOP之間新技術,產品與技術均不成熟易開發性相對容易與傳統數據庫差異較大,開發復雜運維管理缺少統一的運維管理工具復雜,缺少統一的運維管理工具人員技能要求一般,僅需熟悉傳統關系型數據庫高,需要對產品、技術及程序設計有深入理解基于X86的MPP技術與傳統分析型數據庫的差異不大,但是提供了良好的擴展性,適合替代現有技術進行關系型數據的分析HADOOP技術支持的數據類型多,擴展性強,適合海量非結構化的數據分析,但技術不成熟,需逐步試點目

5、錄 我行新一代數據集成平臺能力要求 業內大數據技術的特性及應用研究 技術特性研究 技術應用研究 我行大數據技術的應用策略9美國銀行大數據技術應用情況10技術類型產品系統/機柜數集群容量 (PB)數據量 (PB)應用領域使用案例專有一體機Teradata2453.1數據倉庫企業/集中式數據倉庫Netezza80+2.81.1數據集市OLAPExadata10+10.08數據集市(OLAP 和 OLTP混合)全球人力資源部、CRC(客戶報告中心:22TB)、AMT基于商用硬件的分布式數據庫Vertica20.570.34數據集市OLAPHadoop技術Cloudera Hadoop若干1.61.6

6、ETL集團DW 、電子商務、信用風險數據暫存與歸檔銀行卡系統過期數據歸檔;集團數據倉庫數據歸檔信息安全數據庫、防火墻、應用程序等日志存儲與分析風險分析定量風險技術 (最大的Hadoop應用集群,173臺機器,1.6PB未壓縮數據)、欺詐檢測沙箱分析美國銀行在數據集市領域大量使用X86 MPP技術,HADOOP主要用于ETL、數據歸檔、日志分析及風險分析等應用美國銀行未來大數據技術應用11產品美國銀行的最佳定位戰略性產品IBM Netezza 純分析性的工作量的首選解決方案。高性能和高擴展性。費用較低,比 Exadata 或 Teradata 更容易進行管理。并發性方面的局限,使其適用于數據市場

7、,或可能適合小型部門的數據倉庫。 是Oracle Exadata 適用于 I/O 要求極為嚴苛并需要 20 TB 以上的交易/分析混合工作量。能夠處理同一系統中的多種工作量。也可視為適用于 20 TB 以上的分析數據庫(目前運行的是標準 Oracle 數據庫),因為它比 Netezza 更容易移植是Vertica (HP) 作為一種新興的主要候選方案,可替代 Netezza 和 Exadata,為大型數據市場或部門數據倉庫(20 TB 以上)提供基于商品的列式數據庫。通過創新的寫優存儲和讀優存儲以及經驗證的 PB 級別,擴展架構。在美國銀行進行了兩項重大且成功的實施。 是Sybase IQ (

8、SAP) 列存儲的首個商業實施。穩定、成熟的產品。許可交易使部署不受任何限制。通過標準的 x86 服務器和 SAN 運行。以前不屬于擴展解決方案,且在這方面仍未經過驗證。計劃作為 5-20 TB 數據市場的首選商品方案。 是Teradata行業標準,適用于大型、要求高和復雜的企業數據倉庫,此類數據倉庫需要復雜的工作量管理和其他高級功能。高度專有化、昂貴且不易獲得支持。美國銀行的使用應僅限于 W 數據倉庫,以及可能需要與 W 進行極高水平集成的某些數據市場。 是SAP HANA 最佳用途是為運行 SAP 軟件的應用程序實現加速。對于一般的非 SAP 工作量,不必采用此解決方案。亦沒有證據證明,H

9、ANA 在 SAP 前端之外的市場廣受歡迎。否ParAccel產品的發展速度非常快。供應商聲稱自己在 POC 方面無人可及。創新的架構和光纖通信。這是此表中唯一一個仍歸小型獨立供應商所有的解決方案。需要考慮供應商的規模、穩定性和長期生存能力。盡管技術令人印象深刻,但目前沒有計劃將 ParAccel 作為戰略性產品。否結構化數據分析領域,Netezza、Exadata、Vertica、Teradata及Sybase IQ是美國銀行未來的戰略產品國內銀行同業 中國銀行 采用HADOOP實現系統日志的分析 中國農業銀行 進行歷史數據的歸檔 中國銀聯 歷史數據歸檔12目前中行、農行、銀聯等都已經開始了

10、基于HADOOP技術的應用探索及規劃淘寶大數據技術應用情況13應用領域n 批處理: ETL數據分析,OLAP大數據量分析主要使用Hive 點擊流日志分析; 搜索排行榜和其他搜索相關的業務 機器學習n 數據生命周期管理: 歸檔存儲:n 歷史訂單明細查詢n 應用規模 3000多個節點,36PB數據,20多個事業群,150多用戶組,3000多用戶。Hadoop應用發展歷程淘寶數據服務平臺架構淘寶采用HADOOP技術構建了完整的數據倉庫及處理分析平臺大數據技術應用研究結論14關系型數據領域非關系型數據領域Teradata主要用于數據倉庫X86 MPP技術在數據集市中得到廣泛應用HADOOP技術在如下領

11、域得到廣泛應用數據歸檔存儲ELT半結構化數據分析隨著HADOOP技術快速發展,其對關系型數據的處理支持也越來越強,關系型與非關系型數據的處理技術邊界已經日漸模糊,后續應用HADOOP技術可能實現統一的數據處理分析平臺目錄 我行新一代數據集成平臺能力要求 業內大數據技術的發展及應用研究 我行大數據技術的應用策略15我行大數據技術應用規劃建議我行大數據技術應用規劃建議技術應用領域建議技術應用領域建議ORACLE滿足OLTP類應用需求X86 MPP在某些非關鍵應用領域作為TERADATA的替代技術,降低應用成本;復雜的歷史數據查詢(如:多表關聯,查詢條件可自由組合的查詢)Teradata核心數據倉庫

12、應用海量、多維度的復雜數據分析HADOOP技術歷史數據歸檔; 簡單歷史數據查詢(查詢條件固定的單表查詢);半結構化數據分析;RDW區(ORACLE Exadata)SOR區 (X86 MPP)ADW &CM區(TERADATA)LDS區(X86 MPP+HADOOP)HDS-歸檔區(HADOOP)HDS-訪問區(HADOOP+X86 MPP)Staging區第三階段引入基于X86平臺的商用硬件的分布什數據庫產品,以較合理的性價比,提高海量數據的計算能力與時俱進、積極應用總體規劃、分步實施制定計劃、穩步推進第二階段第一階段引入遵行HADOOP技術標準的HADOOP技術產品,實現:海量結構

13、化歷史數據的歸檔保存信息安全日志的存儲與分析擴展HADOOP技術的應用范圍:電商數據分析其他場景我行大數據技術應用實施路徑建議不斷豐富大數據技術上的應用功能,形成我行完善的大數據技術應用體系。17HADOOP技術選擇方案比較18詳細見:比較項 方案方案一:采用免費開源發行版Cloudera Hadoop方案二:采用商業開源發行版(如Cloudera、Hortonworks)方案三:采用閉源的HADOOP技術產品(如Intel Hadoop、IBM BigInsights、EMC Pivotal HD)是否關鍵指標成熟度與穩定性高高中是應用案例與規模多多少是產品和服務成本低中高是運行維護成本高中中是行內技術儲備要求高中中是國內支持力量弱一般稍強是服務支持響應時間長較長一般是運行風險高中中是廠商依賴程度低中高否開放程度高高低否產品按需定制的靈活度高中低否大數據技術應用初步實施計劃19階段主題開始時間結束時間第一階段引入X86分布式數據庫,分擔Teradata批量數據處理壓力,合理降低成本已完成第二階段HADO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論