大數據概述Oracle大數據解決方案_第1頁
大數據概述Oracle大數據解決方案_第2頁
大數據概述Oracle大數據解決方案_第3頁
大數據概述Oracle大數據解決方案_第4頁
大數據概述Oracle大數據解決方案_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據概述&

Oracle大數據解決方案RichNiemiec,Rolta公司,2013年提供創新性技術,發揮富有洞察力的影響2Rich簡介RoltaInternational董事會顧問TUSC前總裁500強企業(增長速度最快的500家私營公司)在美國設有10個辦事處;總部設在芝加哥Oracle技術&應用高級合作伙伴RoltaTUSC前總裁、RoltaEICTInternational前總裁著有以下著作(3本Oracle暢銷書—十多年來排名第一的Oracle調優書籍):OraclePerformingTips&Techniques(CoversOracle7&8i)Oracle9iPerformanceTips&TechniquesOracleDatabase10gPerformanceTips&TechniquesOracleDatabase11gPerformanceTips&TechniquesOracle國際用戶組前主席Oracle中西部用戶組現任主席入選芝加哥企業家名人堂—1998年入選安永年度企業家和世界名人堂—2001年IOUG頂級演說家—1991、1994、1997、2001、2006和2007年12次榮獲MOUG頂級演說家稱號國家三人組成功人士獎—2006年Oracle認證大師和OracleACE總監普渡大學杰出電子與計算機工程師—2007年議題Oracle趨勢現狀技術發展未來規劃

Oracle趨勢

了解OracleExadataX-3:內存數據庫

4TDRAM/22T閃存6Oracle首創的技術—創新!1979年,第一個商用關系型數據庫管理系統

1983年,第一個32位的RDBMS

1984年,第一個具備讀取一致性的數據庫

1987年,第一個客戶端-服務器模式的數據庫

1994年,首次商業評估和多層安全性數據庫評估

1995年,第一個64位的RDBMS

1996年,首次突破30,000TPC-C

1997年,第一個Web

數據庫

1998年,第一個具備原生Java

支持并且突破100,000TPC-C的數據庫

1998年,第一個Linux上

的商用RDBMS

2000年,第一個支持XML

語言的RDBMS

2001年,第一個實現中間層數據庫緩存的數據庫

2001年,第一個帶有RealApplicationClusters

集群支持的RDBMS

2004年,第一個真正的網格數據庫

2005年,第一款免費的Oracle數據庫(10g快捷版)

2006年,Oracle首次為Linux平臺提供支持

2007年,發布Oracle11g!

2008年,發布OracleExadata(Oracle收購BEA)

2009年,Oracle收購Sun—Java、MySQL、Solaris、硬件和OpenOffice2010年,Oracle發布MySQLCluster7.1、Exadata、Exalogic2011年,OracleX2-2、ODA、Exalytics、SuperCluster、大數據、云和社交網絡

2012年,OracleX3-2、Oracle12cOEM、可插拔數據庫和X3-82013年,發布Oracle12c!發布OracleExadata

X3-8,收購AcmePacket!風險和利潤效率和利用率可靠性和完整性合規性企業面臨的挑戰和分析需求文化和態度計劃和執行參與度和支持信息和溝通管理

角度業務

角度孤立思維我不關注我不知道您沒有告訴我這是他們的問題制定決策很困難數據不可靠報告不可追溯沒有訪問權限數據源不相關缺少集成戰略管理老板不喜歡我不知道我為什么會這樣做云計算、移動計算、社交媒體和大數據分析推動產生新的計算模式。該模式進而引發業務轉型以提升效率,促進法規遵從,提升整體業務可持續性,以及以客戶為中心。加深認識:大數據革命收集、存儲和分析數據的能力在信息技術帶來的影響中始終占有重要一席。在這個數字化程度日益提高的時代,您所做的每件事都會有一個電子記錄。隨著企業積聚的數據越來越多并達到數百TB,他們紛紛尋求更加尖端的軟件工具對數據進行挖掘和分析,從而幫助企業更好地了解市場和客戶,甚至是幫助企業對未來作出預測。8您如何收集和存儲數據?您如何傳輸數據?您如何分析數據?您如何從數據獲益?大數據為何重要?張加萬天津大學軟件學院技術趨勢:GartnerHypeCycle2012Gartner發布的2012技術趨勢數據量增大—數據量大小變得重要……近年來,全球的數據量迅速增長。2000年:800TB(1012)2006年:160EB(1018)2009年:500EB(僅互聯網)2012年:2.7ZB(1021)2020年:35ZB?一天中生成的數據?Twitter:7TBFacebook:10TB以上大數據:創新、競爭力和生產率的下一個前沿McKinseyGlobalInstitute,2011年我們淹沒于數據之中,但渴望獲得信息2.8x1020

位的內存空間—JohnvonNeumann(《ComputerandtheBrain》,哈佛大學講稿,發表于半個世紀前)從各種在線來源整理所得的數據數據量有多少……2004年每月的互聯網流量超過1E;2010年每月的互聯網流量為21E。2012年,每天創建的數據達到2.5E(大約等于1Z(1000E)/年)2012年6月—Facebook的Hadoop集群的數據量達到100PFacebook:每天處理的數據量達到500T—每小時掃描的Hive數據量達到210T單個Jet引擎—20T/小時(此速率與Facebook相同!)Gmail擁有4.5億用戶沃爾瑪—100萬筆客戶交易/小時(相當于2.5P的數據庫)大型強子對撞機一年產生的數據量達13P業務數據每1.2年翻一番19%的市值達10億美元的公司擁有超過1P的數據(2013年將達到31%)2011年—Oracle率先發布EB級磁帶庫之前對人類基因組進行解碼需10年;現在只需一周!IOUG調查*—2012年9月*大數據帶來巨大的挑戰與機遇:2012年IOUG大數據戰略調查(IOUG=IndependentOracleUsersGroup,獨立的Oracle用戶組)大數據預測未來天氣*V*EarthRisk公司的系統基于:820億次計算60年的數據什么是大數據和大數據分析?大數據是指規模超出常用軟件工具在容許時間內捕獲、管理和處理能力的數據集。大數據分析是指可處理傳統分析方法因數據量過大、數據類型過于多樣、速度變化過快等原因無法分析處理的數據。16每個組織都將使用大數據17大數據涵蓋以下領域:社交媒體、傳感器數據、生物學、交通數據、RFID數據、環境數據、航空、無線網絡、安防與視頻數據、零售、醫療、工程系統、搜索數據、攝影、呼叫記錄和CRM/ERP數據等。IOUG調查—2012年9月IOUG調查—2012年9月大數據的特點大數據的主題適用于大數據量的軟硬件技術專注于Web2.0技術數據庫橫向擴展關系型&分布式數據分析分布式文件系統實時分析大數據的領域數字營銷優化數據探索和發現欺詐檢測與防范社交網絡和關系分析機器生成的數據分析數據保留財務電信媒體生命科學零售政府大數據提供商在最開始的階段……我們是如何實現的?LarryPage和SergeyBrin編寫BigFile;GFS(GoogleFileSystem)得自于此,接著,MapReduce

將工作映射到集群的多工作節點,然后對分布式處理結果做聚合(用于生成Google的WWW索引)Apache推出了Hadoop(Facebook、Yahoo、AmazonEC2和S3均采用此框架),此開源版框架采用HDFS和MapReduce

—在同一工作節點對分布處理后的作業做批處理,—速度不算超快(秒鐘比毫秒),也不適合于交互式分析(不支持更新,只支持疊加)Google則推出了BigTable(支持壓縮的高性能數據存儲),GoogleMaps、GoogleReader、GoogleEarth、YouTube和Gmail均采用該存儲系統Apache添加了NoSQL

數據庫:Cassandra和HBase多個系統開始采用NoSQL,這其中也包括Oracle的NoSQL(BerkeleyDB)。大數據基礎知識我們的目標是組織數據而不移動數據!—HadoopHDFS和MapReduce(訪問PB級數據的低成本方式)。HDFS能夠存儲任何類型的數據或結構,但MapReduce只與鍵值對配合工作獲取并存儲數據—NoSQL(簡單的鍵值對存儲)

—AmazonDynamoDB(托管)、ApacheCassandra、HBase、BigTable、MongoDB、OracleNoSQL(分布式鍵值),或者僅使用原始的HDFS/GFS和MapReduce(這些架構大多都具備最終一致性!)分析數據—GoogleDremel、ApacheHive數據倉庫、Oracle數據分析工具(OBIEE)54%正在使用大數據的公司表示: “項目至關重要!”多種NoSQL數據庫—最終一致性NoSQL

支持

BASE:基本可用性

(BasicallyAvailable)柔性狀態

(Softstate)最終一致性(Eventually

consistent)大數據工具革命……GoogleFileSystem(GFS)Google

MapReduceApache/Hadoop世界Hadoop文件系統(HDFS)MapReduceHbaseHypertable(百度使用)GoogleBigTableApacheHive(DWHSE)ZooKeeper與Pig(協作)(操作HDFS)Cassandra(基于DynamoDB[Amazon]和BigTable)審視Hadoop生態系統的另一種方法*這張精彩的幻燈片節選自ClouderaHadoop演示文稿,作者是ToddLipconYahoo!將Hadoop擴展至4000個節點4000個節點—100個機架(每個機架40個節點)32T的RAM=8G/節點x4000個節點超過30,000個核心的CPU處理能力16PB的裸容量,千兆以太網IOUG調查—2012年9月IOUG調查—2012年9月注意:未來3年,“NotUsingHadoop”所占的比例為56%2012年的NoSQL趨勢Hadoop擴展至企業級Microsoft加入Hadoop大軍(與Yahoo!分拆出的Hortonworks建立合作伙伴關系

在WindowsServer和Azure中采用

Hadoop,有到MSSQL的連接器)基于NoSQL的解決方案安全問題阻礙了NoSQL的發展Oracle以更大的力度投入NoSQL競爭(大數據機)“隨著客戶尋求方法應對新的以及不斷發展的數據源(如Web、傳感器、社交網絡、和移動應用)引發的數據激增,Oracle開始通過提供高可用、可靠和可伸縮的NoSQL數據庫環境,幫助客戶發現和挖掘這些數據的價值。”—Oracle高級副總裁AndrewMendelsohn內存數據網格與NoSQL的集成成就了Facebook和Twitter的成功案例2012年1月26日發布于

DataVersityNoSQL

數據庫—超過120種下一代數據架構32所有數據都有所不同!數據領域特征(Oracle信息架構框架)IOUG調查—2012年9月IOUG調查—2012年9月開源項目框架查詢/數據流數據訪問協作/工作流統計工具實時分析兩面性各個領域保持一致統計學、計算機科學、應用數學、經濟學、機器學習、數據挖掘、模式識別、自然語言處理、數據融合與集成、模擬和優化等等。以下描述模型和預測模型有助于獲得對數據的有益的了解交流已獲得的認識(可視化)分析具有各種各樣的形式和規模:零售業銷售分析金融服務分析風險分析與信用分析人才分析營銷分析行為分析集合分析欺詐分析定價分析電信供應鏈分析運輸分析以上跨職能分析有助于推動組織戰略交流已獲得的認識(可視化)石油與天然氣煉油石油化工冶金電力化工預定義的職能KPI、知識數據模型、目標、警報多維績效分析、預測分析、預測設計正確的戰略、溝通、協作、記分卡、促進行動工程師、主管、操作員直屬經理、職能經理職能專員/戰略分析師高管基于實時運營數據和業務數據以及現場圖的智能分析解決方案Oracle數據庫

具備分析功能!!分析功能說明數據挖掘Oracle數據挖掘

通過復合算法實現模式發現、結果預測以及識別關鍵預測指標等。復雜數據轉換ETL功能,SQL表達式或DBMS_DATA_MINING_TRANSFORM程序包。適用于缺失值、異常值處理、分級和標準化。統計功能SQL統計功能:假設檢驗(t測試、F測試)、皮爾遜相關、交叉表/描述統計(中值和模式等)DBMS_STAT_FUNCS包添加了分布擬合過程。窗口函數/SQL分析函數計算累積、移動和居中聚合。頻繁項目集OracleDataMining所使用的關聯算法將以DBMS_FREQUENT_ITEMSET為基礎。圖像特征提取OracleIntermedia支持提取顏色直方圖、紋理和位置顏色。線性代數UTL_NLA程序包提供用于向量和矩陣運算的常用BLAS庫和LAPACK庫的子集。OLAP除下鉆和匯總之外,OracleOLAP還支持多維分析、時間序列分析、建模和預測空間分析OracleSpatial的分析和挖掘功能包括分級、模式識別、空間關聯、共存挖掘和空間聚類、拓撲和NW數據模型分析—最短路徑、最小生成樹、最近鄰分析和貨郎擔問題等等文本挖掘此標準SQL用于通過自動分類和聚類對存儲在數據庫、文件和Web中的文本/文檔進行索引、搜索和分析還提供預先打包的分析……Oracle支持常用DMF和DMA函數適用性算法分類適用于預測特定結果的常用技術邏輯回歸樸素貝葉斯支持向量機決策樹回歸預測連續的數值結果多重回歸支持向量機屬性重要性根據與目標屬性的關系緊密程度對屬性進行排名。最短描述長度異常檢測識別罕見情況或可疑情況一類支持向量機聚類找到自然分組。增強的K均值正交分區聚類關聯找到與頻繁一起出現的項關聯的規則Apriori特性提取產生新的屬性作為現有屬性的線性組合。非負矩陣分解高價值客戶、中等價值客戶或低價值客戶可能會購買/不會購買客戶終身價值制程不良率醫療診斷因素買方優先保險欺詐依法納稅客戶細分生命科學發現產品捆綁缺陷分析模式識別數據預測示例是否具有預測性?后見之明洞察先見之明歷史定位典型MIS報告或BIOracleReports、Hyperion、IBMCognos和SAPBO等業務/行為分析、趨勢當前正在發生什么情況?/為什么會發生這種情況?預測優化過去的行為有助于預測未來結果目前正在發生什么情況?為什么會發生這種情況?將會/應當會發生什么情況?Oracle適用于大數據預測分析的“開放性”秘訣源:Wikipedia“Hadoop增強了Oracle的力量”“Hadoop旨在增強傳統數據庫,而不是取而代之。”DougCuttingIOUG調查—2012年9月Oracle為大數據預測分析

提供的技術Oracle用10天的時間訪問TwitterFirehose**選自LarryEllison在2012甲骨文全球大會上發表的主題演講將關注者、地理位置、榮譽和興趣等繪制成圖

選自LarryEllison在2012甲骨文全球大會上發表的主題演講

使用X2-8Exadata,

X2-4Exalytics及EndecaOracle為大數據快速部署提供的技術—

已準備就緒!50ExadataX-3:內存數據庫

4TDRAM/22T閃存緩存51優勢倍增*:訪問1/2000的數據;

就像將8P內存駐留在X3-8的4T存儲中一樣1TB(經壓縮)10TB用戶數據需要10TB的IO100GB(使用分區修剪)20GB(使用存儲索引)5GB(使用智能掃描)亞秒級(在數據庫機上)數據減少到原來的1/10,掃描加快2000倍

工程化系統的優勢! *Oracle幻燈片—感謝!IOUG調查—2012年9月

Oracle大數據優勢真正成熟和完備

—與眾不同完全集成Hadoop和加載器Exadata和ExalyticsBI集成與解決方案大數據硬件,其上包括HadoopHDFS、MapReduce、R編程語言(統計和回歸等)、OracleNoSQL,符合ACID,簡單的鍵-值對數據模型(多服務器上的哈希鍵—主鍵/次鍵和字節數組)OracleBerkeleyDB(已商業化8年!),該架構能夠根據需要使用外部表與HDFS(Hadoop文件系統)集成。OracleLoaderforHadoop(OLH)從MapReduce獲取分析的數據,最后將這些數據裝載到11gDatabase(這樣做更加容易)任何級別的并發都是靈活的,并且可以橫向擴展Oracle對集群化和高可用性(HA)具有深刻理解(不會出現單點故障!)Oracle管理工具與Oracle專業人員一樣具有巨大作用BerkeleyDB是全球最廣泛使用的數據庫工具包,全球已部署超過2億個Oracle的速度堪稱實時,不會像批處理那樣緩慢建立一支成功的團隊使用能夠創造未來的技術!使每位團隊成員覺得有責任為項目成功出一份力使每位團隊成員各盡其職與所有團隊成員分享成功成功團隊的特質:尊重 客戶忠誠度 信任共同目標 溝通 靈活性誠信 無私精神 支持相互理解 積極態度 領導力凝聚眾人之力,取得更大成就55Oracle的規模成長到多么大

—OW56最后的思考……追逐技術浪潮!“守株待兔或許也會有所得,但

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論