大數據-大數據技術_第1頁
大數據-大數據技術_第2頁
大數據-大數據技術_第3頁
大數據-大數據技術_第4頁
大數據-大數據技術_第5頁
已閱讀5頁,還剩172頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

S大數據技術張博士2015年5月2/6/2023目錄大數據技術概論

云數據庫技術數據挖掘技術商業智能2/6/2023BigData名詞由來20世紀90年代,數據倉庫之父的BillInmon就經常提及BigData2011年5月,在“云計算相遇大數據”為主題的EMCWorld2011會議中,EMC拋出了BigData概念2/6/2023大數據的產生21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。2/6/2023數量級概念1KB=2(10)B=1024B;1MB=2(10)KB=1024KB=2(20)B;1GB=2(10)MB=1024MB=2(30)B。1TB=2(10)GB=1024GB=2(40)B1PB=2(10)TB=1024TB=2(50)B1EB=2(10)PB=1024PB=2(60)B2/6/2023數量級概念Kilobyte(KB)=1024B相當于一則短篇故事的內容。Megabyte(MB)=l024KB

相當于一則短篇小說的文字內容。Gigabyte(GB)=1024MB相當于貝多芬第五交響樂的演奏視頻內容。Terabyte(TB)=1024GB相當于一家大型醫院中所有的X光照片信息。Petabyte(PB)=l024TB相當于50%的全美學術圖書館信息內容。Exabyte(EB)=1024PB;5EB相當于至今全世界人類所講過的話語。2/6/2023信息通訊進入新時代2/6/2023摩爾定律2/6/2023后摩爾時代2/6/2023計算機演進2/6/2023信息計算體系演進2/6/2023軟件技術網絡化演進2/6/2023傳輸技術的發展2/6/2023從移動數據到移動流媒體2/6/2023移動通信峰值速率的提升2/6/2023互聯網發展:從電信到泛在服務2/6/2023聯網主機數量2/6/2023電視網絡化智能化與三網合一2/6/2023視頻流量成為主流2/6/2023全球骨干網流量2/6/2023中國互聯網干線帶寬2/6/2023中國互聯網用戶2/6/2023移動終端功能的演進2/6/2023移動互聯網加快普及2/6/2023智能終端引領后PC時代2/6/2023移動數據流量超過話音2/6/2023全球移動數據流量2/6/2023移動互聯網流量2/6/2023互聯網上1分鐘2/6/2023互聯網上的1天2/6/2023照片2/6/2023大數據時代到來2/6/2023大數據定義2/6/2023大數據例子2/6/2023科學研究催生大數據2/6/2023物聯網催生大數據2/6/2023安全監控的數據量2/6/2023環境監測催生大數據2/6/2023醫療病歷隱藏大數據2/6/2023國際關注大數據2/6/2023大數據的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。體量Volume多樣性Variety價值密度Value速度Velocity非結構化數據的超大規模和增長總數據量的80~90%比結構化數據增長快10倍到50倍是傳統數據倉庫的10倍到50倍大數據的異構和多樣性很多不同形式(文本、圖像、視頻、機器數據)無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統商務智能(咨詢、報告等)實時分析而非批量式分析數據輸入、處理與丟棄立竿見影而非事后見效2/6/2023大數據的4V2/6/2023大數據的劃分2/6/2023大數據技術挑戰2/6/2023大數據技術挑戰2/6/2023大數據平臺技術2/6/2023分布式存儲與架構2/6/2023大數據的并行處理2/6/2023大數據并行處理分析2/6/2023大數據可視化分析2/6/2023虛擬化與可視化2/6/2023大數據可視化2/6/2023目錄大數據技術概論云數據庫技術數據挖掘技術商業智能2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫GFS架構2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023Google云數據庫2/6/2023GoogleVsHadoop2/6/2023Haddop是什么2/6/2023Hadoop發展編年2/6/20232/6/2023Hadoop子項目2/6/2023Hadoop特性2/6/20232/6/2023Hadoop物理部署2/6/2023Hadoop集群2/6/2023Hadoop用戶2/6/2023HDFS2/6/2023HDFS2/6/2023HDFS能做什么適合不適合2/6/2023HDFS組件2/6/2023HDFS主要組件功能2/6/2023HDFS架構2/6/2023HDFS文件2/6/2023HDFSNameNode2/6/20232/6/2023HDFSDataNode2/6/2023HDFS可靠性保障2/6/2023HDFS可靠性保障2/6/2023HDFS可靠性保障2/6/2023提升性能的措施2/6/2023HDFS:節點失效是常態2/6/2023DataNode磁盤掛了2/6/2023DataNode機器掛了2/6/2023NameNode掛了2/6/20232/6/2023Client掛了2/6/2023MR+HBase2/6/2023WhyMapReduce?2/6/2023大規模數據分析2/6/2023大規模數據處理2/6/2023MR特性2/6/2023M+R2/6/20232/6/2023MR編程2/6/20232/6/20232/6/20232/6/20232/6/2023單一Reduce處理2/6/2023多個Reduce處理2/6/2023MR流程2/6/20232/6/2023目錄大數據技術概論云數據庫技術數據挖掘技術商業智能2/6/2023數據挖掘技術的由來大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一:是信息過量,難以消化;第二:是信息真假難以辨識;第三:是信息安全難以保證;第四:是信息形式不一致,難以統一處理。

網絡之后的下一個技術熱點

2/6/2023數據挖掘技術的由來“要學會拋棄信息”“如何才能不被信息淹沒,而是從中及時發現有用的知識、提高信息利用率?”數據開采和知識發現(DMKD)技術應運而生

網絡之后的下一個技術熱點

2/6/2023數據挖掘技術的由來

隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。

目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。數據爆炸但知識貧乏2/6/2023數據挖掘技術的由來海量數據搜集強大的多處理器計算機數據挖掘算法支持數據挖掘技術的基礎

2/6/2023數據挖掘技術的由來從商業數據到商業信息的進化

進化階段商業問題支持技術產品廠家產品特點數據搜集(60年代)“過去五年中我的總收入是多少?”計算機,磁帶和磁盤IBM,CDC提供歷史性的、靜態的數據信息數據訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關系數據庫(RDBMS),結構化查詢語言(SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級提供歷史性的、動態數據信息數據倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”聯機分析處理(OLAP),多維數據庫,數據倉庫Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動態的數據信息數據挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法,多處理器計算機,海量數據庫Pilot,Lockheed,IBM,SGI,其他初創公司提供預測性的信息2/6/2023數據挖掘技術的由來數據挖掘逐漸演變的過程

算法學習專家系統機器學習2/6/2023數據挖掘的定義

數據挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

技術上的定義及含義

2/6/2023數據挖掘的定義數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題技術上的定義及含義

2/6/2023數據挖掘的定義

數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。

商業角度的定義

2/6/2023數據挖掘的定義數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先未知,有效和可實用三個特征.

數據挖掘與傳統分析方法的區別

2/6/2023數據挖掘的定義

數據倉庫是為決策支持而不是為事務處理所設計的數據庫,它是將不同來源的事務處理數據庫中對決策有用的數據提取出來而建立。

數據倉庫的發展是數據挖掘的動力之一。但數據挖掘既可以在數據倉庫中進行,也可以在傳統的事務型數據庫中進行。數據挖掘和數據倉庫

2/6/2023數據挖掘的定義數據挖掘和數據倉庫

數據源數據倉庫各分公司數據集分析數據集數據挖掘數據集2/6/2023數據挖掘的定義在線分析處理(OLAP,On-Lineanalyticalprocessing)是一種增強的查詢技術,是決策支持領域的一部分。但又不同于傳統的查詢技術。傳統的查詢和報表工具是告訴你數據庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatnext)、和如果我采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。數據挖掘和在線分析處理

2/6/2023數據挖掘的定義比如,一個分析師想找到什么原因導致了貸款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設。如果這個假設沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結果或放棄。

數據挖掘和在線分析處理

2/6/2023數據挖掘的定義

數據挖掘與OLAP不同的地方是,數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。他在本質上是一個歸納的過程。數據挖掘和在線分析處理

比如,一個用數據挖掘工具的分析師想找到引起貸款拖欠的風險因素。數據挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發現一些分析師從來沒有想過或試過的其他因素,比如年齡。2/6/2023數據挖掘的定義數據挖掘,機器學習和統計分析

數據挖掘統計分析預測簡單的方法復雜的方法2/6/2023數據挖掘的定義數據挖掘,機器學習和統計分析

數據挖掘統計方法模式識別人工智能封裝預測2/6/2023數據挖掘的定義軟硬件發展對數據挖掘的影響

存貯性能的提高計算能力的提高并行處理技術2/6/2023數據挖掘應用欺詐偵測

AT&T使用根據數據挖掘開發的系統來偵測盜打國際電話的行為。由HNC公司開發的隊LCON欺詐評估系統用于提示可能存在的盜用信用卡的交易。金融犯罪執法網絡Al系統(FAIS)使用包括數據挖掘在內的幾種技術,識別大型現金交易中可能存在的洗錢行為。個人通訊高級安全(AdvancedsecurityforPersonalcommunications)歐洲研究組織己經利用無指導聚類偵測移動電話網絡中的欺詐。對每個用戶,系統儲存用戶的歷史和使用特征文件。在當前使用與用戶的歷史情況有明顯區別時,懷疑為欺詐行為。

2/6/2023數據挖掘應用衛生保健Merck-MedcoManagedcare,Merck的一個醫藥保險和處方電郵訂購單位,使用數據挖掘來幫助找出對某種類型的病人減少費用但療效相同的治療方法。生物信息或基因數據挖掘則完全屬于另外一個領域,在商業上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因,這都需要數據挖掘技術的支持。2/6/2023數據挖掘應用商業和金融Farmer‘sGroup有限公司如何使用數據挖掘方法得出擁有跑車的人不具有高事故風險的假設。美國銀行(BankofAmerica)使用數據挖掘偵測哪個客戶正在使用美國銀行的哪種產品,以便他們能夠提供正確的產品和服務組合,更好地滿足客戶的需求。美國西部通信(USWestCommunications)根據諸如家庭的大小、家庭成員的平均年齡和所在地這些特征,使用數據挖掘和數據倉庫來確定客戶的傾向和需要。20世紀Fox公司分析票房收入來確定哪個演員、情節和電影在各市場環境中更容易為觀眾接受。2/6/2023數據挖掘應用科學應用

γ射線爆是短暫的伽瑪射線反射,它來源于我們太陽系之外。有關事件的記錄已經超過1000次。科學界普遍認為存在兩種γ射線爆。Mukherjee等人使用統計聚類分析法(一種數據挖掘方法)發現了第3類γ射線爆。

2/6/2023數據挖掘應用運動和游戲大約20個NBA球隊使用了IBM公司開發的數據挖掘應用軟件AdvancedScout系統來優化他們的戰術組合。例如Scout就因為研究了魔術隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。博彩產業將客戶賭博方式的歷史模型結合起來,確定客戶在光顧他們喜歡的賭場時,會花(輸)多少錢。2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習

我們用歸納形成基本概念定義。我們看到代表動物、植物、建筑物和諸如此類的概念實例后,我們聽到為這些個別實例做的標記,并選擇我們認定的定義概念的特性(屬性)形成我們自己的分類模型。這以后,我們使用模型幫助我們進一步來區分結構相似的對象。這種類型的學習稱為基于歸納的有指導的概念學習,或簡稱有指導的學習(supervisedlearning)2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習ID喉嚨痛發燒淋巴腫充血頭痛診斷1YesYesYesYesYes鏈球菌感染喉炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo鏈球菌感染喉炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo鏈球菌感染喉炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10YesYesNoYesYes感冒2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習如果病人淋巴腫,診斷為鏈球菌感染性咽炎。如果病人沒有淋巴腫的癥狀,但發燒,診斷為感冒。如果病人沒有淋巴腫,也不發燒,診斷為敏感癥。

2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習(1)IF淋巴腫=Yes

THEN診斷=鏈球菌感染性咽炎(2) IF淋巴腫=No&發燒=Yes

THEN診斷=感冒(3)IF淋巴腫=No&發燒=No

THEN診斷=敏感癥

產生式規則2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習未知分類的數據實例ID喉嚨痛發燒淋巴腫充血頭痛診斷11NoNoYesYesYes?(鏈球菌感染喉炎)12YesYesNoNoYes?(感冒)13NoNoNoNoYes?(敏感癥)2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習準確度在檢驗集中符合產生式規則條件的實例正確顯示規則所指定結果的比率。覆蓋率在檢驗集中顯示規則所指定結果的實例符合產生式規則條件的比率。

產生式規則應用效果的評價指標2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習分類學習是有指導的。因變量是分類的。重點在于建立模型,將新的實例指派給一組定義明確的類中的一個。有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習分類任務的例子確定用于區分患過心臟病的人和從未患過心臟病的人的特征。開發一個“成功”人士的特征文件。確定一次信用卡購物是否為盜用。將一次購車貸款申請歸類為具備良好的或者不良的信用風險。開發一個特征文件來區別女性與男性中風患者。

有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習估計 與分類模型相似,估計模型的目的在于確定一個未知輸出屬性的值。然而,不同于分類模型的是,對一個估計問題,其輸出屬性值(一個或多個)是數值的而不是分類的。

有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習估計任務的例子估計暴風雨到達某個給定地點所需要的分鐘數。估計擁有一輛跑車的人的收入。估計信用卡已被盜的可能性。估計伽馬射線爆的長度。

有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習預測 與分類模型和估計模型不同,預測模型的目的在于確定未來的輸出結果而不是當前的行為。預測模型的輸出屬性(一個或多個)可以是分類的或數值型的。

有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習預測任務的例子預測2002年全美橄欖球聯盟(NFL)賽季中跑衛的觸地總得分。確定一個信用卡客戶是否可使用其信用卡賬單提供的優惠。預測下周道瓊斯工業指數的收盤價格。預測在未來的3個月內,哪些電話用戶最有可能改變他們的供應商。

有指導學習的類型2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習Acme信用卡公司信用卡促銷數據庫收入范圍雜志促銷手表促銷壽險促銷信用卡保險性別年齡40-50,000YesNoNoNoMale4530-40,000YesYesYesNoFemale4040-50,000NoNoNoNoMale4230-40,000YesYesYesYesMale4350-60,000YesNoYesNoFemale3820-30,000NoNoNoNoFemale5530-40,000YesNoYesYesMale3520-30,000NoYesNoNoMale2730-40,000YesNoNoNoMale4330-40,000YesYesYesNoFemale4140-50,000NoYesYesNoFemale4320-30,000NoYesYesNoMale2950-60,000YesYesYesNoFemale3940-50,000NoYesNoNoMale5520-30,000NoNoYesYesFemale192/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習

假設Acme信用卡公司己經批準了一個與上表所列的以前的促銷相似的新的壽險促銷活動。這個促銷材料將作為信用卡賬單的一部分發送給非零余額的所有信用卡持有者。我們將使用數據挖掘來幫助我們把賬單發送到選定的一組客戶手中,他們當前沒有信用卡余額,但有可能利用促銷機會。

我們的問題要求有指導數據挖掘使用壽險促銷作為輸出屬性。我們的目的是開發一個可能利用壽險促銷的客戶的特征文件,該壽險促銷是通過該客戶下一次信用卡結算表來宣傳的。

2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習IF性別=Female&19<=Age<=43

THEN壽險促銷=Yes 規則準確度:100.00% 規則覆蓋率:66.67%

IFSex=Male&IncomeRange=40-50K

THEN壽險促銷=No 規則準確度:100.00% 規則覆蓋率:50.00%

2/6/2023數據挖掘的基本技術有指導的數據挖掘技術——有指導的學習IF信用卡保險=Yes

THEN壽險促銷=Yes 規則準確度:100.00% 規則覆蓋率:33.33%IF收入=30-40K&手表促銷=Yes

THEN壽險促銷=Yes 規則準確度:100.00% 規則覆蓋率:33.33%2/6/2023數據挖掘的基本技術無指導數據挖掘技術——無指導聚類

與有指導學習不同,無指導聚類(unsupervisedclustering)為無預定義類數據建立模型。數據實例根據聚類系統定義的相似分類機制進行分組,在一種或多種評估技術的支持下,最終由我們確定所構造聚類的含義。

2/6/2023數據挖掘的基本技術無指導數據挖掘技術——無指導聚類

Acme投資有限公司代理帳戶數據客戶編號帳戶類型保證金帳戶交易方式月交易量性別年齡愛好收入1005JointNoOnline1.25F30Tennis40-50K1013CustodialNoBroker0.5F50Skiing80-99K1245JointNoOnllne3.6M20Golf20-39K2110IndividualYesBroker22.3M30Fishing40-59K1001IndividualYesOnline5.0M40Golf60-79K2/6/2023數據挖掘的基本技術無指導數據挖掘技術——無指導聚類

有指導學習的典型問題我可以開發一個在線投資人的一般特征文件嗎?如果可以,區分在線投資者和使用經紀人的投資者的特征是什么?有一個新客戶,他最初并沒有開設交易保證金賬戶,我是否可以確定他在將來會開設這樣的賬戶?我們能建立一個準確預測新投資人每月交易平均數的模型嗎?女性和男性投資人有什么不同特征?

2/6/2023數據挖掘的基本技術無指導數據挖掘技術——無指導聚類

無指導聚類的典型問題哪些屬性相似性決定Acme投資公司的客戶分組?屬性值的哪些不同之處分割了客戶數據庫?

2/6/2023數據挖掘的基本技術無指導數據挖掘技術——無指導聚類

通過無指導聚類將客戶劃分為3類IF保證金帳戶=Yes&年齡=20—29&收入=40-59KTHENCluster=1 準確度=0.80 覆蓋率=0.50IF帳戶類型=Custodial&愛好=Skiing&收入=80-90KTHENCluster=2 準確度=0.95 覆蓋率=0.35IF帳戶類型=Joint&交易量/月>5&交易方式=OnlineTHENCluster=3 準確度=0.82 覆蓋率=0.652/6/2023數據挖掘的基本技術關聯規則挖掘技術

關聯規則(associationrule)挖掘技術用于發現數據庫中屬性之間的有趣聯系。和傳統的產生式規則不同,關聯規則可以有一個或多個輸出屬性。同時,一個規則的輸出屬性可以是另一規則的輸入屬性。關聯規則分析有時也叫購物籃分析,是因為它可以找尋出潛在的令人感興趣的所有的產品組合。由此,有限數目的屬性可能生成上百條關聯規則。

2/6/2023數據挖掘的基本技術關聯規則挖掘技術通過apriori關聯規則挖掘算法,從Acme公司信用卡促銷數據庫可以得到以下關聯規則:IF性別=Female&年齡=over40&信用卡保險=NoTHEN壽險促銷=YesIF性別=Male&年齡=over40&信用卡保險=NoTHEN壽險促銷=NoIF性別=Female&Age=over40THEN信用卡保險=No&壽險促銷=Yes

2/6/2023數據挖掘的基本算法其它數據挖掘算法

K-平均值算法(一種無指導聚類算法)遺傳算法(可用于有指導學習的算法)神經網絡算法(可用于有指導學習的算法)

2/6/2023目錄大數據技術概論云數據庫技術數據挖掘技術商業智能2/6/2023BI理解數據商務智能是通過對來自不同的數據源進行統一處理及管理,通過靈活的展現方法來幫助企業進行決策支持。數據信息知識決策獲取管理使用2/6/2023BI概念商業智能(BusinessIntelligence,簡稱BI)的概念最早是GartnerGroup于1996年提出來的。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。

目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。從技術層面上講,商業智能不是什么新技術,它只是數據倉庫、OLAP和數據挖掘等技術的綜合運用。

2/6/2023商業智能是一種解決方案,關鍵是從許多來自不同的企業運作系統的數據中,提取出有用的數據,進行清理以保證數據的正確性,然后經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合并到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最后將知識呈現給管理者,為管理者的決策過程提供支持。2/6/2023外部數據庫MSSQLORACAL外部文件ETL工具大數據平臺,數據倉庫元數據數據挖掘OLAP分析信息表現查詢報表數據倉庫數據模型BI系統用戶元數據庫元數據數據描述用法結構安全設置數據數據數據查詢請求

商業智能基本過程圖

2/6/2023信息孤島各自為政,互相獨立財務分析運營分析客戶分析財務系統營銷系統服務系統2/6/2023幫助企業提高戰略決策建立業務單一視圖、消除信息孤島、多角度審視業務數據提高服務水平和客戶滿意度敏銳洞悉市場機會加強企業監管、防范欺詐內部效益考核優化資源科學決策數據倉庫2/6/2023商務智能對企業的作用和價值理解業務:網絡資源分析產品結構及組合分析服務質量分析業務發展分析理解客戶:客戶貢獻度分析客戶群體劃分客戶行為分析制訂市場營銷策略風險分析:客戶流失的測算信用分析欺詐分析內部績效考核:產品、部門利潤分析資源分配資源成本分析誰是最好的客戶?如何擴大利潤?如何避免風險?收入/成本如何分配?大數據平臺、數據倉庫2/6/2023數據質量控制數據重新組織EII解決方案數據展現數據管理數據獲取數據遷移作業分配數據清洗數據倉庫元數據管理數據集市管理安全性、分析管理企業商務智能體系架構規劃最終用戶數據質量控制數據重新組織ETL/DQ解決方案數據抽取、遷移、加載周數據加載日常數據增加日周期數據源ETL/EII數據存儲管理業務模型數據展現利潤成本分析資產分析營銷分析投資組合分析平衡計分卡/KPI解決的業務問題數據分析采購系統生產系統銷售系統財務系統即席查詢Intranet/Internet產品報告數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論