




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
商務智能復習綱要第1章商務智能概述1.1商業決策需要商務智能一、數據、信息和知識1、數據:符號、事實和數字信息:有用的數據關系:信息是經過某種加工處理后的數據,是反映客觀事物規律的一些數據。數據是信息的載體,信息是對數據的解釋。事物運動事物運動數據信息記錄解釋知識:對信息內容進行提煉、比擬、挖掘、分析、概括、判斷和推論。2、決策離不開信息、知識①決策需要信息,更離不開知識;知識更多地表現為經驗--學習的結晶;學習的過程是不斷地對信息加工處理;信息的收集、加工、傳輸與利用貫穿著決策各階段的工作過程。②信息已成為企業經營中重要性僅次于人才的第二大要素。③決策=信息+經驗+冒險④商務智能是對企業信息的科學管理。3、商務智能支持商業決策商務智能如何創造知識和價值1.2商務智能簡介商務智能這一術語1996年由Gartner公司的分析師HowardDresner首次提出,他提出商務智能描述了一系列的概念和方法,通過應用基于事實的支持系統來輔助商業決策的制定。一、商務智能概念商務智能是整合了先進信息技術與創新管理理念的結合體,集成了企業內外的數據,進行加工并從中提取能夠創造商業價值的信息,面向企業戰略并效勞于管理層、業務層,指導企業經營決策,提升企業競爭力,涉及企業戰略、管理思想、業務整合和技術體系等層面,促進信息到知識再到利潤的轉變,從而實現更好的績效。①先進信息技術:商務智能是多項技術的綜合應用;②集成了企業內外的數據,進行加工并從中提取能夠創造商業價值的信息:商務智能的層次;③企業戰略:商務智能效勞于企業戰略;④管理層、業務層:商務智能用戶多樣性;⑤更好的績效:商務智能提升企業績效。二、商務智能的價值1、在商務智能背后有一些商業驅動力,如:①增加收入,減少費用和更有效地競爭的需求。②管理和模擬當前商業環境復雜性的需求。③減少IT費用和利用已有公司業務信息的需求。2、商務智能的價值①制定適宜的市場營銷策略;②改善顧客智能;③經營本錢與收入分析;④提高風險管理能力;⑤改善業務洞察力;⑥提高市場響應能力。1.3商務智能系統的功能①數據集成:數據是決策分析的根底;②信息呈現:商務智能的初步功能;③經營分析:運營指標、運營業績和財務分析;④戰略決策支持:合理的投資組合。1.4商務智能應用領域①銀行:美國銀行家協會(ABA)預測數據倉庫和數據挖掘技術在美國商業銀行的應用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關系優化;風險控制等②電子商務:網上商品推薦;個性化網頁;自適應網站…③生物制藥、基因研究:DNA序列查詢和匹配;識別基因序列的共發生性…④電信:欺詐甄別;客戶流失…⑤保險、零售……⑥政府部門、教育機構、醫療機構和公用事業等。利用商務智能的企業現在已越來越多,普及各行各業。第13章商務智能開展一、商務智能的開展事務處理系統TPS→管理信息系統MIS→主管信息系統EIS→決策支持系統DSS→智能決策支持系統IDSS二、商務智能應用趨勢①更成熟的數據分析和展現技術;②從戰略型的BI到操作型或者實時型的BI;③關注績效、關注價值、關注數據質量。三、商務智能在中國的開展商務智能在中國的開展尚處于起步階段,大局部企業對商務智能仍然缺乏必要的了解。國、內外商務智能軟件企業的實施和應用水平有很大的差距,目前國外有一些企業已進入多維分析和數據挖掘階段,而國內商務智能的開展只是近幾年的事情,商務智能應用的范圍和程度都與國外企業有很大差距。絕大多數實施商務智能的企業的應用水平停留在根本的數據整合階段和簡單的統計分析階段,真正實現深度數據分析的工程很少。四、中國商務智能應用存在的問題①起步較晚:國內管理者想要利用商務智能解決缺乏有效信息支持決策的管理模式和操作準那么越來越表達出缺乏理性的缺點。因此國內企業管理者試圖通過商務智能解決上述問題,但這種需求比國外興旺國家滯后了。②差距拉大:目前國內各行業商務智能的開展水平仍是參差不齊,商務智能在行業內也存在差距,不同規模的企業應用商務智能的差距也在拉大。③普及有待時日:技術、觀念和管理水平的相對落后,商務智能的普及還需要較長時間④供給商有待成長五、商務智能動態商務智能開展的特點①實時;②標準化;③嵌入式商務智能;④移動商務智能;⑤群眾化趨勢;⑥供給商的動向;⑦易用性。第2章商務智能系統架構2.1商務智能系統組成1、體系結構(Architecture):體系結構是指一整套的規那么和結構,為一個系統或產品的整體設計提供主框架。2、商務智能的體系結構一個商務智能的體系結構是通過識別和理解數據在系統中的流動過程和數據在企業中的應用過程來提供商業智能系統應用的主框架。商務智能系統構架〔見書P27〕3、商務智能系統的組成①數據源與數據提取;②數據倉庫;③訪問工具;④決策支持工具;⑤商務智能應用;⑥系統管理;⑦元數據管理。2.2數據集成數據集成是在邏輯上或物理上把不相同來源、格式、特點的數據有機地整合,從而為企業提供全面的數據共享。目的:運用一定的技術手段把分布在異構系統中的數據按一定的規那么組織成一個整體,使用戶能有效地對其進行共享、分析,因此數據集成是構建數據倉庫的根底。1、數據集成的常用方法①數據聯邦;②基于中間件模型;③數據倉庫;④主數據管理2、主數據管理與數據倉庫的關系①聯系:二者相輔相成,都是減少數據冗余和不一致性的跨部門集中式系統,都依賴ETL、元數據管理等技術保證數據質量。數據倉庫系統的分析結果可以輸入到主數據管理系統中。②區別:主數據管理是為呼叫中心、電子商務和CRM等業務系統提供聯機效勞,數據倉庫面向分析型的應用;主數據管理涉及的數據量相對較小,在運行中對主數據的集成實時性要求比數據倉庫高。3、主數據管理與ODS的關系實時性要求具有共性,但主數據管理系統不儲存ODS系統的交易數據。第3章數據倉庫3.1從數據庫到數據倉庫1、企業數據處理分為:事務型處理和分析型處理2、事務型處理①即操作型處理,是指對數據庫的聯機操作處理OLTP。事務型處理是用來協助企業對響應事件或事務的日常商務活動進行處理。②它是事件驅動、面向應用的,通常是對一個或一組記錄的增、刪、改以及簡單查詢等〔大量、簡單、重復和例行性〕。③在事務型處理環境中,數據庫要求能支持日常事務中的大量事務,用戶對數據的存取操作頻率高而每次操作處理的時間短。3、分析型處理①分析型處理:用于管理人員的決策分析,例如DSS、EIS和多維分析等。它幫助決策者分析數據以觀察趨向、判斷問題。②分析型處理經常要訪問大量的歷史數據,支持復雜的查詢。③分析型處理過程中經常用到外部數據,這局部數據不是由事務型處理系統產生的,而是來自于其他外部數據源。4、事務型處理數據和分析型處理數據的區別〔見書P36〕5、數據庫系統的局限性①數據庫適于存儲高度結構化的日常事務細節數據。決策分析型數據是多維性,分析內容復雜。②在決策分析環境中,如果事務處理的細節數據量太大一方面會嚴重影響分析效率,另一方面這些細節數據會分散決策者的注意力。③當事務型處理環境和分析型處理環境在同一個數據庫系統中,事務型處理對數據的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續運行幾個小時,從而消耗大量的系統資源。④決策型分析數據的數據量大,這些數據有來自企業內部的,也有來自企業外部的。來自企業外部的數據又可能來自不同的數據庫系統,在分析時如果直接對這些數據操作會造成分析的混亂。對于外部數據中的一些非結構化數據,數據庫系統常常是無能為力。6、多庫系統的限制①可用性:源站點或通信網絡故障將導致系統癱瘓,源站點不能通過網絡在線聯入多庫系統。②響應速度:全局查詢多級轉換和通信傳輸,延遲和低層效率影響響應速度。③系統性能:總體性能取決于源站點中性能最低的系統,影響系統性能的發揮;④系統開銷:每次查詢要啟動多個局部系統,通信和運行開銷大。3.2數據倉庫1、數據倉庫的開展①1981年NCR公司為WalMart建立了第一個數據倉庫。②1988年IBM公司的研究員BarryDevlin和PaulMurphy創造性的提出了一個新術語?a?a數據倉庫③1991年BillInmon正式出版《BuildingtheData、Warehouse》,第一次給出了數據倉庫的清晰定義和操作性極強的指導意見④1993年拉爾夫.金博爾出版了《TheDataWarehouseToolkit》,在具體構建方法上提出不同意見⑤1996年加拿大的IDC公司調查了62家實現了數據倉庫的歐美企業,結果說明:數據倉庫為企業提供了巨大的收益。2、數據倉庫(DataWarehouse)①含義:數據倉庫用來保存從多個數據庫或其它信息源選取的數據,并為上層應用提供統一用戶接口,完成數據查詢和分析。支持整個企業范圍的主要業務來建立的,主要特點是,包含大量面向整個企業的綜合信息及導出信息。②BillInmon對數據倉庫所下的定義:數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的過程。3、數據倉庫的技術要求①復雜分析的高性能表達:涉及大量數據的聚集、綜合等,在進行復雜查詢時經常會使用多表的聯接、累計、分類、排序等操作。②對提取出來的數據進行集成:數據倉庫中的數據是從多個應用領域中提取出來的,在不同的應用領域和不同的數據庫系統中都有不同的結構和形式,所以如何對數據進行集成也是構建數據倉庫的一個重要方面。③對進行高層決策的最終用戶的界面支持:提供各種分析應用工具。4、數據倉庫結構3.7數據倉庫模型1、概念模型設計①概念模型用來表達信息世界中的信息結構,通常人們利用概念模型定義實際的數據需求。②概念模型最常用的表示方法是實體-關系法〔E-R法〕,E-R圖將現實世界表示成信息世界,便于向計算機的表示形式進行轉化。③目前的數據倉庫實際上是通過主題分析表示概念模型,每個主題用假設干維和度量表示。維度是人們觀察世界的特定角度,度量是確定與維度分析有關的數值信息。2、邏輯模型設計①主要工作:a分析主題域進行概念模型到邏輯模型的轉換;b確定粒度層次劃分;c確定數據分割策略;d關系模式定義;e定義記錄系統。3、數據倉庫常用的兩種根本邏輯模型:①星型模型:星型模型的核心是事實表,事實表把各種不同的維表連接起來。②雪花模型:雪花模型是星型模型的擴展,某些維表中的數據可以進一步分解到附加的表中。4、物理模型設計①物理模型設計因素:aI/O存取時間;b空間利用率;c維護的代價。②主要工作:a全面了解所選用的數據庫管理系統,確定一個最適合應用要求的物理結構,特別是存儲結構和存取方法。b了解數據環境、數據的使用頻率、使用方式、數據規模以及響應時間要求等。c了解外部存儲設備的特征。5、確定一個最適合應用要求的物理結構①估計存儲容量;②確定數據的存儲方案;③確定索引策略;④確定數據存放位置;⑤確定存儲分配。3.4元數據數據倉庫的所有數據都要通過元數據來管理和控制。1、元數據①元數據:是用來描述數據的數據。②元數據定義了數據倉庫有什么,指明了數據倉庫中數據的內容和位置,刻畫了數據的抽取和轉換規那么,存儲了與數據倉庫主題有關的各種商業信息,而且整個數據倉庫的運行都是基于元數據的。2、元數據的分類①技術元數據:與數據倉庫開發、管理和維護相關的數據。〔如數據源的元數據、數據模型的源數據、數據倉庫映射的源數據〕②業務元數據:從業務角度描述數據,為管理及業務分析人員效勞。〔如數據倉庫使用的元數據〕3、元數據的存儲方式元數據有兩種常見存儲方式:①以數據集為根底,每一個數據集有對應的元數據文件;②以數據庫為根底的,即元數據庫〔推薦〕。3.5數據抽取、轉換和加載ETL是構建數據倉庫的重要環節,也是企業數據管理的核心,對數據倉庫的后續環節影響較大。1、數據抽取〔Extraction〕①確認數據源;②數據抽取技術2、數據轉換〔Transform〕①數據轉換的的主要任務是對數據粒度以及不一致的數據進行轉換。②數據轉換的形式:格式修正;計算值和導出值;度量單位的轉化化;日期/時間轉化;特征集合轉;信息的合并;匯總等3、數據清洗〔Cleaning〕①數據清洗也稱數據凈化,主要指對數據字段的有效值檢驗。②有效值的檢驗通常包括:范圍檢驗;枚舉字段取值;相關檢驗要求。4、數據裝載〔Load〕①數據裝載方式:a根本裝載:按照裝載的目標表,將轉換過的數據輸入到目標表中去。b追加:如果目標表中已經存在數據,追加過程在保存已有數據的根底上增加輸入數據。c破壞性合并:用新輸入數據更新目標記錄數據。d建設性合并:保存已有的記錄,增加輸入的記錄,并標記為舊記錄的替代。②數據裝載類型:a初始裝載:這是第一次對整個數據倉庫進行裝載。b增量裝載:由于源系統的變化,數據倉庫需要裝載變化的數據。c完全刷新:這種類型的數據裝載用于周期性重寫數據倉庫。5、數據處理的有關討論①數據庫中的空缺值;②不一致的數據;③樣本空間的大小;④與分析無關的數據不要裝入數據倉庫;⑤數據離散化;⑥數據標準化3.6操作數據存儲①很多情況下,DB-DW的兩層體系結構并不能涵蓋企業所有的數據處理要求。②日常管理和控制決策的問題并不是聯機事務處理,又算不上高層決策分析,需要企業全局一致的、細節的、當前或接近當前的數據,又需要面向主題、集成的數據環境。因此需要DB-DW之間存在著一個中間層次,即操作型數據存儲ODS〔OperationalDataStore〕。1、ODS和DW的比擬〔見書P44〕3.7數據集市〔DataMart〕1、數據集市:數據倉庫是一種反映主題的全局性數據組織。但是,全局性數據倉庫往往太大,在實際應用中將它們按部門或個人分別建立反映各個子主題的局部性數據組織,它們即是數據集市。因此,有時我們也稱它為部門數據倉庫。2、數據集市類型:按照數據獲取來源:①獨立型:直接從操作型環境獲取數據;②附屬型:從企業級數據倉庫獲取數據。3、數據倉庫VS數據集市①數據倉庫與數據集市的關系類似于傳統關系數據庫系統中的基表與視圖的關系。②數據集市的數據來自數據倉庫,它是數據倉庫中數據的一個局部與局部,是一個數據的再抽取與組織的過程。注:數據集市不是數據倉庫數據集市并非小的數據倉庫多個數據集市集合并不構成數據倉庫第4章在線分析處理OLAP開展背景①60年代,關系數據庫之父提出了關系模型,促進了聯機事務處理(OLTP)的開展(數據以表格的形式而非文件方式存儲)。注:OLTP在線事務處理通常是一個或一組記錄的查詢和修改,用于處理短暫的交易事務。②1993年,提出了多維數據庫和多維分析的概念,即OLAP。〔認為OLTP已不能滿足終端用戶對數據庫查詢分析的需要,SQL對大型數據庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求〕4.1OLAP簡介聯機分析處理〔OnLineAnalysisProcessing,OLAP〕在數據倉庫系統中,聯機分析處理是重要的數據分析工具。OLAP的根本思想是從多方面和多角度以多維的形式來觀察企業的狀態和了解企業的變化。OLAP是獨立于數據倉庫的一種技術概念。當OLAP與數據倉庫結合時,OLAP的數據源為數據倉庫,數據倉庫的大量數據是根據多維方式組織的。1、OLAP的定義①OLAP委員會的定義:OLAP(聯機分析處理)是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。②OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是“維〞這個概念,因此OLAP也可以說是多維數據分析工具的集合。2、OLAP的根本概念①維:是人們觀察數據的特定角度,是考慮問題時的一類屬性。②維的層次:人們觀察數據的某個特定角度(即某個維)還可以存在細節程度不同的各個描述方面。③維的成員:維的一個取值。是數據項在某維中位置的描述。④多維數組:維和變量的組合表示。一個多維數組可以表示為:(維1,維2,?-,維n,變量)⑤數據單元(單元格):多維數組的取值3、超立方結構(Hypercube)多維數據集①立方體或超立方結構指用三維或更多的維數來描述一個對象,每個維彼此垂直。②數據的測量值發生在維的交叉點上,數據空間的各個局部都有相同的維屬性(收縮超立方結構,這種結構的數據密度更大,數據的維數更少,并可參加額外的分析維)。4、OLAP的特點①快速性Fast:用戶對OLAP的快速反響能力有很高的要求。②可分析性Analysis:OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。③多維性Multidimensional:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。④信息性Information:OLAP系統應能及時獲得信息,并且管理大容量信息。4.2OLTPVSOLAP〔見書P65〕4.3OLAP操作從可視化角度提出,主要基于統計的方法:①切片和切塊(SliceandDice):切片與切塊的作用是對分析的數據進行過濾,使用戶專注于局部數據。②鉆取(Drill):鉆取能夠幫助用戶獲得更多的細節性數據。③旋轉(Rotate):旋轉(Pivot)通過旋轉可以得到不同視角的數據。④輔之于各種圖形展示分析結果。1、切片、切塊(SliceandDice)①多維數據是由多個維度組成的,如果在某個維度上選定一個取值,那么多維數據從n維下降成n-1維。②切片與切塊在一局部維上選定值后,關心度量數據在剩余維上的分布。如果剩余的維只有兩個,那么是切片;如果有兩個以上,那么是切塊。③切塊可以看成是在切片的根底上,確定某一個維成員的區間得到的片段,也即由多個切片疊合起來。2、鉆取(Drill)①鉆取改變維的層次,變換分析的粒度。鉆取有向下鉆取〔drilldown〕和向上鉆取〔drillup〕操作。②向下鉆取是使用戶在多層數據中能通過導航信息而獲得更多的細節性數據,即從匯總數據深入到細節數據進行觀察或增加新維。③向上鉆取是在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數。3、旋轉(Rotate)①通過旋轉可以得到不同視角的數據。旋轉操作相當于平面數據將坐標軸旋轉。②例如,旋轉可能包含了交換行和列,或是把某一個行維移到列維中去。或是把頁面顯示中的一個維和頁面外的維進行交換〔令其成為新的行或列中的一個〕。4.4OLAP分類〔見書P69〕1、ROLAP①ROLAP是基于關系數據庫的OLAP。②它是一個平面結構,用關系數據庫表示多維數據時,采用星型模型、雪花模型。2、MOLAP①MOLAP是基于多維數據庫存儲方式建立的OLAP;表現為“超立方〞結構,采用類似于多維數組的結構。3、ROLAP與MOLAP的比擬〔見書P71〕數據存取速度MOLAP在數據存儲速度上性能好數據存儲的容量ROLAP在存儲容量上根本沒有限制多維計算的能力MOLAP能夠支持高性能的決策支持計算維度變化的適應性ROLAP對于維表的變更有很好的適應性數據變化的適應性ROLAP中靈活性較好,對于數據變化的適應性高軟硬件平臺的適應性ROLAP對軟硬件平臺的適應性很好元數據管理MOLAP和ROLAP都沒有成形的標準4、HOLAP①HOLAP〔HybridOLAP〕,即混和型OLAP,介于MOLAP和ROLAP之間。在HOLAP中,對最常用的維度和維層次,使用多維數據表來存儲,對于用戶不常用的維度和數據,采用ROLAP星型結構來存儲。②HOLAP得宜于ROLAP的可伸縮性,和MOLAP的快速計算。〔如MSSQLSERVER)③在HOLAP的多維數據表中的數據維度少于MOLAP中的維度表,數據存儲容量也少于MOLAP方式。④HOLAP在數據存取速度上又低于MOLAP。4.6OLAP工具目前許多公司已經推出了相應的OLAP支持工具:ORACLE;IBM;BusinessObject;SAS;NCR。第5章數據挖掘5.1數據挖掘概述1、數據挖掘的由來:①數據爆炸但知識貧乏;②網絡之后的下一個技術熱點;③支持數據挖掘技術的根底;④從商業數據到商業信息的進化。注:如何才能不被信息淹沒,而是從中及時發現有用的知識,提高信息利用效率:要學會拋棄信息!2、從商業數據到商業信息的進化〔見書P84〕3、數據挖掘軟件的開展①第一代數據挖掘軟件:獨立的,可以支持少數幾種數據挖掘算法。②第二代數據挖掘軟件:和數據庫系統進行了集成,能夠處理在規模的數據,但缺少對業務的預測能力。③第三代數據挖掘軟件:增加了預測功能,還可在分布式系統中運行,可挖掘網絡環境下的數據。④第四代數據挖掘軟件:支持移動計算和各種嵌入式系統,擴展了應用領域。4、數據挖掘的定義①定義:數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識并用于決策支持的過程。②目的:不再是單純為了研究,更主要的是為商業決策提供真正有價值的信息,進而獲得利潤。5、數據挖掘受多學科影響:數據挖掘是一個交叉科學領域,受多個學科影響,包括數據庫系統、統計、機器學習、可視化和信息科學。6、數據挖掘與傳統數據分析方法的區別①數據挖掘的數據源與以前相比有了顯著的改變:數據是海量的;數據有噪聲;數據可能是非結構化的;②傳統的數據分析方法基于假設驅動的:一般都是先給出一個假設然后通過數據驗證。③數據挖掘在一定意義上是基于發現驅動的:模式都是通過大量的搜索工作從數據中自動提取出來。7、數據挖掘與數據倉庫8、數據挖掘與OLAP①完全不同的工具,基于的技術也大相徑庭②OLAP基于用戶假設:awhathappened〔查詢和報表工具是告訴你數據庫中都有什么〕bwhatnext〔OLAP更進一步告訴你下一步會怎么樣〕cwhatif〔如果我采取這樣的措施又會怎么樣〕③數據挖掘本質上是一個歸納的過程,不是用于驗證某個假定的模式〔模型〕的正確性,而是在數據庫中自己尋找模型。④數據挖掘和OLAP有一定的互補性。9、數據挖掘模型及流程①數據挖掘模型:a為了使數據挖掘技術在產業界得到更好的應用,歐洲委員會聯合一些數據挖掘軟件廠商開發了CRISP-DM。bCRISP-DM〔CrossIndustryStandardProcessforDataMining〕模型,最先在1996年被提出,當前的白皮書版本是1.0。c目的是把數據挖掘的過程標準化,使數據挖掘工程的實施速度更快、本錢更低、更可靠并且更容易管理。10、為保證工程的可靠性和可管理性,CRISP-DM規定一個數據挖掘工程應該產生11個報告:①業務理解報告;②原始數據收集報告;③數據描述報告;④數據探索報告;⑤數據質量報告;⑥數據集描述報告;⑦模型訓練報告;⑧模型評估報告;⑨部署方案;⑩監控和維護方案;eq\o\ac(○,11)總結報告。通過這些報告,可以有效地控制數據挖掘工程進程,減少開發風險。11、數據挖掘的過程〔見書P85圖〕①數據挖掘過程的分步實現,不同的步驟需要不同的專業人員參與完成,大體分為三類:A業務分析人員:要求精通業務,能夠解釋業務對象,并根據各業務對象確定出用于數據定義和挖掘算法的業務需求。B數據分析人員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇適宜的技術。C數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據。②數據挖掘是一個多領域專家合作的過程,也是一個在資金上和技術上高投入的過程。注:數據挖掘過程要反復進行,在反復過程中,不斷地趨近事物的本質,不斷地優化問題的解決方案。5.2數據挖掘的應用及其開展1、數據挖掘的應用①數據挖掘技術的產生本身就有其強烈的應用需求背景,它從一開始就是面向應用的。②具體涉及數據挖掘的商業問題:數據庫營銷〔DatabaseMarketing〕;客戶群體劃分〔CustomerSegmentation&Classification〕;背景分析〔ProfileAnalysis〕;交叉銷售〔Cross-selling〕;客戶流失分析(ChurnAnalysis);客戶信用評分(CreditScoring);欺詐甄別(FraudDetection)2、數據挖掘的未來開展趨勢①未來的熱點應用領域:網站的數據挖掘〔Websitedatamining〕;生物信息或基因的數據挖掘;文本挖掘〔Textualmining〕;多媒體挖掘。5.3數據預處理1、數據清理①數據清理的內容:修補空缺值,識別出數據中的孤立點、去除噪聲,消除數據中的不一致。②常用的數據清理方法:聚類;空值處理;冗余和重復。2、空值處理①有些記錄的值可能空缺,或者某一個屬性可能會有大量的空缺值。a對第一種情況,可以不使用這些記錄;b對第二種情況,可以丟棄這個屬性。另一種處理空缺值的方法是歸咎〔imputation〕。可以使用一些相關技術〔復雜度逐漸增加〕:a從別的記錄中隨機抽取一個值添入。b取其他記錄中對應屬性的最頻值,中間數或平均數。c對其他記錄中這個屬性的值分布做一個統計模型,然后根據分布情況,隨機選一個值。d試圖用統計或挖掘技術從相似記錄的值中預估空缺值。3、數據挖掘算法①聚類分析;②分類分析;③關聯分析;④序列模式挖掘;⑤回歸分析;⑥時間序列分析。5.4聚類分析1、聚類分析的概念①類是指相似對象的集合。②聚類是把對象或樣本的集合分組成為多個簇〔類〕的過程,使同一個組中的對象具有較高的相似度,而不同類型的對象差異較大。③聚類是一種無監督分類法:沒有預先指定的類別;2、聚類問題的數學描述給定數據集合V,根據數據對象間的相似程度將數據集合分成組,并滿足:那么該過程稱為聚類。Ci稱為簇。3、聚類分析的統計量通過引進一些表示樣本間相似程度的度量標準把性質相似的對象歸為一類,這些度量標準稱為聚類統計量。距離和相似系數是經常采用的聚類統計量。①距離:a連續值數據常用的距離度量方法:歐幾里德距離;曼哈坦距離;明考斯基距離;切比雪夫距離。b其他數據類型的距離度量方法:可分類變量、二元變量、標稱變量、序數型變量和文本等。a連續值數據常用的距離度量方法:b其它類型變量常用距離度量方法:二元變量:變量的取值只有兩個狀態,如性別,表示是否吸煙,醫療檢查正常還是不正常等。i和j是兩個變量:q是兩個變量中都為1的個數t是兩個變量中都為0的個數s是i變量中為0,j中為1的個數r是i變量中為1,j中為0的個數〔1〕二元變量權重相同(對稱的,如性別〕即:分子為兩者相異的總數,分母為二元變量總數〔2〕二元變量權重不同(非對稱的〕例如,一個疾病化驗結果正常和不正常,對一個群體,正常者總是大多數,我們用1表現幾率小的情況,0表示另一種情況。評價系數,Jaccard系數即:兩個相異的數量作為分子,相異的數量加兩個為1的數量作為分母。〔同對稱二元變量相比,兩個同為0的數量不出現在分母中〕②相似系數:對于連續型數據,常用的相似系數Cij有夾角余弦和相關系數等。4、常用聚類算法①聚類目標:將一個包含n個數據對象的數據庫組織成k個劃分〔k<=n〕,其中每個劃分代表一個簇。②常用算法:a基于劃分的聚類分析算法:k-means;k-modes;k-prototypesb基于層次的聚類分析算法c其它聚類分析算法1〕基于劃分的聚類分析算法A、k-means算法:k-means算法是常見的基于劃分的聚類方法,其中相異度基于對象與類中心〔簇中心〕的距離計算,與簇中心距離最近的對象可以劃為一個簇。此算法目標是每個對象與簇中心距離的平方和最小。〔1〕把n個對象分為k個簇,是簇內具有較高的相似度,而簇間的相似度較底。相似度的計算根據一個簇中對象的平均值〔重心〕來進行。〔2〕流程:首先,隨機的抽取k個對象,每個對象初始地代表一個簇的平均值。對剩余的每個對象,根據與各個簇中心的距離,將它賦給最近的簇。然后重新計算各個簇的平均值。過程不斷反復,直到準那么函數收斂。一般采用平方誤差準那么:這里,p是空間的點,表示給定的對象,mi是簇Ci的平均值。B、k-modes算法:k-modes算法把k-means算法擴展到可分類數據,用一個簡單的相異度測量對數據進行聚類。假設X,Y是數據集中的兩個對象,它們用m維屬性描述,那么這兩個對象之間的相異度為:〔1〕k-modes算法根據可分類屬性值出現的頻率更新聚類中心,聚類中出現頻率最高的屬性值被選為聚類中心,即modes〔類模式〕。〔2〕k-modes算法不斷更新modes,使得所有對象與其最近modes的相異度總和最小:首先計算每一簇在某一屬性值的對象所占百分數。然后,取每個簇中頻率最大的一個屬性值作為類模式Q。分別對每個屬性進行上述計算,最后得到類模式Q,即初始聚類中心。k-modes算法與k-means的步驟類似:①預先定義好k類,確定各個類的初始類模式Q。②根據類模式Q把每個對象賦給最近鄰的類,然后更新類模式Q。③不斷重復②,直到不再發生變化為止。C、k-prototypes算法〔1〕在實際應用中,數據可能是數值型的,同時也有可分類型的。k-prototypes算法綜合了k-means和k-modes算法,采用新的距離度量方法,能夠快速處理混合類型數據集的聚類問題。〔2〕k-prototypes算法的聚類中心由數值型數據的聚類中心和可分類數據的聚類中心兩局部加權組成,其中數值型屬性的聚類中心和k-means算法類似,通過計算數值型屬性的平均值得到。而可分類型屬性的中心采用類似k-modes算法聚類中心的更新方式,通過計算可分類屬性值出現的頻率確定。2〕基于層次的聚類分析算法〔1〕凝聚的層次聚集:自底向上的策略首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在某個簇中,或者終結條件滿足。〔2〕分裂的層次聚類:自頂向下,首先將所有對象置于一個簇中,然后逐漸細分為越來越小的簇,直到每個對象自成一個簇或者到達了某個終結條件。〔到達希望的簇數或兩個簇之間的距離超過了某個閥值〕3〕其它聚類分析算法:基于密度的方法;基于網格的方法;基于模型的聚類。注:每種方法都有各自的優缺點,適用范圍也有限。選擇哪種聚類方法,需要考慮實際的應用需求、簇的類型與特征、數據的特性、數據質量、數據集的規模〔樣本個數、樣本屬性個數〕等因素。聚類分析的典型應用①作為一個獨立的分析工具,用于了解數據的分布;②偏離〔異常〕檢測;③作為其它算法的一個數據預處理步驟。5.5分類分析與回歸分析①分類和回歸都屬于預測建模,是兩種數據分析形式,可以用于提取描述重要數據類的模型或預測未來的數據趨勢。②一般認為:a預測數值數據歸屬于哪個類稱為分類;b預測連續屬性取值為回歸。1、分類分析①分類要解決的問題是為一個事件或對象歸類,即確定一個特定的對象屬于哪一類。②分類就是通過分析訓練集〔決策表〕中的數據,為每個類別做出準確的描述或建立分析模型或挖掘出分類規那么,然后用這個分類規那么對其它數據對象進行分類。注:訓練集:用于建立模型的數據稱為訓練集,通常是已經掌握的歷史數據。2、數據分類的步驟①數據準備:數據清理;相關性分析;數據變換。②建立模型:建立模型,描述預定的數據類,通過分析由屬性描述的數據庫元組來構造模型。③模型評估:評估模型的預測正確率。④使用模型分類。3、數據分類的方法①貝葉斯分類器;②決策樹;③支持向量機;④BP神經網絡;⑤其它分類方法4、決策樹①決策樹是一個樹形的結構,由決策結點、分枝和葉子結點組成。a內部結點表示一個屬性上的測試b每個分枝都表示一個測試輸出c葉子節點表示一個類②一個電器銷售商根據數據庫的數據分析概念“買計算機〞,構造的決策樹。③使用決策樹進行分類的過程④決策樹算法:A、常用算法:aID3、C4.5;bSLIQ、SPRINT等B、根本算法〔貪心算法〕:a自上而下分而治之的方法;b開始時所有的實例都在根節點;c屬性都是分類型(如果是連續的,將其離散化);d所有記錄用所選屬性遞歸的進行分割。e屬性的選擇是基于一個啟發式規那么或者一個統計的度量(如信息增益)決策樹的屬性選擇f屬性選取是決策樹算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產生樣本數量太少的分枝。⑤決策樹的屬性選擇a屬性選取是決策樹算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產生樣本數量太少的分枝。b常見屬性選擇標準:信息增益;基尼指數;其它A、信息增益〔informationgain〕〔1〕計算給定的樣本分類的期望信息設S是有s個數據樣本的集合。假定類標號屬性具有m個不同的值,定義m個不同類Ci(i=1,…,m)。設si是類Ci中的樣本數。對一個給定的樣本分類所需要的期望信息由下式給出:注:其中pi是任意樣本屬于Ci的概率,一般用si/s估計代替pi〔2〕計算由A劃分為子集的熵設屬性A有v個不同值{a1,a2,…,av}。可以根據屬性值將S劃分為v個子集{S1,S2,…,Sv};sij是子集Sj中類Ci的樣本數。由A劃分成子集的熵〔期望信息〕為:〔3〕計算A作為分枝屬性的信息增益注:決策樹如何分枝?計算屬性的信息增益,取最大的信息增益分枝。B、基尼指數〔GiniIndex〕〔1〕集合T包含n個類別的記錄,那么其Gini指數是pj類別j出現的頻率〔2〕如果集合T分成兩局部N1andN2。那么這個分割的Gini就是〔3〕提供最小Ginisplit就被選擇作為分割的標準。⑥決策樹的過擬合問題注:防止過擬合;決策樹泛化。⑦決策樹的剪枝目的:消除決策樹的過擬合問題。實質:消除訓練集中的異常和噪聲。兩種剪枝方法:先剪枝法;后剪枝法。5、貝葉斯分類器統計學的方法,可以預測類成員關系的可能性,即給定樣本屬于一個特定類的概率。①貝葉斯定理假設X和Y在分類中可以分別表示樣本的屬性集和類別。X和Y的聯合概率和條件概率滿足以下關系:注:P(X,Y)表示X,Y的聯合概率p(X|Y)和p(Y|X)表示條件概率p(Y|X)是Y后驗概率,表示條件X下Y的概率p(Y)稱為Y的先驗概率變換后得到6、樸素貝葉斯分類器每個數據樣本用一個n維特征向量X={x1,x2,…,xn}表示,分別描述對n個屬性A1,A2,..,An樣本的n個度量。假定有m個類C1,…,Cm,對于數據樣本X,分類法將預測X屬于類Ci,當且僅當:P(Ci|X)>P(Cj|X),1<=j<=m,j不等于i根據貝葉斯定理:P(Ci|X)=P(X|Ci)P(Ci)/P(X)由于P(X)對于所有類都是常數,只需最大化P(X|Ci)P(Ci)計算P(X|Ci),樸素貝葉斯分類假設類條件獨立。即給定樣本屬性值相互條件獨立。〔在一般情況下此假定都能成立〕在使用中,p常用頻度代替。7、其它分類方法:①支持向量機;②神經網絡方法;③以及在商品化的數據挖掘中用的較少的:k_最鄰近分類;遺傳算法;粗糙集合方法;模糊集方法。8、回歸分析①回歸分析〔regressionanalysis〕是一種根本的統計分析方法,它已被廣泛地應用于數據挖掘領域。②分析一個變量與其他一個〔或幾個〕變量之間的相關關系的統計方法就稱為回歸分析。回歸分析主要內容包括確定連續值變量之間的相關關系,建立回歸模型,檢驗變量之間的相關程度,應用回歸模型對變量進行預測等。③回歸分析的分類:a按涉及的自變量個數:一元回歸分析;多元回歸分析。b按自變量和因變量間的關系:線性回歸分析;非線性回歸。④回歸分析的步驟:a確定因變量和影響因素〔自變量〕。b繪制散點圖,觀察變量的大致關系。c求回歸系數,并建立回歸模型。d檢驗回歸模型。e進行預測。9、回歸預測預測是回歸模型最重要的應用,回歸預測包括點預測和區間預測。回歸點預測是指對于給定的變量值x0,用回歸值作為變量y的預測值y0。然而現實中實際值與預測值總會產生偏移,因此還需要得到可能偏離的范圍以提高預測的可靠程度,這稱為區間預測,即以一定的概率預測y0附近的變動范圍。5.6關聯分析1、關聯規那么①相關術語:a項:集合I={i1,i2,…,im}為標識符的集合,其中m為正整數,ik〔k=1,2,…,m)稱為工程。b項集:在數據庫中出現的屬性值的集合。K_項集:包含K個項的項集。c頻繁項集:滿足最小支持度要求的項集。d關聯規那么:關聯規那么是形如X->Y的規那么,其中X,Y為工程集且XY=。例:(超級市場)在購置商品A的客戶中有局部人會同時購置商品B,那么可用關聯規那么表示為:A=>B(support,confidence)②關聯規那么度量標準:a支持度(Support):同時購置A和B的客戶人數占總客戶數的百分比稱為規那么的支持度。b置信度(Confidence):同時購置A和B的客戶人數占購置A的客戶人數的百分比稱為規那么的置信度。注:在實際應用中,概率P一般無法事先給出,所以常以頻度代替③有意義的關聯規那么:a為了發現出有意義的關聯規那么,需要給定兩個閾值:最小支持度和最小置信度。b關聯規那么挖掘的實質是在數據集合中尋找滿足用戶給定的最小支持度和最小置信度的規那么。④關聯規那么挖掘問題的分解給定數據庫D,關聯規那么的挖掘就是找出所有存在于數據庫D中的強關聯規那么。因此整個關聯規那么挖掘過程可以分解為以下兩個子問題:a找出所有的頻繁工程集;b根據找到的頻繁工程集導出所有的強關聯規那么。⑤關聯規那么分類:a根據規那么中所處理的值類型:布爾關聯規那么;量化關聯規那么。b根據規那么中所涉及的數據維:單維關聯規那么;多維關聯規那么。⑥根據規那么中所涉及的抽象層A一般采用自頂向下策略,由概念的頂層開始向下,到較低的更特定的概念層,對每個概念層的頻繁集累加計數,直到不能再找到頻繁項集。B對于所有層使用一致的最小支持度注:因為較低層次抽象的項不大可能像較高層次抽象的項出現得那么頻繁。如果最小支持度閥值設置的太高,可能丟掉出現在較低抽象層次中有意義的關聯規那么。如果閥值設置太低,可能會出現在較高抽象層的無興趣的關聯規那么。注:在較低層使用遞減的最小支持度2、Apriori算法〔見書P139〕①Lk:k項頻繁集的集合;Ck:k項集的候補集合步驟1.連接:用Lk-1自連接得到Ck,〔k>2)設L1,L2是兩個有k-1個有序項的項集,Lj[i]代表k-1個項的第i項(j=1,2;i=1,2,k-1)。L1和L2是可連接的L1XL2,需滿足:L1[1]=L2[1],L1[2]=L2[2],….,L1[k-2]=L2[k-2],L1[k-1]≠L2[k-1],產生的項是:L1[1]L1[2]….L1[k-2]L1[k-1]L2[k-1](Lj[i]是有序的〕例:L1={A,B,C},L2={A,B,D},L3={A,C,F}那么:L1XL2={A,B,C,D}L1XL3,L2XL3均為空2.修剪:一個k-項集,如果它的一個k-1項子集不是頻繁的,那它本身也不可能是頻繁的。②Apriori的性能瓶頸A、Apriori算法的核心:a用頻繁的(k-1)_項集生成候選的頻繁k_項集b用數據庫掃描和模式匹配計算候選集的支持度B、Apriori的瓶頸:候選集生成a巨大的候選集:①104個頻繁1_項集要生成107個候選2_項集②要找尺寸為100的頻繁模式,如{a1,a2,?-,a100},你必須先產生21001030個候選集〔1_項集〕b屢次掃描數據庫:如最長的模式是n的話,那么需要n次數據庫掃描注:為提高Apriori算法的性能,有許多改良的算法。3、其他關聯規那么算法①FP樹;②約束性關聯規那么挖掘算法;③增量式關聯規那么挖掘算法;④多層關聯規那么挖掘。5.6序列模式分析①序列模式的發現是由R.Agrawal于1995年首先提出的。序列模式尋找的是事件之間在順序上的相關性。②例如,“但凡買了噴墨打印機的顧客中,80%的人在三個月之后又買了墨盒〞,就是一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教部編版九年級上冊16 孤獨之旅教學設計
- 時間演講稿(15篇)
- 亭子(教學設計)-2024-2025學年浙美版(2012)美術四年級下冊
- 開展植樹節活動總結(20篇)
- 小學數學北師大版(2024)四年級上冊4 商不變的規律教案
- 《全球市場營銷策略》課件
- 培訓項目管理工作總結新(6篇)
- 新聞發布會發言稿范文(18篇)
- 做文明糾察志愿者-綜合實踐活動教學設計
- 小學美術人美版一年級上學期21.花餑餑表格教案及反思
- 學生創新思維綜合評價表
- 新生兒足底采血檢查
- 采購職員離職工作交接詳單
- 青島市特殊建設工程消防驗收辦事指南
- 醫院培訓課件:《體外循環及ECMO》
- 少數民族哈薩克族民俗文化科普介紹圖文課件
- CNAS-CL02-A001:2023 醫學實驗室質量和能力認可準則的應用要求
- 華為經營管理-華為供應鏈管理(6版)
- 建筑智能化工程監理實施細則
- 14S501-2 雙層井蓋圖集
- JGT491-2016 建筑用網格式金屬電纜橋架
評論
0/150
提交評論