Clementine數據挖掘快速上手_第1頁
Clementine數據挖掘快速上手_第2頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘快速上手Version1.0 Preparedby 高處不勝寒QQ 群: 140944152009-10-15、Clementine 數據挖掘的基本思想數據挖掘( Data Mining )是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,它是一種深層次的數據分析方法。 隨著科技的發展,數據挖掘不再只依賴在線分析等傳統的分析方法。它結合了人工智能(AI )和統計分析的長處,利用人工智能技術和統計的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解

2、決 的問題。Clementine 為我們提供了大量的人工智能、統計分析的模型(神經網絡,關聯分析,聚類分析、因子分析等),并用基于圖形化的界面為我們認識、了解、熟悉這個軟件提供了方便。除了這些 Clementine 還擁有優良的數據挖掘設計思想, 正是因為有了這個工作思想, 我們每一步的工 作也變得很清晰。 (如圖一所示 )CRISSP-DMpr ocess mod el如圖可知, CRISP-DMModel 包含了六個步驟, 并用箭頭指示了步驟間的執行順序。這些順序并不嚴格,用戶可以根據實際的需要反向執行某個步驟,也可以跳過某些步驟不予執行。通過對這些步驟的執行,我們也涵蓋了數據挖掘的關鍵部

3、分。商業理解 (B u si ness unddeerrsst andiin g) :商業理解階段應算是數據挖掘中最重要的一個部分,在這個階段里我們需要明確商業目標、評估商業環境、確定挖掘目標以及產生一個項目計劃。數據理解 (D ataundeerrssttaannddiinngg):數據是我們挖掘過程的“原材料 ”,在數據理解過程中我們要知道都有些什么數據,這些數據的特征是什么,可以通過對數據的描述性分析得到數據的特點。數據準備 (Date prepar atiion) :在數據準備階段我們需要對數據作出選擇、清洗、重建、合并等工作。 選出要進行分析的數據,并對不符合模型輸入要求的數據進行規

4、范化操作。建模 (Modd elliingg):建模過程也是數據挖掘中一個比較重要的過程。我們需要根據分析目的選出適合的模型工具,通過樣本建立模型并對模型進行評估。模型評估 ( Ev aluatii on):并不是每一次建模都能與我們的目的吻合,評價階段旨在對建模結果進行評估,對效果較差的結果我們需要分析原因,有時還需要返回前面的步驟對挖掘過程重新定義。結果部署 (Deployment) ):這個階段是用建立的模型去解決實際中遇到的問題,它還包括了監督、 維持、產生最終報表、重新評估模型等過程。、Clementine 的基本操作方法1. 操作界面的介紹Cleemmeen tine 操作界面.1

5、數據流程區Clementine 在進行數據挖掘時是基于數據流程形式,從讀入數據到最后的結果顯示都是由流程圖的形式顯示在數據流程區內。數據的流向通過箭頭表示,每一個結點都定義了對數據的不同操作,將各種操作組合在一起便形成了一條通向目標的路徑。數據流程區是整個操作界面中最大的部分,整個建模過程以及對模型的操作都將在這個區域內執行。我們可以通過" 文件"(File ) " 新建流"(new stream)新建一個空白的數據流,也可以打開已有的數據流。所有在一個運行期內打開的數據流都將保存在管理器的 Stream欄下。1.2 選項面板選項面板橫跨于 Clemen

6、tine 操作界面的下部, 它被分為收藏夾(Favorites )、數據源( Sources)、記錄選項(Record Ops)、字段選項( Fields Ops )、圖形(Graphs)、建模(Modeling )、輸出( Output )、導出八個欄,其中每個欄目包含了具有相關功能的結點。結點是數據流的基本組成部分,每一個結點擁有不同的數據處理功能。設置不同的欄是為了將不同功能的結點分組,下面我們介紹各個欄的作用。數據源 (Sources):該欄包含了能讀入數據到Clementine 的結點。例如 Var. File 結點讀取自由格式的文本文件到 Clementine, SPSS File

7、 讀取 spss文件到 Clementine 。記錄選項 (RecordOps) :該欄包含的結點能對數據記錄進行操作。例如篩選出滿足條件的記錄( select)、將來自不同數據源的數據合并在一起(merge)、向數據文件中添加記錄(append)等。字段選項 (FieldOps):該欄包含了能對字段進行操作的結點。例如過濾字段(filter )能讓被過濾的字 段不作為模型的輸入、導出(derive )結點能根據用戶定義生成新的字段,同時我們還可以定義字段的數據格式。圖形 (Graphh s):該欄包含了眾多的圖形結點,這些結點用于在建模前或建模后將數據由圖形形式輸出。建模 (Modeling

8、) ):該欄包含了各種已封裝好的模型,例如神經網絡(Neural Net)、決策樹( C5.0)等。這些模型能完成預測(NeuralNet ,Regression,Logistic)、分類(C5.0,C&RTree,Kohonen , K-means, Twostep )、關聯分析 (Apriori , GRI , Sequece)等功能。輸出 (O utpuutt) :該欄提供了許多能輸出數據、模型結果的結點,用戶不僅可以直接在Clementine中查看輸出結果,也可以輸出到其他應用程序中查看,例如SPSS和Excel 。收藏夾 ( Fav oriittess) :該欄放置了用戶經常

9、使用的結點,方便用戶操作。用戶可以自定義其Favorites 欄,操作方法為:選中菜單欄的工具(Tools) ,在下拉菜單中選擇收藏夾(Favorites) ,在彈出的 Palette Manager 中選中要放入 Favorites 欄中的結點。1.3 管理器理器中共包含了流( Streams)、輸出(Outputs) 、模型(Models) 三個欄。其中流(Streams)中放置了運行期內打開的所有數據流,可以通過右鍵單擊數據流名對數據流進行保存、設置屬性等操作。輸出( Outputs) 中包含了運行數據流時所有的輸出結果,可以通過雙擊結果名查看輸出的結果。模型( Models) 中包含了

10、模型的運行結果,我們可以右鍵單擊該模型從彈出的瀏覽(Browse) 中查看模型結果,也可以將模型結果加入數據流中。1.4 4項目窗口的介紹項目窗口含有兩個選項欄,一個是CRISP-DM ,一個是類( Classes)。CRISP-DM 的設置是基于 CRISP-DMModel 的思想, 它方便用戶存放在挖掘各個階段形成的文件。由右鍵單擊階段名,可以選擇生成該階段要擁有的文件,也可以打開已存在的文件將其放入該階段。這樣做的好處是使用戶對數據挖掘過程一目了然,也有利于對它進行修改。類 (Classes)窗口具有同 CRISP-DM 窗口相似的作用,它的分類不是基于挖掘的各個過程,而是基于存儲的文件

11、類型。例如數據流文件、結點文件、圖表文件等。2、數據流基本操作的介紹2.1 生成數據流的基本過程數據流是由一系列的結點組成,當數據通過每個結點時,結點對它進行定義好的操作。我們在建立數據流是通常遵循以下四步:、向數據流程區增添新的結點;、將這些結點連接到數據流中;、設定數據結點或數據流的功能;、運行數據流。2.2 向數據流程區添 /刪結點 當向數據流程區添加新的結點時,我們有下面三種方法遵循:、雙擊結點面板中待添加的結點;、左鍵按住待添加結點,將其拖到數據流程區內;、選中結點面板中待添加的結點,將鼠標放入數據流程區,在鼠標變為十字形時單擊數據流程區。通過上面三種方法我們都將發現選中的結點出現在

12、了數據流程區內。當我們不再需要數據流程區內的某個結點時,可以通過以下兩種方法來刪除:左鍵單擊待刪除的結點,用刪除(delete);右鍵單擊待刪除的結點,在出現的菜單中選擇刪除(delete)。2.3 將結點連接到數據流中上面我們介紹了將結點添加到數據流程區的方法,然而要使結點真正發揮作用,我們需要連接到數據流中。以下有三種可將結點連接到數據流中的方法:、雙擊結點左鍵選中數據流中要連接新結點的結點(起始結點),雙擊結點面板中要連接入數據流的結點(目標結點),這樣便將數據流中的結點與新結點相連接了;圖六雙擊目標結點以加入數據流、通過鼠標滑輪連接在工作區內選擇兩個待連接的結點,用左鍵選中連接的起始結

13、點,按住鼠標滑輪將其拖曳到目標結點放開,連接便自動生成。 (如果鼠標沒有滑輪也選用alt鍵代替) 由滑輪連接兩結點、手動連接右鍵單擊待連接的起始結點,從彈出的菜單欄中選擇連接(Connect) 。選中連接( Connect) 后鼠標和起始結點都出現了連接的標記,用鼠標單擊數據流程區內要連接的目標結點,連接便生成。圖八 選擇菜單欄中的 連接 coonnnectt圖九點擊要連入的結點注意:、第一種連接方法是將選項面板中的結點與數據流相連接,后兩種方法是將已在數據流程區中的結點加入到數據流中、數據讀取結點(如 SPSS File )不能有前向結點,即在連接時它只能作為起始結點而不能作為目標結點。2.

14、4 繞過數據流中的結點當我們暫時不需要數據流中的某個結點時我們可以繞過該結點。在繞過它時,如果該結點既有輸入結點又有輸出結點那么它的輸入節點和輸出結點便直接相連;如果該結點沒有輸出結點, 那么繞過該結點時與這個結點相連的所有連接便被取消。:用鼠標滑輪雙擊需要繞過的結點或者選擇按住alt鍵,通過用鼠標左鍵雙擊該結點來完成。2.5 將結點加入已存在的連中當我們需要在兩個已連接的結點中再加入一個結點時,我們可以采用這種方法將原來的連接變成兩個新的連接。方法:用鼠標滑輪單擊欲插入新結點的兩結點間的連線,按住它并把他拖到新結點時放手,新的連接便生成。 (在鼠標沒有滑輪時亦可用alt鍵代替)2.6 刪除連

15、接當某個連接不再需要時,我們可以通過以下三種方法將它刪除:、選擇待刪除的連接,單擊右鍵,從彈出菜單中選擇Delete Connection ;、選擇待刪除連接的結點,按F3 鍵,刪除了所有連接到該結點上的連接;、 選 擇 待 刪 除 連 接 的 結 點 , 從 主 菜 單 中 選 擇 斷 開 連 接 ( Edit Node Disconnect) 。2.7 數據流的執行數據流結構構建好后要通過執行數據流數據才能從讀入開始流向各個數據結點。執行數據流的方法有以下三種:、選擇菜單欄中的按鈕,數據流區域內的所有數據流將被執行;、先選擇要輸出的數據流,再選擇菜單欄中的按鈕,被選的數據流將被執行;、選擇

16、要執行的數據流中的輸出結點,單擊鼠標右鍵,在彈出的菜單欄中選擇Execute選項,執行被選中的數據流。在這部分我們將介紹五種分析方法的建立過程,它們分別是因子分析、 關聯分析、 聚類分析、決策樹分析和神經網絡。為了方便大家練習,我們將采用Clementine 自帶的示例,這些示例在demos文件夾中均可找到,它們的數據文件也在demos文件夾中。在模型建立過程中我們將介紹各個結點的作用。1、因子分析 (f acttor. st r)研究從變量群中提取共性因子的統計技術。最早由英國心理學家 C.E. 斯皮爾曼提出。他發現學生的各科成績之間存在著一定的相關性,一科成績好的學生,往往其他各科成績也比

17、較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質的變量歸入一個因子,可減少變量的數目,還可檢驗變量間關系的假設。因子分析的主要目的是用來描述隱藏在一組測量到的變量中的一些更基本的,但又無法直接測量到的隱性變量(latentvariable,latentfactor)。比如,如果要測量學生的學習積極性(motivation),課堂中的積極參與,作業完成情況,以及課外閱讀時間可以用來反應積極性。而學習成績可以用期中,期末成績來反應。在這里,學習積極性與學習成績是無法直接用一個測度( 比如一個問題 ) 測

18、準,它們必須用一組測度方法來測量,然后把測量結果結合起來,才能更準確地來把握。換句話說,這些變量無法直接測量。可以直接測量的可能只是它所反映的一個表征(manifest), 或者是它的一部分。在這里,表征與部分是兩個不同的概念。表征是由這個隱性變量直接決定的。隱性變量是因,而表征是果,比如學習積極性是課堂參與程度( 表征測度 ) 的一個主要決定因素。那么如何從顯性的變量中得到因子呢?因子分析的方法有兩類。一類是探索性因子分析,另一類是驗證性因子分析。探索性因子分析不事先假定因子與測度項之間的關系,而讓數據“自己說話”。主成分分析是其中的典型方法。驗證性因子分析假定因子與測度項的關系是部分知道的

19、,即哪個測度項對應于哪個因子,雖然我們尚且不知道具體的系數。示例 factor.str是對孩童的玩具使用情況的描述,它一共有 76個字段。 過多的字段不僅增添了分析的復雜性,而且字段之間還可能存在一定的相關性,于是我們無需使用全部字段來描述樣本信息。下面我們將介紹用 Clementine 進行因子分析的步驟:St ep 一:讀入數據數據源 (Source) 欄中的結點提供了讀入數據的功能,由于玩具的信息存儲為toy_train.sav ,所以我們用SPSS文件( SPSS File) 結點來讀入數據。雙擊 SPSS文件( SPSS File) 結點使之添加到數據流程區內,雙擊添加到 數據流程區

20、里的 SPSS文件(SPSS File) 結點,由此來設置該結點的屬性。在屬性設置時,單擊導入文件(Import file) 欄右側的按鈕,選擇要加載到數據流中進行分析的文件,這里選擇toy_train.sav 。單擊注解( Annotations) 頁,在名稱( name) 欄中選擇定制( custom) 選項并在其右側的文本框中輸入自定義的結點名稱。這里我們按照原示例輸入toy_train 。Step二:設置字段屬性進行因子分析時我們需要了解字段間的相關性,但并不是所有字段都需要進行相關性分析,比如“序號 ”字段,所以需要我們將要進行因子分析的字段挑選出來。字段選項(Field Ops)

21、欄中的類型( Type) 結點具有設置各字段數據類型、選擇字段在機器學習中的的輸入/輸出屬性等功能,我們利 用該結點選擇要進行因子分析的字段。首先,將類型(Type)結點加入到數據流中,雙擊該結點對其進行屬性設置:由上圖可看出數據文件中所有的字段名顯示在了字段(Field) 欄中,類型( Type) 表示了每個字段的數據類型。 我們不需要為每個字段設定數據類型,只需從 Values欄中的下拉菜單中選擇<Read> 項,然后選擇讀取值( Read Value) 鍵,軟件將自動讀入數據和數據類型;缺失(Missing) 欄是在數據有缺失時選擇是否用空( Blank) 填充該字段;檢查(

22、Check) 欄選擇是否判斷該字段數據的合理性;而方向( Direction)欄在機器學習模型的建立中具有相當重要的作用,通過對它的設置我們可 將字段設為輸入 / 輸出 /輸入且輸出 /非輸入亦非輸出四種類型。在這里我們將前19個字段的方向 ( Direction)設置為無( none) ,這表明在因子分析我們不將這前19個字段列入考慮,從第20個字段起我們將以后字段的方向(direction) 設置為輸入( In) ,對這些字段進行因子分析。Step 三: 對數 據行 因 子 分析 因子 分 析 模型 在 建模 ( Modeling) 欄中 用 主 成 分 / 因 子 分 析( PCA/Fa

23、ctor) 表示。在分析過程中模型需要有大于或等 于兩個的字段輸入,上一步的 Type 結點中我們已經設置好了將作為模型輸入的字段,這里我們將 主成分/ 因子分析( PCA/Factor) 結點連接在類型(Type) 結點之后不修改它的屬性,默認采用主成分分析方法。后我們便可以將它執行。右鍵單擊主成分 / 因子分析( PCA/Factor) 結點,在彈出的菜 單欄中選擇執行( Execute) 命令。執行結束后,模型結果放在管理器的模型( Models) 欄中,其標記為名稱為主成分 / 因子分析( PCA/Factor) 的黃色結點。右鍵單擊該結果結點,從彈出的菜單中選擇瀏覽(Browse)

24、選項查看輸出結果。由結果可知參與因子分析的字段被歸結為了五個因子變量,其各個樣本在這五個因子變量里的得分也在結果中顯示。Step四:顯示經過因子分析后的數據表模型的結果結點也可以加入到數據流中對數據進行操作。我們在數據流程區內選中類型( Type) 結點,然后雙擊管理器模型( Models) 欄中的 PCA/Factor 結點,該結點便加入到數據流中。為了顯示經過因子分析后的數據我們可以采用表格( Table) 結點,該結點將數據由數據表的形式輸出。4.1為因子變量命名在將PCA/Factor (結果)結點連接到表格( Table)結點之前,用戶可以設置不需要顯示的字段,也可以更改因子變量名,

25、為了達到這個目的我們可以添加字段選項(FieldOps) 欄中的字段( filter) 結點。在對過濾( filter) 結點進行屬性設置時,過濾(filter) 項顯示了字段的過濾與否,如果需要將某個字段過濾,只需用鼠標單擊Filter 欄中的箭頭,當箭頭出現紅“× ”時該字段便被過濾。第一個字段( Field) 欄結點表明數據在讀入過濾( filter) 結點時的字段名,第二個字段(Field) 欄表示數據經過過濾(filter) 結點后的字段名。由于因子分析生成的因子變量都由系統自動命名,用戶可以通過修改這些因子變量的第二個字段(Field) 的值來重新設定其字段名。2數據輸出

26、顯示, 在對 數 據進 行輸 出 時 我們 選 擇 了 輸出 ( Output) 欄 中 的 表格 ( Table) 結 點和 圖形( Graph) 欄中的柱狀圖( Histogram )結 點。這兩個結點一個通過數據表的形式輸出,一個通過柱裝圖的形式輸出。對柱裝圖我們設置其顯示storeplay 字段的數據( store_play 為第五個因子變量的新名)。通過“執行 ”按鈕分別執行兩條數據流,將經過因子分析后的數據顯示。P.S. :在這個因子分析的案例中我們用到了SPSS文件(SPSS Fillele)、類型(Ty pe)、過濾( Fill ter ) 、表格 ( Tab lle)、柱狀圖

27、 ( Histogrram) )、PC A/ Factor 結點。2. 關聯分析、決策樹分析( baskr ul e.str )關聯分析是指如果兩個或多個事物之間存在一定的聯系 , 那么其中一個事物就能通過其他事物進行預測 . 它的目的是為了挖掘隱藏在數據間的相互關系在數據挖掘的基本任務中關聯 (ass()ciation) 和順序序貫模型 (seqtlencing) 關聯分析是指搜索事務數據庫 (trarisactionaldatabases) 中的所有細節或事務 , 從中尋找重復出現概率很高的模式或規則。示例 baskrule.str 是針對某商場的購物資料對數據進行分析。為了找出商品在出售

28、時是否存在某種聯系, 我們將使用關聯分析方法;為了得到購買某種商品的顧客特征,我們將采用決策樹方法對顧客分類。St ep一: 讀入數據該模型的數據文件存儲為BASKETS1n ,我們選擇 Source欄的 Var. File(自由格式文本文件)結點作為數據讀入結點,雙擊該結點進行屬性設置。tep二:關聯分析從數據源讀入數據后我們需要根據要進行的分析對字段進行設置。關聯分析是分析多個量之間的關系,所以需要將進行分析的字段既設置為模型的輸入又設置為模型的輸出,對字段的設置可以通過 Type結點進行。22.1 為數據設置字段格式在數據流程區內選中已存在的Var. File結點,雙擊文件選擇( Fil

29、e OPs)欄中的類型( Type)結點,將類型(Type)結點加入到數據流中。由于我們的分析是對商品進行,與顧客的個人信息無關,所以在類型( Type) 中將顧客個人信息字段的方向(Direction) 設為空( none),其他商品字段的方向( Direction) 設為雙向(Both) 。同時我們也將讀入字段類型和字段取值。22.2 生成關聯分析數據流Clementine 提供了三個可以進行關聯分析的模型,他們分別是 Apriori 、GRI 、 Sequence,在這里我們選擇 GRI 結點加入到數據流中。執行該數據流,它的結果將在在管理器的 Models 欄中 以與模型同名的結點顯示

30、,右鍵選擇瀏覽該結點,結果如下圖:結果數據表顯示了各種商品間的關系,該表的每一行表明了當某種商品被購買時還有哪些產品可能被同時購買,它是居于關聯分析中的支持度和可信度來分析的。Step三:圖形化顯示各商品之間的關系對數據進行關聯分析除了利用模型外,我們還可以利用Graphs欄中的 Web結點將它們之間的關系通過網狀圖顯示。Web結點的屬性設置如下圖所示:選中 Web結點將它連接到Type結點上,對選擇 Fields欄右邊的打開對話框按鈕,彈出如上圖所示的選擇字段(Select Fields) 對話框。 選出將要作關聯分析的項,確定后返回Web屬性菜單。在 plot面板中選中 “僅顯示真值標志(

31、showtrue tag only) ”欄可幫我們簡化輸出網絡。在Web結點的屬性設置好后我們可以運行這條數據流,運行結果如下左圖所示。* 各色的結點代表了各種不同的商品,任兩點的連線越粗表明這兩點間的關系越強烈。我們還可以通過改變浮標值設置不同的顯示,當浮標值越大時web 圖將顯示擁有越強關系的點(如下右圖所示)。(decisiontree) 一般都是自上而下的來生成的。每個決策或事件(即自然狀態)都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹就是將決策過程各個階段之間的結構繪制成一張箭線圖。選擇分割的方法有好幾種,但是目的都是一致的:對

32、目標類嘗試進行最佳的分割。從根到葉子節點都有一條路徑,這條路徑就是一條“規則 ”。決策樹可以是二叉的,也可以是多叉的。對每個節點的衡量:1) 通過該節點的記錄數2) 如果是葉子節點的話,分類的路徑對葉子節點正確分類的比例有些規則的效果可以比其他的一些規則要好。決策樹對于常規統計方法的優缺點優點:1) 可以生成可以理解的規則;2) 計算量相對來說不是很大;3) 可以處理連續和種類字段;4) 決策樹可以清晰的顯示哪些字段比較重要。缺點:1) 對連續性的字段比較難預測;2) 對有時間順序的數據,需要很多預處理的工作;3) 當類別太多時,錯誤可能就會增加的比較快;4) 一般的算法分類的時候,只是根據一

33、個字段來分類。St ep四:用決策樹進行分類分析在本例中我們運用決策樹對購買某樣商品的客戶進行分類,通過分析他的個人信息(例如年齡、收入等) 判斷怎樣的人會購買健康食品。在用決策樹建模時我們需要設置一個輸出結點,模型根據樣本在該結點的不同取值構造出決策樹。4.1 將 導出(Derriivv e)結點連接到 Typ e結點后Derive 結點在字段選項( Field OPs) 欄中,可選用任何一種結點連入數據流的方法將這個結點連接;4.2 設置 D r ivee結點的屬性雙擊Drive 結點打開屬性對話框,如下圖所示:DriveField 欄中將該結點命名為health_food ,在導出為(

34、Driveas)欄中選擇 Flag,這表明新生成的health_food 字段將存儲兩值類型的數據。在真值(True value)和假值(False value) 欄中分別填寫新字段的兩種數據值,其中真值(True value)表示當條件滿足時該字段的值,假值(False value) 表明當條件不滿足時該字段的值。對判斷條件的設置我們可以通過單擊True when 欄右邊的按鈕進行。在表達式構建器(Expression Builder) 中我們可以選擇數據的任一字段,通過設計表達式建立結果為真時的條件。這里我們設置表達式為 fruitveg = 'T' and fish =

35、'T',這表明當顧客購買了fruitveg和fish 時該顧客便購買了健康食物。3設置字段的輸入 /輸出方向要 用 決 策 樹 模 型 建 模 就 需 要 在 數 據 載 入 模 型 前 定 義 一 個 輸 出 字 段 , 這 里 我 們 通 過 在health_food 結點后添加一Type 結點來定制字段的輸入/輸出方向。由于我們要分析購買健康食物的顧客 特征,所以我們將health_food 字段的 Direction 選項設置為輸出( Out) ,將顧客的各個特征設置為輸入( In),將其他商品設置為無( None) 。44.4 數據流的最終建立在對字段定義結束后,我們

36、將C5.0 (決策樹模型)結點加入到數據流。其數據流建立如下 圖:4.4 數據流的最終建立在對字段定義結束后,我們將C5.0 (決策樹模型)結點加入到數據流。其數據流建立如下圖:數據流, 我們可得到輸出結果如下樹形圖所示。該樹的葉結點表明了怎樣 的顧客將選擇健康食品,怎樣的顧客將拒絕健康食品,我們也可以根據該樹的將客戶按是否購買健康食品進行分類。P.S. :在這個關聯分析 /決策樹分析的案例中我們用到了Var. Fille、 Derive 、Web、GRI 和C5.0結點。3. 聚類分析(clustter.str )聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它

37、是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-

38、 均值、k- 中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。lementine 提供了多種可用于

39、聚類分析的模型,包括Kohonen , Kmeans, TwoStep 方法。示例 Cluster.str 是對人體的健康情況進行分析,通過測量人體類膽固醇、Na、Ka 等的含量將個體歸入不同類別。示例 中采用了三種方法對數據進行分類,這里我們重點討論Kmeans聚類方法。Step一:讀入數據和前兩步一樣,在建立數據流時首先應讀入數據文件。該示例中數據文件存儲為 DRUG1n , 我們向數據流程區內添加Var. File 結點讀入數據。Step二:為數據設置字段格式將Type結點連入數據流,通過編輯該結點對數據字段進行設置。在機器學習方法中聚類被稱為無導師的學習。所謂無導師的學習是指事先并不知

40、道數據的分類情況, 就像在決策樹方法中我們通過已知的某個結點值來建立模型,在聚類方法中所有參與聚類的字段在設置字段格式時其方向( Direction) 都將被設置為輸入( In) 。Step 三:生成聚類分析數據流設置好字段格式后我們將 Kmeans結點加入到數據流。 在編輯 Kmeans 結點時我們重點需要定 義將要其分成的類別數,這個屬性在 聚類數(Specified number of cluster) 中設定。數據流建立好后,右鍵單擊Kmeans 結點選擇執行該數據流。執行結果以與Kmean 同名的結 點顯示在管理器的 Models 窗口中,瀏覽該結點我們能夠得到關于分類的信息,如下圖

41、所示:St ep四:圖形化輸出各個類的組成情況查看各類中的情況除了瀏覽結果結點外,我們還可以選擇用圖形將結果顯示出來。4.1 將模型的結果結點連入數據流。中 Type結點,雙擊 Models 窗口中的 Kmeans 結果結點將該結點連接到Type后4.2 設置圖形輸出結點選擇 Graph 欄中的 Distribution 結點將它連接到Kmeans結果結點后,雙擊該結點對它進行設 置。在 Field 欄中選擇 $KM-Kmeans 選項,該選項保存了分類結果,即每個樣本在聚類后所屬的類別。 Distribution 結點要求 Field 欄為非數據結點。在 Overlay 選項中我們選擇 Dr

42、ug 項,這是為了 研究在不同的分類類別里 Drug 的各個取值的所占比例。運行該數據流我們可得到下圖 ,圖中詳細的顯示了不同 Drug 類型在各個類別里的分布情況。 同樣道理,我們也可以對其他屬性進行研究。P.S. : 在這個聚類分析的案例中我們用到了K means、 Distr i bution 結點。4、神經網絡( ggooodlearn.str )神經網絡是一種仿生物學技術,通過建立不同類型的神經網絡可以對數據進行預存、分類等操作。goodlearn.str 通過對促銷前后商品銷售收入的比較,判斷促銷手段是否對增加商品收益有關。Clementine 提供了多種預測模型,包括Nerual

43、Net 、Regression和Logistic 。這里我們用神經網絡結點建模,評價該模型的優良以及對新的促銷方案進行評估。St ep一:讀入數據, 本示例的數據文件保存為GOODS1n ,我們向數據流程區添加Var. File 結點,并將數據文件讀入該結點。St ep二、計算促銷前后銷售額的變化率向數據流增加一個Derive 結點,將該結點命名為Increse。在公式欄中輸入 (After - Before) / Before * 100.0以此來計算促銷前后銷售額的變化Step 三:為數據設置字段格式添加一個Type 結點到數據流中。由于在制定促銷方案前我們并不知道促銷后商品的銷售額,所以將字段 After 的Direction 屬性設置為 None ;神經網絡模型需要一個輸出, 這里我們將 Increase字段的 Direction 設置為 Out ,除此之外的其它結點全設置為In。Step四:神經網絡學習過程在設置好各個字段的Direction 方向后我們將 Neural Net 結點連接入數據流。在對 Neural Net 進行設置時我們選擇快速建模方法( Quick ),選中防

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論