數據挖掘過程的多維視圖_第1頁
數據挖掘過程的多維視圖_第2頁
數據挖掘過程的多維視圖_第3頁
數據挖掘過程的多維視圖_第4頁
數據挖掘過程的多維視圖_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數 據 挖 掘 過 程 的 多 維 視 圖潘無名 , 潘云鶴(浙江 大學 計 算機 學院 , 浙江 杭 州 310027摘 要 :數 據挖 掘 (DM 是 非常 具有 挑戰 性的 工作 , 數 據 挖掘 過 程 是多 個 因 素耦 合 的 決 策問 題 。討 論 了 當 前 流 行的 DM 過程 CRISP-DM 和 SEMMA 的不 同 之處 及優 缺 點。 從機 器學 習 、 統 計 和數 據 質量 角度 對 挖掘 有效 性 作 了討 論 , 認為 一個 真正 高效 的過 程應該 面向 算法 , 強 調探 索 , 以挖 掘 出 高 可 靠 性 的具 有 商 業 價 值 的 知 識目 標 ,

2、 并 緊跟 技術的 發展 。給 出數 據挖 掘過 程的多 維視 圖 , 將算 法分 解為 組件 維、 模型 維和 過程 維等 維 度 , 以 此 提出 新 的 DM 過 程的 框架 。關鍵 詞 :數 據挖 掘 ; 過程 ; 算法中圖 法分 類號 :TP311. 13 文 獻標 識碼 :A 文 章編 號 :1001-3695( A M ult idim ension al Perspect ive of Da ta M ining Pr ocessPAN Wu-m ing, PAN Yun-he(College of Com puter S cience, Zhejiang University

3、, H angz hou Zhejiang 310027, ChinaAbst ract :The Applicat ions of Da ta m ining in business is v ery cha lleng eable, and t he process of da ta m ining is affect ed by m a ny fa ct ors. In this paper we discuss t wo m a in m ethodology of da ta m ining process. We ana lyz e t he va lidit y of dat a

4、 m ining re-s ult s from as pect s of m a chine lea rning , st at is tics a nd da ta qualit y. We put dat a m ining process in a m ultidim ens iona l perspec-t iv e, and propos e a new process fra m ew ork of da ta m ining.Key words:Dat a Mining; Proces s; Algorit hm s1 引言數據挖掘可提供解決很 多商業 問題的 方法 , 如欺詐

5、 檢測、 客戶保持、 市場分割、 分險分析、 吸引力分析、 客戶滿意度、 破產 預測和業務量預測等方面。數 據挖掘 是非常 具有知 識性和 挑 戰性的工作。如果對數據挖掘的算法沒有深入的了解 , 就不能 正確地進行挖掘。然而數據挖掘中使用的統計、 機器學習以及 其他算 法數量眾多 , 涉及理 論范圍極廣 :統計、 隨機過 程、 神 經 網絡、 決策樹、 遺傳算法、 粗集等 13。這對一般挖掘者來 說是 難以具有全面的和較深入的算法知識。在軟件工程中 , 過程是將技術、 專業知識、 工具和業務工程 聯系在一起的粘合劑 , 通過過程可將技術的作用正確地發揮出 來。 2002年 8月 ACM 對 數

6、 據 挖 掘 領 域 出 現 的 標 準 作 了 報 告 4, 過程方面標準為 CRISP-DM 。實際開發 中另外一個 有影 響力的過程方法 論是 SAS 的 SEMMA 。 SPSS 曾提 出過 5As 方 法論 , 現 SPSS 支持 CRISP-DM 。由 于大 部分 挖 掘軟 件都 支 持 圖形化的工作流 程設 置 , 因 此隱 含 地支 持某 種 挖掘 過程 方 法 論 , 如 DB2Intelligent Miner 就 采 用 一 種 稱 為 “ Knowledge Dis-covery ” 的過程。本文將 主要討 論 CRISP-DM 和 SEMMA, 它 們 是兩個最 有

7、影 響 的 數 據 挖 掘方 面 的 方 法 論。現 有 的 過 程 如 CRISP-DM, 對算法的特征考 慮得還 不夠。一個 對算法 背景 沒 有深入了 解挖掘團隊 , 在 CRISP-DM 的指 導下 , 還 是難以做 正 確的挖掘工作。本文分析了這兩種數據挖掘過程 , 提出過程應 面向算法的觀點 , 討論了過程基于算法的多維視圖。 2對現有 DM 方法論的分析KDnuggets 5對數 據 挖 掘 中 方 法 論 使 用 情 況 作 了 調 查 , 2002年 7月 公 布 結 果 顯 示 使 用 CRISP-DM 的 人 數 超 過 了 51%, 另外 SEMMA 占 12%, 剩

8、余的 使用 其他 方法 論或 不使 用 任何方法論。這次調 查 表明 CRISP-DM 和 SEMMA 是兩 個 最 有影響力的方法論 , 接下來各作介紹和評述。2. 1 CRISP -DMCRISP-DM(CRoss-Industry Standard Process-Data Mining 是一個想成為 DM 工業標準的計劃 , 分析軟件及數據倉庫軟件 公 司 SPSS, NCR 是 CRISP-DM Group 的成員。它的目的是發展 一個與工作性質無關、 與所用的方法無關的 DM 過程 , 于 2000年 公布了 CRISP-DM 的 1. 0版本 6。 CRISP-DM 強調數據挖掘

9、 在商業中的應用 , 解決商業 中存在 的問題 , 而 不是把 數據挖 掘 局限在研究領域。CRISP-DM 采用分層方 法將 一個 數據挖 掘 項目 的生 存 周 期定義為六個階段和四 個層次。六 個階段 為 :商 業理解、 數 據 理解、 數據準備、 建立模型、 模型評估、 實施 , 如圖 1所示。圖 1CRISP -DM 的 過程 階段模 型階段間的順序并不嚴格 , 階段 間有循 環 , 項 目的總 體實 施 是按階段循環 進行 的。四 個層 次 是 :階段、 通用 任務 (Generic Task 、 特 殊 任 務 (Specialized Task 、 過 程 實 例 (Proce

10、ss In-stance 。每個階段由若干通用任務組成 , 每個通用任務又實施 1 1 2第 8期 潘無名等 :數據挖掘過程的多維視圖收稿日期 :2003-09-06; 修返日期 :2003-10-18若干特殊任務 , 每個特殊任務由若干過程實例來完成。CRIS P-DM 中上兩層獨立于具 體數據挖掘 方法 (表 1 , 下 兩層沒有具體定義。在具體應 用中上 兩層的 任務將 結合具 體 數據挖掘項目的上下文 (Cont ex t 映射 到下兩 層的具 體任務 和 過程。項目的上下文是指應 用領域、 數 據挖掘 問題類 型、 技 術 難點、 工具及其提供的技術四個方面。表 1 CRIS P-D

11、M 各 階段的 通用任 務階 段 通 用 任 務商 業 理 解 (Business Understanding 確 定 商 業 目 標 , 環 境 評 估 , 確 定 數 據 挖 掘 的 目 標 , 制 定 數 據 挖 掘 計 劃數 據 理 解 (Data Un-d ersta nding 收 集 數 據 , 描 述 數 據 , 初 步 探 索 數 據 (主 要 是 統 計 分 布 方 面 , 驗 證 數 據 質 量數 據 準 備 (Da ta Prep a ration描 述 數 據 集 , 選 擇 數 據 , 清 理 數 據 , 重 構 數 據 , 調 整 數 據 格 式建 立 模 型 (

12、Modeling 選 擇 建 模 技 術 , 設 計 測 試 過 程 , 建 立 模 型 ; 評 價 模 型 (參 數 設 置 等 技 術 角 度 模 型 評 估 (Evalua-tion按 商 業 目 標 評 估 模 型 , 過 程 評 估 , 確 定 發 布 模 型 還 是 重 新 挖 掘部 署 (Deployment 計 劃 發 布 過 程 , 計 劃 對 模 型 的 監 測 、 維 護 和 更 新 , 生 成 最 終 報 告 , 評 估 項 目2. 2 SAS 的數據挖掘方法論SE MMA(S a m ple, Ex plore, M odify, Model, Assess 是 S

13、AS 在 多年的數據處理研究工作中積 累了一 套行之 有效的 數據挖 掘 方法論 , 各階段劃分如下 :(1 S am ple 建立數據的數個取樣數據表。取樣應該足夠 大使其能夠包含重要信息 , 同時要小到足夠處理。(2 Ex plore 通過搜索預期的關系、 無法 預測的 趨勢和 異 常來探索數據、 理解數據和建立有用的概念。(3 M odify 修改數據 , 創建、 選擇和變換變量 , 選擇模型類型。(4 Model 為數據建模。(5 Asses s 模型和知識的綜合解釋和評價。S AS 在其數據挖掘工具 (E nt erpris e Miner 4. 1 中將所有的功 能節點 (包括所有

14、挖掘算法 按 S a m p le, E x plore, M odify , M odel, As-sess 分類 (表 2 。實 際上 S AS EM 還 包含 兩 個 分類 S coring 和 U tilit y, S coring 包含 S core 和 C*S core 兩個節點 , U t ility 是一組和 S A S 系統相關的工具。 S EM M A 過程結束之后通常要通過 S coring 模塊來應用挖 掘的結 果。在一個 實際挖 掘過 程中 并不一 定按 S E M M A 的順序進行 , 也不一定包含所有的步驟。另外 , 若安裝了 S A S 的新產品 T ex t

15、 M iner 后 , 會增加一些節點。表 2 S EM MA 各階段 的功能 節點階 段 功 能 節 點Sa mple 數 據 源 , 取 樣 (Sampling 和 數 據 劃 分Explore 分 布 探 測 , Multyplot 可 視 化 , 深 入 考 察 (Insight , 關 聯 規 則 , 變 量 選 擇 , 連 接 分 析 (Link AnalysisMod ify 數 據 集 屬 性 設 置 、 變 量 轉 換 、 異 常 值 去 除 (Filter Outliers 、 變 量 值 替 換 、 聚 類 , SOM /Kohonen 網 絡 、 時 間 序 列Mod

16、el 回 歸 、 樹 、 神 經 網 絡 、 主 分 量 /DMNeur al 、 用 戶 定 義 模 型 、 聯 合 (Ensemble 、 基 于 記 憶 的 推 理 (Memory-Based Reasoning 、 兩 階 段 模 型A ssess 包 含 評 估 、 報 告 兩 個 節 點2. 3 CRISP-DM 和 SEMMA 的比較CRIS P-DM 是從一個 數據挖掘項目執行的角度談方法論 , S E MMA 則是從對具體某個數據集的一次探測和挖掘的角度來 談方 法論 , C RIS P-DM 的考慮 的范圍 比 SE MMA 要 大。 C RIS P-DM 關注商業目標、

17、數據 的獲 取和 管理 , 以及 模 型在 商業 背 景 下的有效性。 CRISP-DM 認為數據挖掘是由商業目標驅動的 , 同時重視數據的獲取、 凈化 和管理 ; S EMMA 不否 認商業 目標 , 但更強調數據挖掘是一個探索的過程 , 在最終確定模式和模型 前 , 要經過充分的探 索和比 較。 在數據 挖掘的 各個階 段中 , 數 據挖掘的產品都要使所使用的 數據和 所將建 立模型 處于十 分 易于調整、 修改和變動的狀 態 , 這才能 保證數 據挖掘 有效的 進 行。 S AS 在同類產品中這一方面尤其強大。SE MMA 是一個特別貼 近算 法的 視角 , SAS 將 不同 的數 據

18、挖掘算法 放到 了 這 個 挖 掘 過 程 的不 同 階 段 (E xplore, Modify, Model , 而 C RIS P-DM 是一個 不依賴 于具體 算法的 過程 框架 , CRIS P-DM 將所有算法放到過程的相同位置 (Pha se 。 SE MMA 的體現了不同算 法在 項 目過 程 的不 同階 段 有不 同的 重 要性。 SAS 在技術上的另一個特征是強調取樣 (S am pling 7, 8。 SE MMA 強調了 S AS 本 身 產品 的 優 勢 , S EMMA 沒 有 如 同 CRIS P-DM 一樣詳細而規范的文本 , 作為項目管 理的需要來 看 CRIS

19、 P-DM 更適用一些。由于 C RIS P-DM 在階段間 可以反饋 , 整個流程又是循環的 , 在邏 輯上 C RIS P-DM 是 可以 實現 S EM-MA 的 , 它們互不矛 盾。但由 于強 調 的重 點不 同 , 在 實踐 上 則 會有明顯的區別。3DM 過程面向算法的必要性DM 過程的目標是為數據挖掘項目或工 作成功執行提供活 動規范。數據挖掘過程的應用和定義離不開對 DM 算法有效性 的理解 , DM 的相關理論對算法應用有效性的理解非常重要。 數據挖掘學科主要的支 柱歸于 三個方 面 :數 據庫、 機器 學 習和統 計 3。從 數 據 庫 的 角 度 來 說 特 別 強 調

20、效 率 (Efficien-cy , 關心整個挖掘過程和巨量數據集的數據管理策略 ; 從機 器 學習的角度來看關注于其中的啟發搜索算法 , 這對算法及軟件 開發者非常關鍵。文獻 1從統計角 度介紹了 數據挖 掘 , 其 中 認為統計的作用 主要 在于 :在 模 型中 對隨 機 因素 的顯 式 處 理 , 包括數據質 量問題、 真實模型的 未知性、 樣本問題 , 如在 回 歸分析中假設模型為一個確定型函數和一個隨機函數的疊加。 建模方法。概率分布和 密度、 貝葉斯 分類、 回歸 方法。 對 模型的評價。對模式進行評 價、 對 概率模 型的評 分、 對 模型 復 雜度的懲罰評分。數據挖掘結果的有效

21、性受各方面因素的影響 :統計模型 和處理方法對結果的影響非常之大 , 如回歸中評價函數選誤差 絕對值和誤差平方和會有 不同的 結果 1。 挖掘出 的變量 之 間的依賴關系 往往 是假 象 , 不 是真 正 的因 果關 系 1。 從 機 器學習的歸納偏置理論可看出 , 學習的結果只是在某種意義上 (統計、 嚴格匹配 等 和 現實訓 練數 據沒 有矛 盾的 模型 中選 取 了一個。無矛盾的模型有許多 甚至無 窮多 , 我們選 擇這個 (通 過一個學習過程學習到的 而不 選擇另 一個 , 通常沒 有足夠 的 信息。機器學習中分析型學 習容許 把背景 知識應 用于學 習 中 , 當前的大部分數據挖掘

22、還不容 許考慮 模型的 領域知 識 , 因 此模型建立過程的控制以及結 果價值 和有效 性的判 斷一定 要 在分析工具之外依據具體的 商業背 景作評 價。數 據質量 問 題 2。低質量的數據 只 能得 到無 用 的和 錯誤 的 分析 結果 , 雖 然可以做許多改進數據質量的工作 , 但很大一部分信息是無法 恢復的。由于數據質量的問題 也使數 據挖掘 的有效 性降低 很 多。因此 , 數據挖掘的結果僅僅是一 種實驗性 的結果。 Han 2認為數據挖掘最為根本的特征 是探測 性的 (Exploratory , 并 非 確定性 (Confirmative 的。 在實 際應 用 中 , 對算 法 應用

23、 的 假 定 或條件的理解是非常重要的 , 進行挖掘的人可能在不能滿足要212 計算機應用研究 2004年求的情況下應用了算法 , 或者將挖掘結果有效性提高到不切實 際的程度。挖掘算法的采用對過程影響是非常大的 , 不同的算 法的采用導致實際過程的很大的區別 , 數據準備、 取樣、 變量變 換、 模型預處理和模型評估方面有很大不同。而算法的采用也 與商業目標和面對的數據有很大的關系。為提高結果的可靠性和挖掘活動的有效性 , 過程必須要能 夠很好地支持 DM 探索活動 , DM 過程 應算法 作為一 個重要 的 因素包含在過程中。而一般工 具中算 法的細 節很多 時候對 挖 掘者是不可得的 ,

24、一個面向算法的過 程 (同時 被工具 開發商 所 遵照 可避免算法被 不恰 當的 使用。反 觀 C RIS P-DM, 它的 定 義盡量要獨立于具體算法。如 果挖掘 者對大 多數算 法的背 景 及應用掌握得不是非常熟練的話 , 使用 C RIS P-DM 在做具體工 作的時候還是會感到無所 適從。在具 體挖掘 中算法 的應用 是 主線 , 它決定著過程中具體任務執行。數據挖掘每一步涉及很 多臨時的工作 , 在每一步都產生報告是沒有必要的。探索過程 往往是無序的 , 因此 CRIS P-DM 顯得 有些 呆板。雖 然 SE MMA 強調探索 , 但其定義過于簡略且不夠規范化。4 DM 過程的主要

25、維度真正高效的過程應該面向算法 , 以挖掘出高可靠性的具有 商業價值的知識目標。而 且過程 應緊跟 技術的 發展。常規 軟 件工程已經注意到 , 工具 的改進 導致過 程的改 進 , 會 使一些 流 程不再必要 (過程部分被自動 化 。因此 過程數據挖 掘的過 程 應置于 多個維 度之 下定 義 :階段、 商 業問 題領 域、 算法 的組 件 維、 算法的過程維、 算法的 模型維、 算法、 工 具。這 些維 度是 與 算法緊密相關的。進一步從過程考慮 , 須對算法從對過程的影 響進一步考慮 , 將要素分解。幾個主要維度 的簡要描述 如表 3所示。表 3 數 據挖 掘過程 的多 個維度維 度 要

26、 素 值 和 說 明階 段 商 業 理 解 , Samp le ,Explore, Modi fy,Mode l, Ass es s, 發 布階 段 劃 分 是 CR IS P-D M 和 SEMMA 的 融 合 擴 展商 業 問 題 維 度 領 域 模 型 (ERP 和SCM 軟 件 、 企 業 模 型可 提 供 建 立 每 個 商 業 領 域 的 語 義 模 型 , 從 中 可 導 出 對 數 據 收 集 和 準 備 的 基 本 要 求 , 并 可 確 定 數 據 之 間 的 基 本 關 系 和 約 束商 業 目 標 如 客 戶 關 系 保 持 、 欺 詐 偵 測依 賴 的 問 題 實 現

27、 該 商 業 目 標 需 要 通 過 挖 掘 回 答 的 問 題算 法 組 件 維 任 務 如 分 類 、 模 式 發 現模 型 樹 、 線 回 歸 等 的 具 體 形 式 化 定 義 評 價 函 數 似 然 函 數 , 誤 分 類 率搜 索 方 法 梯 度 下 降 、 貪 婪 搜 索數 據 管 理 方 法 主 要 對 主 存 大 小 及 時 間 方 面 要 求算 法 過 程 維 是 否 需 要 采 樣 隨 機 采 樣 、 分 層 采 樣 、 其 他 采 樣 的 需 要是 否 需 要 劃 分 數 據 訓 練 集 、 測 試 集 、 驗 證 集算 法 間 依 賴 性依 賴 其 他 算 法 的 結

28、 果 或 生 成 的 數 據 , 需 要 參 照 其 他 算 法 的 探 索 性 結 果 , 影 響 到 其 他 算 法 分 析變 換 數 據 的 要 求 變 量 變 換 、 容 許 空 值 、 變 量 值 替 換 等訓 練 控 制 要 素 參 數 列 表 、 意 義 、 取 值 范 圍測 試 控 制 要 素 參 數 列 表 、 意 義 、 取 值 范 圍驗 證 控 制 要 素 參 數 列 表 、 意 義 、 取 值 范 圍算 法 模 型 維 模 型 特 征 局 部 、 全 局 、 描 述 、 預 測 可 視 化 類 型 散 點 圖 、 等 高 線 、 樹 型 等 報 告 涉 及 要 素 模

29、型 定 義 、 參 數 值 等算 法 維 算 法 的 標 準 名 稱 C&RT,C5. 0, Logist ic 回 歸 、 前 向 網 絡 等工 具 維 名 稱 , 可 進 一 步 擴 展為 一 系 列 和 過 程 相 關的 因 素Cle me nti ne , SA S En te rp ri se Mine r, DB2Inte l li-gent Mi ne r, Te ra da ta Wa rehous e Mine r 等數 據 倉 庫 維 對 領 域 信 息 、 數 據 準備 、 數 據 質 量 等 有 影響 因 素BI 平 臺 、 E TL 工 具 、 數 據 倉 庫

30、 數 據 組 織 、 數 據倉 庫 數 據 質 量 狀 態 等5DM 過程階段和結構再來考察一下過程的階 段問題。通 常來說 一個項 目過 程 的階段總與整個項目的各個里程碑相連 , 每個里程碑標志著項 目明顯的進展。 CRISP-DM 的階段不能看著整個項目的階段 , 使用 CRISP-DM 必 須經 過幾 次 循環 才 能最 終達 到 項 目目 標。 SEMMA 的劃分 更 接 近項 目 階 段 , 它 明 顯 地 區 分 了 探 索 (Ex-plore 、 數據重構 (Modify 和建 模 (Model 過 程 , 并 將探 索作 為 一個重要的階 段來安排。 CRISP-DM 的階段劃分是流程模式 , 因此有反饋和循環。劃分階段需采用兩個原則 :階段劃分與里 程碑相關和過程面向算法。在這兩個原則下劃分階段如下 : (1 啟動。確定 商業 目標 , 環 境 評估 , 確 定 數據 挖掘 的 目 標和確定可能使用的算法 , 制定數據挖掘計劃。里程碑為確定 項目在商業維的位置 , 計劃了算法應用過程。(2 準備數據。獲取 數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論