探析數據挖掘(DataMining)和統計學的聯系_第1頁
探析數據挖掘(DataMining)和統計學的聯系_第2頁
探析數據挖掘(DataMining)和統計學的聯系_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、    探析數據挖掘( Data Mining )和統計學的聯系    數據挖掘( Data Mining )和統計學:有什么聯系? J.H.Friedman斯坦佛大學統計系及線性加速中心  摘要:DM(數據挖掘)是揭示存在于數據里的模式及數據間的關系的學科,它強調對大量觀測到的數據庫的處理。它是涉及數據庫管理,人工智能,機器學習,模式識別,及數據可視化等學科的邊緣學科。用統計的觀點看,它可以看成是通過計算機對大量的復雜數據集的自動探索性分析。目前對該學科的作用盡管有點夸大其

2、詞,但該領域對商業,工業,及科學研究都有極大的影響,且提供了大量的為促使新方法的發展而進行的研究工作。盡管數據挖掘和統計分析之間有明顯的聯系,但迄今為止大部分的數據挖掘方法都不是產生于統計學科。這篇文章對這一現象作了一些解釋,并說明了為什么統計學家應該關注數據挖掘。統計學可能會對數據挖掘產生很大影響,但這可能要求統計學家們改變他們的一些基本思路及操作原則。  1 序言 聲明:該文中的觀點僅代表作者本人的觀點,并不一定反映編輯,主辦者,斯坦佛大學及同行的觀點。 第二十九次論壇(on the Interface)(May 1997,Houston,TX)的主題是數據挖掘和大數據集的分析。

3、這次會議的主題和二十年前的一次由Leo Breiman組織,ASA 和IMS贊助的關于大量復雜數據分析的會議是一致的。二十年后,探討一下二十年來的所作所為是極其恰當的。這篇文章將討論如下問題:什么是數據挖掘?什么是統計?它們之間的聯系是什么(如果有的話)?統計學家能作什么?(可能的話)Should we want to? 2 什么是數據挖掘?數據挖掘的定義非常模糊,對它的定義取決于定義者的觀點和背景。如下是一些DM文獻中的定義: 數據挖掘是一個確定數據中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。-Fayyad. 數據挖掘是一個從大型數據庫中提取以前未知的,可理解的,可執行的信息

4、并用它來進行關鍵的商業決策的過程。-Zekulin. 數據挖掘是用在知識發現過程,來辯識存在于數據中的未知關系和模式的一些方法。-Ferruzza 數據挖掘是發現數據中有益模式的過程。-Jonn 數據挖掘是我們為那些未知的信息模式而研究大型數據集的一個決策支持過程。-Parsaye 數據挖掘是.決策樹.神經網絡.規則推斷.最近鄰方法.遺傳算法-Mehta雖然數據挖掘的這些定義有點不可觸摸,但在目前它已經成為一種商業事業。如同在過去的歷次淘金熱中一樣,目標是'開發礦工'。利潤最大的是賣工具給礦工,而不是干實際的開發。數據挖掘這個概念被用作一種裝備來出售計算機硬件和軟件。硬件制造商

5、強調數據挖掘需要高的計算能力。必須存儲,快速讀寫非常大的數據庫,并將密集的計算方法用于這些數據。這需要大容量的磁盤空間,快速的內置大量RAM的計算機。數據挖掘為這些硬件打開了新的市場。 軟件提供者強調競爭優勢。'你的對手使用它,你最好得跟上。'同時強調它將增加傳統的數據庫的價值。許多組織在處理存貨,帳單,會計的數據庫方面有大量的業務。這些數據庫的創建和維護都耗資巨大。現在只需要將相對少的投資用于數據挖掘工具,就可以發現隱藏在這些數據中的具有極高利潤的信息'金塊'。 目前硬件和軟件供應者的目的是在市場還未飽和前通過迅速推出數據挖掘產品為數據挖掘作廣告。如果一個公司

6、為數據挖掘包投資了五萬至十萬美元,這也可能只是實驗,人們在新產品未被證實比舊產品具有很大優勢之前是不會貿然購買的。以下是一些當前的數據挖掘產品:IBM: 'Intelligent Miner' '智能礦工'Tandem: 'relational Data Miner' '關系數據礦工'AngossSoftware: 'KnowledgeSEEDER' '知識搜索者'Thinking Machines Corporation: 'DarwinTM'NeoVista Software:

7、'ASIC'ISL Decision Systems,Inc.: 'Clementine' '克萊門小柑橘'DataMind Corporation: 'DataMind Data Cruncher'Silicon Graphics: 'MineSet'California Scientific Software: 'BrainMaker'WizSoft Corporation: 'WizWhy'Lockheed Corporation: 'Recon'SAS Cor

8、poration: 'SAS Enterprise Miner ' 除了這些'綜合'軟件包外,還有許多專門用途的產品。另外,許多專業于數據挖掘的咨詢公司也成立了。在這個領域,統計學家和計算機科學家的不同在于當統計學家有一個想法時,他(她)將它寫成文章,而計算機科學家者開一家公司。當前數據挖掘產品的特點有:-迷人的圖形用戶界面.數據庫(查尋語言).一套數據分析過程-窗口形式的界面.靈活方便的輸入-點擊式按鍵和說 -輸入對話框-利用圖表分析-復雜的圖形輸出-大量數據圖-靈活的圖形解釋樹,網絡,飛行模擬- 結果方便的處理。這些軟件包對決策者來說就象數據挖掘專家。在當前

9、的數據挖掘軟件包中被用到的統計分析過程包括:.決策樹推斷(C4.5,CART,CHAID).規則推斷(AQ,CN2,RECON,etc).最近鄰方法(合乎情理的方案).聚類方法(數據分離).聯合規則(市場籃子分析).特征提取.可視化另外,有些還包括:.神經網絡.bayesian belief 網絡(圖形模型).遺傳算法.自組織圖.神經模糊系統幾乎所有包都不包括:.假設檢驗.實驗設計.響應表面模型.ANOVA,MANOVA,etc.線性回歸.判別分析.對數回歸.廣義線性模型.正則相關性.主成分分析.因子分析后面的這些過程是標準統計包里的主要部分。因此,當前被市場化的數據挖掘包中的大部分方法在統計

10、學科之外產生和發展。統計學核心的方法已被忽略。  3 Why Now? What's the rush? 從數據學習的想法已經提出很長時間了。但在忽然之間人們對數據挖掘的興趣卻變得如此強烈,這是為什么呢?主要原因是近來它與數據庫管理領域有了聯系。數據,特別大量的數據保存在數據庫管理系統中。傳統的DBMS集中于在線轉換過程(OLTP n-line transaction processing);也就是數據組織的目的是存儲并快速恢復單個記錄。它們過去常用來記錄庫存,薪水表記錄,帳單記錄,發貨記錄,等等。最近,數據庫管理界對將數據庫管理系統用于決策支持越來越感興趣。這樣一個決策支持

11、系統將允許對原本為在線轉換過程應用收據的數據進行統計查詢。比如'上月我們的所有連鎖店一共賣了多少尿布?',決策支持系統需要'數據倉庫'的結構。數據倉庫用相同的格式將某組織分散在各個部門的數據統一成一個單一的中心數據庫(通常有100GB大)。有時較小一點的子數據庫也可以建成來進行特殊的分析;這些又叫'數據市場'(Data Marts) 決策支持系統為在線分析過程(OLAP)和關系在線分析過程設計。關系在線分析過程為'多維分析'設計。關系在線分析過程數據庫通過維組織,維即屬性(變量)的邏輯類。數據體可以看成是高維偶然事件表。關系在線分

12、析過程支持如下類型的查詢: 顯示春季運動服部門總的銷售量,及California大城市商業街中商店數和小城市中商店進行比較,顯示所有利潤邊界值為負的項 如果關系在線分析過程的查尋由使用者手工進行,使用者提出潛在的相關問題;得到結果需要附加的查尋,其答案可能暗示進一步的問題。這樣的分析過程一直到不再有感興趣的問題提出,或者到分析員精疲力盡或耗完時間。如果用關系在線分析過程進行數據挖掘,那它需要一個經驗豐富的使用者,他能不睡且不老,使用者必須不斷地重復提出見聞廣博的問題。數據挖掘也可以用數據挖掘系統(軟件)進行,它只需要使用者提供模糊的指令,就能自動搜索相應的模式,并顯示重要的項,預測,

13、或反常記錄。 利潤邊界值為負的項有什么特征?如果決定開發某項產品的市場-預測它的利潤邊界值尋找那些其利潤邊界值可以準確預測的項的特征不是所有的大的數據庫都是商業化的,比方說科學和工程中大量存在的數據庫。這些數據庫通常和計算機自動收據數據聯系在一起,比方說:a)  天文的(天空圖)b)  氣象的(氣候,環境污染監測站)c)  衛星遙感d)  高能物理e)  工業過程控制這些數據也能得益于數據挖掘技術(原則上)  4 是數據挖掘還是智能訓練?當前對數據挖掘的興趣在學術界引發了一些議題。數據挖掘作為一種商業事業看上去很可行,但它是否能被定為一種智能訓練。當然它和計算機科學有極重要的聯系。這些包括:a)  集聚體(ROLAP)的高效計算b)  快速的立體(X * X)查尋c)  為提高在線查尋的速度的線下預查尋d)  在線查尋的并行計算e)  將DBMS方法轉化為數據挖掘算法。f)  基于磁盤而不是RAM的實現g)  基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論