




免費預覽已結束,剩余2頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘技術分析與研究 學 院 專 業 研 究 方 向 學 生 姓 名 學 號 任課教師姓名 任課教師職稱 2013 年 6月 23日 數據挖掘技術綜述摘要:隨著信息技術的迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。本文主要介紹了數據挖掘的基本概念、數據挖掘的過程、數據挖掘所需的工具、數據挖掘的任務、數據挖掘未來的研究方向、數據挖掘的應用領域和未來發展所面臨的一些問題。關鍵字:數據挖掘數據挖掘工具QUESTDBMiner網站數據挖掘研究方向應用領域 引言 數據是知識的源泉。但是,擁有大量的數據與擁有許多有用的知識完全是兩回事。過去幾年中,從數據庫中發現知識這一領域發展的很快。廣闊的市場和研究利益促使這一領域的飛速發展。計算機技術和數據收集技術的進步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲信息。收集數據是為了得到信息,然而大量的數據本身并不意味信息。盡管現代的數據庫技術使我們很容易存儲大量的數據流,但現在還沒有一種成熟的技術幫助我們分析、理解并使數據以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經驗知識經過分析、篩選、比較、綜合、再提取出知識和規則。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應該打個折扣。目前,傳統的知識獲取技術面對巨型數據倉庫無能為力,數據挖掘技術就應運而生。數據的迅速增加與數據分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數據分析的基礎上進行科學研究、商業決策或者企業管理,但是目前所擁有的數據分析工具很難對數據進行深層次的處理,使得人們只能望“數”興嘆。數據挖掘正是為了解決傳統分析方法的不足,并針對大規模數據的分析處理而出現的。目前,在需要處理大數據量的科研領域中,數據挖掘受到越來越多的關注,同時,在實際問題中,大量成功運用數據挖掘的實例說明了數據挖掘對科學研究具有很大的促進作用。數據挖掘可以幫助人們對大規模數據進行高效的分析處理,以節約時間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。 數據挖掘技術1、 數據挖掘的概念 數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。2、 數據挖掘的過程數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。下圖描述了數據挖掘的基本過程和主要步驟可視化工具數據挖掘工具數據庫3、 數據挖掘的工具 在數據挖掘技術日益發展的同時,許多數據挖掘的商業軟件工具也逐漸問世。數據挖掘工具主要有兩類:特定領域的數據挖掘工具和通用的數據挖掘工具。下面簡單介紹兩種數據挖掘工具:1.QUEST QUEST是IBM公司Almaden研究中心開發的一個多任務數據挖掘系統,目的是為新一代決策支持系統的應用開發提供高效的數據開采基本構件。系統具有如下特點:u 提供了專門在大型數據庫上進行各種開采的功能:關聯規則發現、序列模式發現、時間序列聚類、決策樹分類、遞增式主動開采等。u 各種開采算法具有近似線性(O(n))計算復雜度,可適用于任意大小的數據庫。u 算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。(4)為各種發現功能設計了相應的并行算法。2.DBMiner DBMiner是加拿大SimonFraser大學開發的一個多任務數據挖掘系統,它的前身是DBLearn。該系統設計的目的是把關系數據庫和數據開采集成在一起,以面向屬性的多級概念為基礎發現各種知識。DBMiner系統具有如下特色:u 能完成多種知識的發現:泛化規則、特性規則、關聯規則、分類規則、演化知識、偏離知識等。u 綜合了多種數據開采技術:面向屬性的歸納、統計分析、逐級深化發現多級規則、元規則引導發現等方法。u 實現了基于客戶/服務器體系結構的Unix和PC(Windows/NT)版本的系統。u 提出了一種交互式的類SQL語言數據開采查詢語言DMQL。4、 數據挖掘技術的任務數據挖掘技術主要有四種開采任務:u 數據總結是對數據進行濃縮,給出它的緊湊描述。數據挖掘是從數據泛化的角度來討論數據總結。u 分類發現這是一項非常重要的任務,分類是運用分類器把數據庫中的數據項映射到給定類別中的某一個,用于對未來數據進行預測。u 聚類是把一組個體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別的個體間的距離盡可能的大。u 關聯規則是指事物之間的聯系具有多大的支持度和可信度。有意義的關聯規則必須給定兩個閾值:最小支持度和最小可信度。 數據挖掘未來的研究方向和熱點1、 數據挖掘未來的研究方向 當前,數據挖掘研究方興未艾,其研究與開發的總體水平相當于數據庫技術在70年代所處的地位,迫切需要類似于關系模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使數據挖掘的應用得以普遍推廣。預計在本世紀數據挖掘的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:n 尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互;n 發現語言的形式化描述,即研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;n 研究在網絡環境下的數據挖掘技術(WebMining),特別是在因特網上建立數據挖掘服務器,并且與數據庫服務器配合,實現WebMining;n 處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據準備的一些工具和軟件。n 加強對各種非結構化數據的開采(DataMiningforAudioVideo),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采;交互式發現和知識的維護更新。2、 分析 隨著Web技術的發展,各類電子商務網站風起云涌,建立起一個電子商務網站并不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下鼠標即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。3、 電子商務網站數據挖掘 在對網站進行數據挖掘時,所需要的數據主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用于考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。就分析和建立模型的技術和算法而言,網站的數據挖掘和原來的數據挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自于點擊流,和傳統的數據庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備。目前,有很多廠商正在致力于開發專門用于網站挖掘的軟件。 數據挖掘的應用領域數據挖掘技術從一開始就是面向應用的。目前,在很多領域,數據挖掘(datamining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。數據挖掘不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計,分析,綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。1、 在科學研究中應用 從科學研究方法學的角度看,科學研究可分為三類:理論科學、實驗科學和計算科學。計算科學是現代科學的一個重要標志。計算科學工作者主要和數據打交道,每天要分析各種大量的實驗或觀測數據。隨著先進的科學數據收集工具的使用,如觀測衛星、遙感器、DNA分子技術等,數據量非常大,傳統的數據分析工具無能為力,因此必須有強大的智能型自動數據分析工具才行。 數據挖掘在天文學上有一個非常著名的應用系統:SKICAT(SkyImageCatalogingandAnalysisTool)。它是美國加州理工學院噴氣推進實驗室(即設計火星探測器漫游者號的實驗室)與天文科學家合作開發的用于幫助天文學家發現遙遠的類星體的一個工具。SKICAT既是第一個獲得相當成功的數據挖掘應用,也是人工智能技術在天文學和空間科學上第一批成功應用之一。利用SKICAT,天文學家已發現了16個新的極其遙遠的類星體,該項發現能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結構。數據挖掘在生物學上的應用主要集中于分子生物學特別是基因工程的研究上。基因研究中,有一個著名的國際性研究課題人類基因組計劃。據報道,1997年3月,科學家宣布已完成第一步計劃:繪制人類染色體基因圖。然而這僅僅是第一步,更重要的是對基因圖進行解釋從而發現各種蛋白質(有10,000多種不同功能的蛋白質)和RNA分子的結構和功能。近幾年,通過用計算生物分子系列分析方法,尤其是基因數據庫搜索技術己在基因研究上作出了很多重大發現。2、 在商業上的應用在商業領域特別是零售業,數據挖掘的運用是比較成功的。由于MIS系統在商業的普遍使用,特別是碼技術的使用,可以收集到大量關于購買情況的數據,并且數據量在不斷激增。利用數據挖掘技術可以為經營管理人員提供正確的決策手段,這樣對促進銷售及提高競爭力是大有幫助的。3、 在金融上的應用 在金融領域,數據量是非常巨大的,銀行、證券公司等交易數據和存儲量都是很大的。而對于信用卡欺詐行為,銀行每年的損失非常大。因此,可以利用數據挖掘對客戶信譽進行分析。典型的金融分析領域有投資評估和股票交易市場預測。4、 在醫學上的應用 數據挖掘在醫學上的應用十分廣泛,從分子制藥到醫療診斷,都可以利用數據挖掘的手段來提高效率和效益。在藥物合成方面,通過對藥物分子化學結構的分析,可以確定藥物中哪種原子或原子基因對什么病能夠發揮作用,這樣在合成新藥時,可根據新藥的分子結構確定該藥將有可能治療哪一種病。數據挖掘還可用于工業、農業、交通、電信、軍事、Internet等其它行業。數據挖掘具有廣泛的應用前景,它既可應用于決策支持,也可應用于數據庫管理系統(DBMS)中。數據挖掘作為決策支持和分析的工具,可以用于構造知識庫。在DBMS中,數據挖掘可以用于語義查詢優化、完整性約束和不一致檢驗等。 數據挖掘面臨的問題和挑戰 數據挖掘應從以下三方面加以考慮,一是用數據挖掘解決什么樣的商業問題,二是為進行數據挖掘所做的數據準備,三是數據挖掘的各種分析算法。 數據挖掘的分析算法主要來自于以下兩個方面:統計分析和人工智能(機器學習、模式識別等)。數據挖掘研究人員和數據挖掘軟件供應商,在這一方面所做的主要工作是優化現有的一些算法,以適應大數據量。另外需要強調的是,任何一種數據挖掘的算法,不管是統計分析方法、神經元網絡、各種樹分析方法,還是遺傳算法,沒有一種算法是萬能的。不同的商業問題,需要用不同的方法去解決。即使對于同一個商業問題,可能有多種算法,這個時候,也需要評估對于這一特定問題和特定數據哪一種算法表現好。 做數據挖掘研究的人,往往把主要的精力用于改進現有算法和研究新算法上。人們都知道數據準備是必不可少的一步,但很少有人去真正花時間和精力去研究。其實數據挖掘最后成功與失敗,是否有經濟效益,數據準備起到了至關重要的作用。數據準備包含很多方面:一是從多種數據源去綜合數據挖掘所需要的數據,保證數據的綜合性、易用性、數據的質量和數據的時效性,這有可能要用到數據倉庫的思想和技術;另一方面就是如何從現有數據中衍生出所需要的指標,這主要取決于數據挖掘者的分析經驗和工具的方便性。 人們通常把數據挖掘工具看得過份神秘,認為只要有了一個數據挖掘工具,就能自動挖掘出所需要的信息,就能更好地進行企業運作,這是認識上的一個誤區。其實要想真正做好數據挖掘,數據挖掘工具只是其中的一個方面,同時還需要對企業業務的深入了解和數據分析經驗。一個企業要想在未來的市場中具有競爭力,必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工作。再同其他部門協調,把挖掘出來的信息供管理者決策參考,最后把挖掘出的知識物化。在國內的企業中,還很少有決策人員認識到這一點。如果管理者沒有這方面的意識,數據挖掘和數據分析就很難發揮應有的作用,很容易走向兩個極端,一是認為數據挖掘沒有用處,二是開始認為數據挖掘是萬能的。如此得到的結果往往與初始期望相去太遠。 雖然數據挖掘技術已經在各方面都得到了廣泛的應用,但數據挖掘技術的研究還不夠成熟,在應用上有很大的局限性。正是這些局限性,促使數據挖掘技術進一步的發展:l 挖掘的對象;數據庫更大,維數更高,屬性之間更復雜,數據挖掘處理的數據通常十分巨大。l 數據丟失問題;因大部分數據庫不是為知識發現而定做的,那么它就有可能會存在一些重要的數據和屬性丟失的問題。l 多種形式的輸入數據;目前數據挖掘工具能處理的數據形式有限,一般只能處理數值型的結構化數據。l 網絡與分布式環境的KDD問題;隨網絡的發展,資源的豐富,技術人員各自獨立處理分離數據庫的工作方式應是可協作的。l 個人隱私問題;l 與其他系統的集成問題。 結束語 數據挖掘現在越來越為更多的人們所關注,被認為是未來最有發展前景和廣闊市場潛力的新興學科之一。隨著信息技術和數據庫技術的不斷發展,各行各業的人們掌握了大量的數據,在競爭日益激烈的現今社會里,如何迅速有效的獲得隱藏在數據之后的有用的知識信息,成為眾
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 加強社團宣傳與形象塑造計劃
- 2025年證券從業資格證提升路徑試題及答案
- 團隊績效激勵的年度發展計劃
- 年度團隊建設活動的策劃計劃
- 2025注冊會計師考試期間的個人實踐與思考總結試題及答案
- 2025年證券從業資格證成長回顧試題及答案
- 項目管理資格考試準備試題及答案
- 項目管理考試所需的基礎知識和技能試題及答案
- 2025年特許金融分析師考試實例分析試題及答案
- 注冊會計師行業職業道德案例分析試題及答案
- 湖北省武漢市六校聯考2024-2025學年高二下學期4月期中考試化學試題(含答案)
- 大學英語四級考試2024年6月真題(第1套)閱讀
- 第十五講新時代與中華民族共同體建設2012- -中華民族共同體概論專家大講堂課件
- 浙江2025年03月溫州市龍灣區事業單位公開招考(選調)31名工作人員筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 2025-2030冷軋行業市場發展分析及投資前景研究報告
- 新疆維吾爾自治區2024年中考數學試卷含真題解析
- 攪拌站安裝施工方案
- 設備全生命周期管理辦法
- 現場維保的安全措施、文明維保服務措施
- 初中地理教師培訓課件粵人版(2024)初中地理教材簡述
- 弘揚五四精神主題班會課件
評論
0/150
提交評論