數據挖掘技術論文開題報告_第1頁
數據挖掘技術論文開題報告_第2頁
數據挖掘技術論文開題報告_第3頁
數據挖掘技術論文開題報告_第4頁
數據挖掘技術論文開題報告_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘技術論文開題報告畢業都是需要進行論文的寫作,數據挖掘技術論文的開題報告怎么寫?下面是小編整理的數據挖掘技術論文開題報告,歡迎閱讀!數據挖掘技術綜述數據挖掘(DataMining)是一項較新的數據庫技術,它基于由日常積累的大量數據所構成的數據庫,從中發現潛在的、有價值的信息——稱為知識,用于支持決策。數據挖掘是一項數據庫應用技術,本文首先對數據挖掘進行概述,闡明什么是數據挖掘,數據挖掘的技術是什么,然后介紹數據挖掘的常用技術,數據挖掘的主要過程,如何進行數據挖掘,主要應用領域以及國內外現狀分析。一.研究背景及意義近十幾年來,隨著數據庫系統的廣泛流行以及計算機技術的快速發展,人們利用信息技術生產和搜集數據的能力大幅度提高。千萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等,特別是網絡系統的流行,使得信息爆炸性增長。這一趨勢將持續發展下去。大量信息在給人們帶來方便的同時也帶來了一大堆的問題:第一是信息過量,難以消化;第二是信息真假難以辨認;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。面對這種狀況,一個新的挑戰被提出來:如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?這時出現了新的技術——數據挖掘(DataMining)技術便應用而生了。面對海量的存儲數據,如何從中發現有價值的信息或知識,成為一項非常艱巨的任務。數據挖掘就是為迎合這種要求而產生并迅速發展起來的。數據挖掘研究的目的主要是發現知識、使數據可視化、糾正數據。二.概述1,數據挖掘數據挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本,圖形,圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的,可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以進行數據自身的維護。數據挖掘借助了多年來數理統計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是一個交叉學科領域,可以集成數據數據庫、人工智能、數理統計、可視化、并行計算等技術。 2,數據挖掘技術數據挖掘就是對觀測到的數據集進行分析,目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據。它利用各種分析方法和分析工具在大規模海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策和預測。數據挖掘的過程就是知識發現的過程,其所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。數據挖掘是涉及數據庫、人工智能、數理統計、機械學、人工神經網絡、可視化、并行計算等的交叉學科,是目前國際上數據庫和決策支持領域的最前沿的研究方向之一。3,數據挖掘的功能數據挖掘通過預測未來趨勢及行為,做出預測性的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,按其功能可分為以下幾類。關聯分析(AssociationAnalysis)關聯分析能尋找到數據庫中大量數據的相關聯系,常用的一種技術為關聯規則和序列模式。關聯規則是發現一個事物與其他事物間的相互關聯性或相互依賴性。聚類輸入的數據并無任何類型標記,聚類就是按一定的規則將數據劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。自動預測趨勢和行為數據挖掘自動在大型數據庫中進行分類和預測,尋找預測性信息,自動地提出描述重要數據類的模型或預測未來的數據趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。。概念描述對于數據庫中龐雜的數據,人們期望以簡潔的描述形式來描述匯集的數據集。概念描述就是對某類對象的內涵進行描述并概括出這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。偏差檢測數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。這常用于金融銀行業中檢測欺詐行為,或市場分析中分析特殊消費者的消費習慣。三.目前的研究現狀及存在的主要問題自KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議以來。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了13次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到超過千人論文收錄數量也迅速增加,研究重點也從發現方法逐漸轉向系統應用直到轉向大規模綜合系統的開發,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘和知識發現列為議題之一,成為當前計算機科學界的一大熱點。與國外相比,國內對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學基金首次支持我們對該領域的研究項目。目前,國內的許多科研單位和高等院校競相開展知識發現的基礎理論及其應用研究,這些單位包括清華大學、中科院計算技術研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統工程研究所對模糊方法在知識發現中的應用進行了較深入的研究,北京大學也在開展對數據立方體代數的研究,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數學研究所、吉林大學等單位開展了對關聯規則開采算法的優化和改造;南京大學、四川聯合大學和上海交通大學等單位探討、研究了非結構化數據的知識發現以及 Web數據挖掘。四.研究內容1,數據挖掘的過程數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。數據挖掘的一般過程如下流程圖所示:圖1,數據掘的一般過程神經網絡神經網絡方法是模擬人腦神經元結構, 以MP模型和Hebb學習規則為基礎。它主要有三種神經網絡模型:前饋式網絡、反饋式網絡、自組織網絡。為決策樹決策樹學習著眼于從一組無次序、無規則的事中推理出決策樹表示形式的分類規則。它采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值判斷從該結點向下的分支,在決策樹的葉結點得到結論。遺傳算法遺傳算法是一種優化技術,是模擬生物進化過程的算法。基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法。由三個基本算子組成:繁殖、交叉、變異。傳統統計分析這類技術建立在傳統的數理統計的基礎上。在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表示的確定性關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系),對它們的分析可采用判別分析、因子分析、相關分析、多元回歸分析及偏最小二乘回歸方法等。關聯規則關聯規則是發現一個事物與其他事物間的相互關聯性或相互依賴性。關聯規則是展示屬性:值頻繁地在給定數據集中一起出現的條件,是數據挖掘中作用比較廣泛的知識之一。可視化技術可視化技術是利用計算機圖形學和圖像技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。可視化數據挖掘技術將可視化有機地融合到數據挖掘之中,使用戶對于數據挖掘有一個更加直接直觀清晰的了解,提供讓用戶有效、主動參與數據挖掘過程的方法。3,數據挖掘的應用領域數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計,分析,綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。一般DataMining較長被應用的領域包括金融業、保險業、零售業、直效行銷業、通訊業、制造業以及醫療服務業等。更廣義的說法是:數據挖掘意味著在一些事實或觀察數據的集合中尋找模式的決策支持過程。4,數據挖掘的發展方向目前,數據挖掘的研究方面主要有:數據庫知識發現方面,將知識發現(KDD與數據庫系統、數據倉庫系統和Web數據庫系統緊密結合,力圖充分利用 Web中的豐富資源;機器學習方面,進一步研究知識發現方法,希望克服現存算法的計算性瓶頸,如注重對Bayes(貝葉斯)方法以及Boosting算法的研究和提高;統計領域,加大傳統統計方法在數據挖掘中的應用。數據挖掘研究正蓬勃開展,在今后還會掀起更大的波瀾,其研究焦點集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像 SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Internet上建立數據挖掘服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。5,數據挖掘的新技術Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。這就必須要有一個模型來清晰地描述Web上的數據,而尋找一個半結構化的數據模型是解決問題的關鍵所在。除此之外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性對應起來,實施精確地查詢與模型抽取。利用設計人員不僅能創建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統、數據樹、元數據、超鏈接結構和樣式表。6,數據挖掘面臨的問題和挑戰雖然數據挖掘技術已經在各方面都得到了廣泛的應用,但數據挖掘技術的研究還不夠成熟,在應用上有很大的局限性。正是這些局限性,促使數據挖掘技術進一步的發展:(1)挖掘的對象數據庫更大,維數更高,屬性之間更復雜,數據挖掘處理的數據通常十分巨大。(2)數據丟失問題因大部分數據庫不是為知識發現而定做的,那么它就有可能會存在一些重要的數據和屬性丟失的問題。(3)多種形式的輸入數據目前數據挖掘工具能處理的數據形式有限,一般只能處理數值型的結構化數據。(4)網絡與分布式環境的KDD問題隨網絡的發展,資源的豐富,技術人員各自獨立處理分離數據庫的工作方式應是可協作的。五.研究達到的預期結果系統的介紹數據挖掘技術,使更多的研究人員在數據庫中發現有用的,有潛在價值的數據知識。六.小結通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論