




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2022年-2023年最新實用標準文案數據挖掘技術綜述隨著計算機、網絡技術的開展,獲得有關資料非常簡單易行。但 對數量大、涉及面寬的數據,傳統統計方法無法完成這類數據的分析。 因此,一種智能化的、綜合應用各種統計分析、數據庫、智能語言來 分析龐大數據資料的“數據挖掘”(Date Mining)技術應運而Th。本 文主要介紹了數據挖掘的基本概念以及數據挖掘的方法;本文對數據 掘的應用及其開展前景也進行了描述。隨著信息技術迅速開展,數據庫的規模不斷擴大,從而產Th 了大 量的數據。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其 行更高層次的分析,以便更好地利用這些數據。為給決策者提供一個統
2、一的全局視角,在許多領域建立了數據倉庫。但大量的數據往往使人們 無法區分隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工 具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處 理大量數據,并從中抽取有價值的潛在知識,數據挖掘(Data Mining)技術由此應運而Th。數據挖掘技術也正是伴隨著數 據倉庫技術的開展而逐步完善起來的數據挖掘是指從數據集合中自動 抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式 為:規那么、概念、規律及模式等。它可幫助決策者分析歷史數據及當前 數據,并從中發現隱藏的關系和模式,進而預測未來可能發Th的行為。 數據挖掘的過程也叫知識發現
3、的過程,它是一門涉及面很廣的交叉性新 興學科,涉及到數據庫、人工智能、數理統計、可視化、并行計算等領 域。數據挖掘是一種新的信息處理技術,其主要特點是精彩文檔2022年-2023年最新實用標準文案查詢優化、完整性約束和不一致檢驗等。4、由于數據、數據挖掘任務和數據挖掘方法的多樣性,給數據 挖掘提出了許多挑戰性的課題。同時,數據挖掘語言的設計,高效而有用的數據挖掘方法 和系統的開發,交互式和集成的數據挖掘環境的建立,以及應用數據挖 掘技術解決大型應用問題,都是目前數據挖掘研究人員、系統和應用開 發人員所面臨的主要問題。現今,數據挖掘的開展趨勢主要是以下幾方面:應用的探索;可伸縮的數據挖掘方法;數
4、據挖掘與數據庫系統、 數據倉庫系統和Web數據庫系統的集成;數據挖掘語言的標準化;可 視化數據挖掘;復雜數據類型挖掘的新方法;Web挖掘;數據挖掘中的 隱私保護與信息平安。目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成 效,但仍存在著許多尚未解決的問題,例如數據的預處理、挖掘算法、 模式識別和解釋、可視化問題等。對于業務過程而言,數據挖掘最關鍵 的問題是如何結合業務數據時空特點,將挖掘出知識表達出來,即時空 知識表達和解釋機制問題。隨著人們對數據挖掘技術的深人研究,數據 挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。精彩文檔2022年-2023年最新實用標準文案對數據
5、庫中的大量數據進行抽取、轉換、分析和其他模型化處理,并從 中提取輔助決策的關鍵性數據。數據挖掘是KDD (Knowledge Discovery in Database)中的重要技術,它并不是用規范的數據 庫查詢語言(如SQL)進行查詢,而是對查詢的內容進行模式的總結 和內在規律的搜索。傳統的查詢和報表處理只是得到事件發Th的結果, 并沒有深入研究發Th的原因,而數據挖掘那么主要了解發Th的原因,并 且以一定的置信度對未來進行預測,用來為決策行為提供有利的支持。數據挖掘的研究融合了多個不同學科領域的技術與成果,使得目 前的數據挖掘方法表現出多種多樣的形式。從統計分析類的角度來說, 統計分析技術
6、中使用的數據挖掘模型有線形分析和非線形分析、回歸 分析、邏輯回歸分析、單變量分析、多變量分析、時間序列分析、最近 序列分析、最近鄰算法和聚類分析等方法。利用這些技術可以檢查那些 異常形式的數據,然后,利用各種統計模型和數學模型解釋這些數據, 解釋隱藏在這些數據背后的市場規律和商業機會。知識發現類數據挖掘 技術是一種與統計分析類數據挖掘技術完全不同的挖掘技 術,包括人工神經元網絡、支持向量機、決策樹、遺傳算法、粗糙集、 規那么發現和關聯順序等。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用 的有貝葉斯推理、回歸分析、方差分析等技術、貝葉斯推理是在知道 新的信息后修正數據集概率分布的基本
7、工具,處理數據挖掘中的分類 問題,回歸分析用來找到一個輸入變量和輸出變量關系的最正確模型,精彩文檔2022年-2023年最新實用標準文案在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系 的線性回歸,還有用來為某些事件發Th的概率建模為預測變量集的對 數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和 自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。關聯規那么是一種簡單,實用的分析規那么,它描述了一個事物中某些 屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。它是 由R. Agrawal等人首先提出的,最經典的關聯規那么的挖掘算法是 Apriori,該算法
8、先挖出所有的頻繁項集,然后,由頻繁項集產Th關 聯規那么,許多關聯規那么頻繁項集的挖掘算法都是由它演變而來的,關 聯規那么在數據挖掘領域應用很廣泛適合于在大型數據集中發現數 據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制, 關聯規那么在數據挖掘領域最典型的應用是購物籃分析。大多數關聯規 那么挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,所挖 掘出的關聯規那么量往往非常巨大,但是,并不是所有通過關聯得到的屬 性之間的關系都有實際應用價值,對這些關聯規那么進行有效的評價,篩 選出用戶真正感興趣的,有意義的關聯規那么尤為重要。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,
9、同組 內的樣本具有較高的相似度,不同組的那么相異,常用的技術有分裂算法, 凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關 系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點 的檢測。有時進行聚類不是為了將對象相聚在一起而是為了更容易地使 某個對象從其他對象中別離出來。聚類分析已被應用于經精彩文檔2022年-2023年最新實用標準文案濟分析、模式識別、圖像處理等多種領域,尤其在商業上,聚類分析 可以幫助市場人員發現顧客群中所存在的不同特征組群。聚類分析的技術關鍵除了算法的選擇之外,就是對樣本的度量標 準的選擇。并非由聚類分析算法得到的類對決策都有效,在運用某一 個算法
10、之前,一般要先對數據的聚類趨勢進行檢驗。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例 從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的 分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每 一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這電腦 應用技術棵樹的根結點開始,測試這個結點指定的屬性,然后按照給 定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖 掘的分類方面。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的 數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式 抽取及趨勢分析,神經網絡既可以表現為指導的學習也可以是
11、無指導 聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,以MP模型和Hebb學習規 那么為基礎,建立三大類多種神經元網絡,具有非線形映射特性、信息的分 布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適 應能力的種種優點。前饋神經元網絡以感知器網絡、BP網絡等為代表,可以用于分類和預測等方面;反應式網絡以Hopfield網絡精彩文檔2022年-2023年最新實用標準文案為代表,用于聯想記憶和優化計算;自組織網絡以ART模型、Kohonon 模型為代表,用于聚類。遺傳算法是一種受Th物進化啟發的學習方法,通過變異和重組當 前己知的最好假設來Th成后續
12、的假設。每一步,通過使用目前適應性最 高的假設的后代替代群體的某個局部,來更新當前群體的一組假設,來 實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖 (選擇)是從一個舊種群(父代)選出Th命力強的個體,產Th新種群 (后代)的過程;交叉重組)選擇兩個不同個體染色體)的局部(基因)進 行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行 變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的 分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集 用于從數據庫中發現分類規那么的基本思想是將數據庫中的屬性分
13、為條 件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成 相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集 之間上下近似關系Th成判定規那么。所有相似對象的集合稱為初等集合, 形成知識的基本成分。任何初等集合的并集稱為精確集,否那么,一個 集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些 既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理 論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結 構聯系。支持向量機(SVM)是在統計學習理論的基礎上開展出來的一種新精彩文檔2022年-2023年最新實用標準文案的機器學習方法。它基于結構風險最
14、小化原那么上的,盡量提高學習機的 泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過 學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網 絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最 優解一定是全局最優解,這些特點都是包括神經元網絡在內的其它算法 所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事 物的探索等方面。除上述方法外,還有把數據與結果轉化和表達成可視化技術、云 模型方法和歸納邏輯程序等方法。事實上,任何一種挖掘工具往往是 根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣, 而是視具體問題而定。對于數據挖掘,我們可以分為
15、三個主要的階段: 數據準備、數據挖掘、結果的評價和表達。其中結果的評價和表達 還可以細分為:評估、解釋模式模型、鞏固、運用知識。數據庫中的知識發現是一個多步驟的處理過程,也是 這三個階段的反復過程,.數據準備KDD的處理對象是大量的數據,這些數據一般存儲在數據庫系統 中,長期積累的結果。但是往往不適合直接在這些數據上面進行知識挖掘,需要做數據 準備工作,一般包括數據的選擇(選擇相關的數據)、凈化(消除噪音、數 據)、推測(推算缺失數據)、轉換(離散值數據與連續值數據之間的相 互轉換,數據值的分組分類,數據項之間的計算組合等)、數據縮精彩文檔2022年-2023年最新實用標準文案減(減少數據量)
16、。這些工作往往在Th成數據倉庫時己經準備妥當。數 據準備是KDD的第一個步驟。數據準備是否做好將影響到數據挖掘的 效率和準確度以及最終模式的有效性。.數據挖掘數據挖掘是KDD最關鍵的步驟,也是技術難點所在。研究KDD的 人員中大局部都在研究數據挖掘技術,采用較多的技術有決策樹、分類、聚 類、粗糙集、關聯規那么、神經網絡、遺傳算法等。數據挖掘根據KDD的目 標,選取相應算法的參數,分析數據,得到可能型號層知識的模式模 型。.結果評價和表達評估、解釋模式模型:上面得到的模式模型,有可能是沒有實際 意義或沒有使用價值的,也有可能是其不能準確反映數據的真實意義, 甚至在某些情況下是與事實相反的,因此需
17、要評估,確定哪些是有效的、 有用的模式。評估可以根據用戶多年的經驗,有些模式也可以直接用數 據來檢驗其準確性。這個步驟還包括把模式以易于理解的方式呈現給用 戶。鞏固知識:用戶理解的、并被認為是符合實際和有價值的模式模 型形成了知識。同時還要注意對知識做一致性檢查,解決與以前得到的 知識相互沖突、矛盾的堤防,使知識得到鞏固。運用知識:發現知識是為了運用,如何使知識能被運用也是KDD 的步驟之一。運用知識有兩種方法:一種是只需要看知識本身所描述 的關系或結果,就可以對決策提供支持;另一種是要求對新的數據運 用知識,由此可能產Th新的問題,而需要對知識做進一步的優化。KDD精彩文檔2022年-202
18、3年最新實用標準文案的過程可能需要屢次的循環反復,每一個步驟一旦與預期目標不符都 要回到前面的步驟,重新調整,重新執行。3、數據挖掘的潛在應用是十分廣泛的:政府管理決策、商業經營、 科學研究和工業企業決策支持等個領域。從科學研究方法學的角度 看,科學研究可分為三類:理論科學、實驗科學和計算科學。計算科 學是現代科學的一個重要標志。計算科學工作者主要和數據打交道, 每天要分析各種大量的實驗或觀測數據。隨著先進的科學數據收集工 具的使用,如觀測衛星、遙感器、DNA分子技術等,數據量非常大, 傳統的數據分析工具無能為力,因此必須有強大的智能型自動數據分析 工具才行。數據挖掘在天文學上有一個非常著名的
19、應用系統:SKI CAT (Sky Image Cataloging and Ana lysis Tool) o它是美國加州理工學院噴 氣推進實驗室(即設計火星探測器漫游者號的實驗室)與天文科學家 合作開發的用于幫助天文學家發現遙遠的類星體的一個工具。KICAT 既是第一個獲得相當成功的數據挖掘應用,也是人工智能技術在天文 學和空間科學上第一批成功應用之一。利用SKICAT,天文學家已發現 了 16個新的極其遙遠的類星體,該項發現能幫助天文工作者更好地 研究類星體的形成以及早期宇宙的結構。數據挖掘在Th物學上的應用主要集中于分子Th物學特別是基因 工程的研究上。基因研究中,有一個著名的國際性研究課題人類 基因組計劃。據報道,1997年3月,科學家宣布已完成第一步計劃: 繪制人類染色體基因圖。然而這僅僅是第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五借款合同范例擔保人樣本
- 公司轉讓協議書范例二零二五年
- 盡職調查法律服務合同二零二五年
- 土地賠償協議書范文
- 架工班組內部承包協議
- 聘用幼師合同
- 財務顧問協議書范例二零二五年
- 廚師長聘用的協議書
- 農田管理中的氣候適應性策略研究試題及答案
- 信息培訓合同樣本
- 靈活運用知識的2024年ESG考試試題及答案
- 國家藥品監督管理局直屬單位招聘考試真題2024
- 受限空間作業施工方案
- 黃金卷(江蘇蘇州專用)-【贏在中考·黃金預測卷】2025年中考數學模擬卷
- (一模)2025年廣州市普通高中畢業班綜合測試(一)政治試卷(含答案)
- 視力防控健康教育
- 太乙課堂游戲最終版
- 大數據分析和可視化平臺使用手冊
- 2025年杭州醫學院考研試題及答案
- 2025年骨科入科考試題及答案
- 2025年山西工程職業學院單招職業傾向性測試題庫含答案
評論
0/150
提交評論