基于神經網絡的數據挖掘研究.ppt_第1頁
基于神經網絡的數據挖掘研究.ppt_第2頁
基于神經網絡的數據挖掘研究.ppt_第3頁
基于神經網絡的數據挖掘研究.ppt_第4頁
基于神經網絡的數據挖掘研究.ppt_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1神經網絡基本概念2前饋神經網絡3反饋網絡模型Hopfield網絡4數據挖掘技術5基于神經網絡的數據挖掘研究,基于神經網絡的數據挖掘研究,1神經網絡基本概念,1.1生物神經元,細胞體、樹突、軸突和突觸。,生物神經元的工作機制,興奮和抑制兩種狀態。,(1)興奮狀態傳遞興奮信號(2)抑制狀態傳遞抑制信息,1.2人工神經元,人工神經元:生物神經元的簡化模擬。,人工神經元間的互連:信息傳遞路徑軸突-突觸-樹突的簡化。,連接的權值:兩個互連的神經元之間相互作用的強弱。,圖8.2人工神經元模型,接收的信息(其它神經元的輸出),互連強度,作比較的閾值,n維輸入向量X,輸出,輸出函數,神經元的動作:,輸出函數f:也稱作用函數,非線性。,閾值型,S型,f為閾值型函數時:,設,點積形式:,式中,,1.3神經網絡的學習,學習:,從環境中獲取知識并改進自身性能,主要指調節網絡參數使網絡達到某種度量,又稱為網絡的訓練。,實質:,神經網絡的最重要特征之一。,神經網絡學習方式-監督學習,監督學習:對每一個輸入訓練樣本,都有一個期望得到的輸出值(也稱教師信號),將它和實際輸出值進行比較,根據兩者之間的差值不斷調整網絡的連接權值,直到差值減少到預定的要求。,教師,神經網絡,比較,環境,實際輸出,輸入,期望輸出,誤差信號,p(n),t(n),a(n),e(n),神經網絡學習方式-無監督、自組織學習,無監督學習:網絡的學習完全是一種自我調整的過程,不存在教師信號。輸入模式進入網絡后,網絡按照預先設定的某種規則反復地自動調整網絡結構和連接權值,使網絡最終具有模式分類等功能。,1.4神經網絡的結構分類,分層結構,有明顯層次,信息流向由輸入層到輸出層。,前饋網絡,沒有明顯層次,任意兩個神經元之間可達,具有輸出單元到隱層單元或輸入單元的反饋連接。,反饋網絡,相互連接結構,2前饋神經網絡,2.1感知器,感知器(Perceptron):FRosenblatt于1957年提出。,感知器結構示意圖,*雙層(輸入層、輸出層);*兩層單元之間為全互連;*連接權值可調。,結構特點:,*輸出層神經元個數等于類別數。,設輸入模式向量,共M類。,輸出層第j個神經元對應第j個模式類,,j:第j個神經元的閾值;,wij:輸入模式第i個分量與輸出層第j個神經元間的連接權。,令。取,有,輸出為,輸出單元對所有輸入數值加權求和,經閾值型輸出函數產生一組輸出模式。,M類問題判決規則(神經元的輸出函數)為,*正確判決的關鍵:,輸出層每個神經元必須有一組合適的權值。,*感知器采用監督學習算法得到權值;,*權值更新方法:學習規則。,算法描述,第一步:設置初始權值wij(1),w(n+1)j(1)為第j個神經元的閾值。,第二步:輸入新的模式向量。,第三步:計算神經元的實際輸出。,設第k次輸入的模式向量為Xk,與第j個神經元相連的權向量為,第j個神經元的實際輸出為,第四步:修正權值。,dj:第j個神經元的期望輸出。,第五步:轉到第二步。,當全部學習樣本都能正確分類時,學習過程結束。,經驗證明,當隨k的增加而減小時,算法一定收斂。,2.2BP網絡,BP網絡:采用BP算法(Back-PropagationTrainingAlgorithm)的多層感知器。,誤差反向傳播算法,認識最清楚、應用最廣泛。,性能優勢:識別、分類,1多層感知器,針對感知器學習算法的局限性:模式類必須線性可分。,輸入層,第一隱層,第二隱層,輸出層,中間層為一層或多層處理單元;,前饋網絡;,結構:,只允許一層連接權可調。,學習過程分為兩個階段:第一階段(正向傳播過程):給出輸入信息通過輸入層經各隱層逐層處理并計算每個單元的實際輸出值第二階段(反向傳播過程):若在輸出層未能得到期望的輸出值,則逐層遞歸地計算實際輸出與期望輸出之間的差值(即誤差),通過梯度下降法來修改權值,使得總誤差函數達到最小。,2BP算法,BP算法的學習過程,設:某層任一神經元j的輸入為netj,輸出為yj;相鄰低一層中任一神經元i的輸出為yi。,wij:神經元i與j之間的連接權;,f():神經元的輸出函數。,S型輸出函數:,j:神經元閾值;h0:修改輸出函數形狀的參數。,設:輸出層中第k個神經元的實際輸出為yk,輸入為netk;與輸出層相鄰的隱層中任一神經元j的輸出為yj。,對輸入模式Xp,若輸出層中第k個神經元的期望輸出為dpk,實際輸出為ypk。輸出層的輸出方差:,若輸入N個模式,網絡的系統均方差為:,當輸入Xp時,wjk的修正增量:,其中,,由式得到:,令,可得,輸出單元的誤差:,輸出單元的修正增量:,對于與輸出層相鄰的隱層中的神經元j和該隱層前低一層中的神經元i:,輸出層中神經元輸出的誤差反向傳播到前面各層,對各層之間的權值進行修正。,BP算法步驟:,第一步:對權值和神經元閾值初始化:(0,1)上分布的隨機數。,第二步:輸入樣本,指定輸出層各神經元的期望輸出值。,第三步:依次計算每層神經元的實際輸出,直到輸出層。,第四步:從輸出層開始修正每個權值,直到第一隱層。,若j是輸出層神經元,則:,若j是隱層神經元,則:,第五步:轉到第二步,循環至權值穩定為止。,初始化,加輸入和期望輸出,計算隱層和輸出層的輸出,迭代次數加1,調節輸出層和隱層的連接權值,改變訓練樣板,訓練樣終止?,迭代終止?,BP算法的基本流程,No,No,y,y,BP算法存在問題:,*存在局部極小值問題;*算法收斂速度慢;*隱層單元數目的選取無一般指導原則;*新加入的學習樣本影響已學完樣本的學習結果。,2.3RBF神經網絡徑向基函數(RBF-RadialBasisFunction)神經網絡是由J.Moody和C.Darken在80年代末提出的一種神經網絡,它是具有單隱層的三層前饋網絡。由于它模擬了人腦中局部調整、相互覆蓋接收域(或稱感受野-ReceptiveField)的神經網絡結構,因此,RBF網絡是一種局部逼近網絡,它能夠以任意精度逼近任意連續函數,特別適合于解決分類問題。,RBF網絡結構RBF網絡的結構與多層前向網絡類似,它是一種三層前向網絡。第一層即輸入層由信號源節點組成;第二層為隱含層,隱單元數視所描述的問題的需要而定,隱單元的變換函數是RBF,它是對稱中心徑向對稱且衰減的非線性函數;第三層為輸出層,它對輸入模式的作用做出響應。由于輸入到輸出的映射是非線性的,而隱含層空間到輸出空間的映射是線性的,從而可以大大加快學習速度并避免局部極小問題。,RBF網絡特點前向網絡;RBF網絡的作用函數為高斯函數,是局部的,BP網絡的作用函數為S函數,是全局的;如何確定RBF網絡隱層節點的中心及基寬度參數是一個困難的問題;RBF網絡具有唯一最佳逼近的特性,且無局部極小。,圖2RBF神經網絡逼近,在RBF網絡結構中,為網絡的輸入向量。設RBF網絡的徑向基向量:其中hj為高斯基函數:式中,表示歐式范數網絡的第j個結點的中心矢量為:其中,i=1,2,n;j=1,2,m。,設網絡的基寬向量為:為節點的基寬度參數,且為大于零的數。網絡的權向量為:k時刻網絡的輸出為:設理想輸出為y(k),則性能指標函數為:,學習算法需要求解的參數徑向基函數的中心方差隱含層到輸出層的權值RBF學習方法分類(按RBF中心選取方法的不同分)隨機選取中心法自組織選取中心法有監督選取中心法正交最小二乘法等,自組織選取中心學習方法(1)第一步、自組織學習階段無導師學習過程,求解隱含層基函數的中心與方差;(2)第二步、有導師學習階段求解隱含層到輸出層之間的權值。,學習算法具體步驟如下:,1基于K-均值聚類方法求解基函數中心(1)網絡初始化:隨機選取個訓練樣本作為聚類中心(2)將輸入的訓練樣本集合按最近鄰規則分組:按照與中心之間的歐式距離將分配到輸入樣本的各個聚類集合中。,(3)重新調整聚類中心:計算各個聚類集合中訓練樣本的平均值,即新的聚類中心,如果新的聚類中心不再發生變化,則所得到的即為RBF神經網絡最終的基函數中心,否則返回(2),進入下一輪的中心求解。,2求解方差該RBF神經網絡的基函數為高斯函數,因此方差可由下式求解:式中所選取中心與其他中心之間的最大距離。,3計算隱含層和輸出層之間的權值隱含層至輸出層之間神經元的連接權值可以用最小二乘法直接計算得到,計算公式如下:,3反饋網絡模型Hopfield網絡,尋找記憶:,3.1Hopfield網絡,網絡由初始狀態向穩定狀態演化的過程。,初始輸出模式向量,單層全互連、權值對稱的神經網絡。,結構:,Hopfield網絡(HNN),離散型HNN(DHNN):M-P模型二值神經元,連續型HNN(CHNN):神經元為連續時間輸出。,設是第s類的記憶樣本。為了存儲M個記憶樣本,神經元i和神經元j之間的權值wij為,若神經元i的輸入為ui,輸出為,則,式中,,說明:,定義網絡的能量函數,由某一神經元的狀態的變化量引起的E變化量為,式中,。,E0,E有界,網絡最終可達到一個不隨時間變化的穩定狀態。,穩定性:如果網絡從t=0的任一初始狀態x(0)開始變化時,存在某一有限時刻t,此后網絡狀態不再變化,則稱網絡是穩定的。,3.2算法步驟:,第一步:給神經元的連接權賦值,即存貯記憶樣本。,第二步:用輸入的未知類別的模式設置網絡的初始狀態。,若表示神經元i在t時刻的輸出狀態,則初始值:,第三步:迭代計算至算法收斂。,第四步:轉到第二步,輸入新模式。,神經元輸出與未知模式匹配最好的記憶樣本。,4數據挖掘技術,4.1數據挖掘的含義:數據挖掘,又稱數據庫中的知識發現,就是從大量數據中獲取有效、新穎、潛在有用、最終可理解的模式的非平凡過程。簡單地說,數據挖掘就是從海量的數據中挖掘出可能有潛在價值的信息的技術。這些知識是是隱含的,事先未知的潛在的有用的信息。,4.2數據挖掘的主要功能:分類:按照對象的屬性、特征,建立不同的組類來描述事物。聚類:識別出分析對象內在的規則,按照這些規則把對象分成若干類。,數據挖掘的主要功能:關聯規則和序列模式:關聯是某種事物發生時其他事物會發生的這樣一種聯系。預測:把握分析對象發展的規律,對未來的趨勢做出預見。偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。,4.3數據挖掘的處理過程:數據挖掘的過程主要分為5個部分:問題的定義數據準備數據整理建立模型評價和解釋,4.4現行的數據挖掘方法:統計方法、關聯發現、聚類分析、分類與回歸和決策樹、聯機分析處理(OLAP)、查詢工具、主管信息系統(EIS)等。這些方法幫助分析包含在數據倉庫中的數據,它們的共同特點是問題驅動的。用戶必須提出許多問題,才能得到包含在復雜關系中的結果,當提不出問題或提出的問題不正確時,將得不到正確的數據。,5基于神經網絡的數據挖掘研究,5.1基于神經網絡的數據挖掘分三個階段,選擇與預處理數據網絡訓練與剪紙規則提取與評估,(1)選擇與預處理數據為構造網絡準備數據,包括訓練數據和測試數據。選擇數據之前首先要觀察和理解數據,選擇一個或幾個合適的樣本數據集。結合挖掘任務、數據的特點和采用的挖掘方法選擇合適的編碼(轉化)方法,(2)網絡訓練與剪紙這個階段需要選擇擬采用的網絡模型,選擇或設計一種網絡訓練算法。訓練后的網絡可能有些臃腫,剪枝就是在不影響網絡準確性的前提下,將網絡中冗余的連接和結點去掉。沒有冗余結點和連接的網絡產生的模式更精練和更易于理解。,(3)規則提取與評估,經過學習和剪枝之后,網絡中蘊含著學習到的規則(知識),但以這種形式存在規則不易理解。規則提取目的就是從網絡中提取規則,并轉換為某種易理解的形式表達出來,如決策樹、模糊邏輯等方法。再利用測試樣本對規則的可靠性進行測試和評估。,5.2適合神經網絡的數據挖掘問題:分類是數據挖掘的一個主要問題。單層感知器的線性可分能力早已證明,但是對于非線性可分問題單層網絡是無能為力的。可通過加入中間層,引入轉換函數,將非分線性可分的問題映射后變為線性可分。一個多層的神經網絡具有非常強的分類能力,并且分類誤差率較低。,聚類是無監督學習過程,它依據數據間的相似度將數據集劃分為不同的簇。目的是概觀數據的全貌,了解數據點的分布情況以及可能存在的問題。,時序預測是依據當前已知的數據來預測將來未知數據的狀態。神經網絡固有的輸人輸出映射特性,特別適合用來建立預測模型。不管是線性問題還是非線性問題,只要輸入輸出間存在連續映射關系,就可以用一個多層神經網絡以任意精度來逼近之。,5.3神經網絡實現的驅動方式驅動數據挖掘的神經網絡實現實際上是以神經網絡為工具的聯機分析處理技術。基于神經網絡的數據挖掘的驅動方式可以分為以下五種。(1)自發知識驅動方式(2)數據驅動方式(3)查詢驅動方式(4)交互式驅動方式(5)專家知識驅動方式,(1)自發知識驅動方式:給定網絡一個數據挖掘規則(關聯、特征、分類、聚類、偏差、判別、時序等規則)或規則組合模式,以在線方式連接知識庫和數據庫,當知識庫中的規則滿足時,驅動網絡進行數據挖掘。(2)數據驅動方式:當數據滿足挖掘規則時,就驅動網絡開始挖掘。(3)查詢驅動方式:給定網絡查詢對象及規則后,進行自動挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論