深度學習與信號處理:原理與實踐 課件 第9、10章 深度置信網絡、深度自編碼器_第1頁
深度學習與信號處理:原理與實踐 課件 第9、10章 深度置信網絡、深度自編碼器_第2頁
深度學習與信號處理:原理與實踐 課件 第9、10章 深度置信網絡、深度自編碼器_第3頁
深度學習與信號處理:原理與實踐 課件 第9、10章 深度置信網絡、深度自編碼器_第4頁
深度學習與信號處理:原理與實踐 課件 第9、10章 深度置信網絡、深度自編碼器_第5頁
已閱讀5頁,還剩189頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PPT模板下載:/moban/行業PPT模板:/hangye/節日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

9.1深度置信網絡9.2Gamma深度置信網絡9.3自適應深度信念網絡9.4KPCA深度信念網絡模型9.5全參數動態學習深度信念網絡9.6深度信念網絡優化算法9.7基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙第九章深度置信網絡9.1深度置信網絡以3層隱含層結構的深度置信神經網絡(DBN-DNN)為例,網絡一共由3個受限玻爾茲曼機(RBM)單元堆疊而成。RBM一共有兩層,上層為隱層,下層為顯層。堆疊成DNN時,前一個RBM的輸出層(隱層)作為下一個RBM單元的輸入層(顯層),依次堆疊,便構成了基本的DBN結構,最后再添加一層輸出層,就是最終的DBN-DNN結構。9.1.1常規DBM網絡9.1深度置信網絡圖中是基于RBM構建的DBN和DBM模型。DBN模型通過疊加RBM逐層預訓練時,某層的分布只由上一層決定。

例如,DBN的v層依賴于h1的分布,h1只依賴于h2的分布,也就是說h1的分布不受v的影響;確定了v的分布,h1的分布只由h2來確定。DBM模型為無向圖結構,也就是說,DBM的h1層是由h2層和v層共同決定的,是雙向的。1.DBM網絡結構9.1深度置信網絡從效果來看,DBM結構會比DBN結構具有更好的魯棒性,但其求解的復雜度太大,需要將所有的層一起訓練,不利于應用。從借用RBM逐層預訓練方法看,DBN結構就方便快捷了很多,便于廣泛應用。9.1深度置信網絡1)基于RBM的無監督預訓練利用對比散度算法(ContrastiveDivergenceK,CD-k)進行權值初始化,Hinton發現k取為1時,就可以有不錯的學習效果。2)基于RBM的有監督反向調參有監督的調優訓練時,需要先利用前向傳播算法,從輸入得到一定的輸出值,然后再利用反向傳播算法來更新網絡的權重值和偏置值。2.DBN訓練與反向調優9.1深度置信網絡1.常規稀疏深度信念網絡稀疏深度信念網絡(稀疏DBNs)由多層稀疏RBM模型構成,每一層從上一層的隱單元中捕獲高度相關的關聯。稀疏DBNs模型學習主要分為兩步:第一步:預訓練。根據CD算法逐層訓練每個稀疏RBM模型獲得可見層和隱含層間的連接權值。第二步:微調。在預訓練之后,為了使模型具有更好的特征表示能力,用帶標簽的數據利用共軛梯度法對模型的判別性能作優化調整。9.1.2稀疏深度信念網絡9.1深度置信網絡2.改進稀疏DBNs堆疊多層改進的稀疏RBM模型,構成一種新的稀疏深度信念網絡(sparseDBNs)。在對網絡進行訓練時,采用改進稀疏RBM算法對底層的稀疏RBM模型進行訓練,得到一組參數、和

。用這組參數作為下一層稀疏RBM的輸入進行訓練。一個L層稀疏深度信念網絡的訓練架構如下:步驟1:訓練第一層稀疏RBM并得到的權值矩陣

。步驟2:用上一層的隱含層數據以相同的方法訓練下一層稀疏RBM并固定連接權值

,重復到第L-1層。步驟3:初始化權值,用數據的標簽值作為輸出層。步驟4:用共軛梯度方法對得到的權值9.2Gamma深度置信網絡Gamma深度信念網絡由底層至頂層分別為觀測層,第1層隱含層、…、第L-1層隱含層,第L層頂層。最底層為觀測層,由觀測單元組成,利用Poisson因子分析,可將其表示為連接權重與下一層隱含單元的乘積:9.2.1Gamma深度信念網絡結構式中,為連接權重,為第1層隱含層,表示服從參數的Poisson分布。9.2Gamma深度置信網絡由觀測層至頂層依次為第1,…,l,…L層隱含層,第1,…,l,…,L-1層可表示為式中,為連接權重,為第l層隱含層,為概率參數,滿足9.2Gamma深度置信網絡表示服從形狀參數為,尺度參數為的Gamma分布。其概率密度函數為類似地,第L層可表示為對于頂層,為共享的Gamma分布形狀參數;為尺度參數。9.2Gamma深度置信網絡為限制網絡復雜度、便于參數推斷,對的毎一列基于L1正則化,對于,使式中,表示服從參數為的Dirichlet分布。其概率密度函數為表示Dirichlet分布的歸一化常數9.2Gamma深度置信網絡式中,為的第i列,,服從Gamma分布:對于,有因此,行各隱含單元的關系可由的列向量

表示。式中,表示服從參數為的Beta分布,概率密度函數為9.2Gamma深度置信網絡由于網絡中Gamma分布形狀參數的共軛先驗未知,計算條件后驗推導網絡結構存在困難,因此利用文獻中的數據增強算法簡化計算進行推導,得在的單層網絡中,每層的隱含單元獨立于先驗,的深度網絡可以捕獲隱含單元的關聯性。對,有然后,(時為觀測層,時為隱含層)可由與的乘積在層Poisson概率為上述公式式對成立,時,有9.2Gamma深度置信網絡令表示k層中因子出現在觀察單元n的次數,。然后邊緣化,得由以上Poisson概率中邊緣化Gamma分布,得9.2Gamma深度置信網絡Gibbs采樣難以直接對樣本采樣時,從某一個多分量概率分布中近似抽樣樣本序列的算法。深度信念網絡中,受限玻爾茲曼機使用二維Gibbs采樣近似估計參數,將可見向量的值映射到隱含單元,再基于隱含單元重建可見單元,不斷重復以上步驟進行逐層訓練。

類似地,Gamma信念網絡,可以采用N維Gibbs算法估計隱變量,聯合訓練網絡所有層,在每次迭代中對一層網絡進行采樣,向上采樣服從Dirichlet分布的連接權重,向下采樣服從Gamma分布的隱含單元,將其記作Gibbs向上向下采樣。9.2.2Gibbs向上向下采樣9.2Gamma深度置信網絡對Gamma深度信念網絡中的每一層,迭代采樣如下:對采樣:由式(9.2.17),在所有層中對進行采樣,但對第1層隱含層,可以將觀察單元看作是第n個狀態中第m個特征的序列,將逐個分配給隱含因子,并將與邊緣化,對

,有式中,是的特征標簽,符號表示對應標簽的求和,如,

表示不考慮第n個狀態中特征j的計數序列。為簡化模型,加入截斷步驟,即如果,則限制隱含單元數量為,并令。對采樣:9.2Gamma深度置信網絡對采樣:對采樣,將替換為。對采樣:由式(9.2.13)及Gamma分布與Poisson分布的共軛性,對采樣:對a采樣:對

采樣:先對采樣,即再由式(9.2.17),得式中,9.3自適應深度信念網絡經典動量將以前梯度的衰減和(與衰變常數)累積成動量向量,并用它代替真正的梯度,具有加速梯度下降學習沿著尺寸的優點,其中梯度在訓練步驟中保持相對一致。其更新公式為9.3.1動量更新規則式中,為梯度向量;為目標函數。m為動量向量(初始值為0);為衰變常數;為學習率;k代表更新次數。將式(9.3.1)-式(9.3.3)展開,得可以看到,動量沿著先前的動量向量和當前的梯度方向邁出一步。9.3自適應深度信念網絡Nadam類似于帶有Nesterov動量項的Adam算法。這里給Adam添加Nesterov動量,類似采用前一個動量向量代替以前的動量向量。因此,在Adam算法中更新公式為9.3.2Nadam算法優化DBN式中,、分別為梯度的一階矩估計和二階矩估計,可視為對

和期望的估計;、和為修正參數。9.3自適應深度信念網絡大量實驗表明,測試的機器學習問題參數的良好默認設置為:,

,的作用是防止分母為0。展開得括號內第1項只是前一時間步的動量向量的偏差校正估計值,用代替。添加Nesterov動量,直接應用前瞻動量向量來更新參數,只需將上一個時間步的動量向量的偏差校正估計值替換為當前動量向量的偏差校正估計,所以Nadam更新公式為9.3自適應深度信念網絡傳統的隨機梯度下降保持單一學習率更新所有權重,學習率在訓練過程中并不會改變。而Nadam通過計算梯度的一階矩估計和二階矩估計而為不同的參數設計獨立的自適應性學習率。

可以看出,Nadam對學習率有了更強的約束,同時對梯度的更新也有更直接的影響。一般而言,在使用帶動量的RMSprop或者Adam的地方,大多可以使用Nadam并取得更好的效果。

由于Nadam考慮了目標函數的二階導數信息,相對于傳統的動量方法,多了一個本次梯度相對上次梯度的變化量,這個變化量本質上是目標函數二階導數的近似,從而具有強大的自適應性。9.4KPCA深度信念網絡模型核主成分分析法(kernelprincipalcomponentanalyses,KPCA)能有效減少樣本數據維度、消除數據間的非線性關聯。

將經KPCA分析提取后的數據以及對應的數據類型輸入到DBN網絡模型中,充分學習提取出樣本特征。9.4.1核主成分分析法

1.統計平滑法統計平滑法是建立在數理統計基礎上的一種平滑方法,用該方法可以減少測量的誤差。統計平滑法的定義為式中,為k時刻經平滑法處理后的數據;為k時刻的觀測值。在一組原始數據集中,與其他點存在較大程度差異的點記作為離群點。由于離群點與其他點存在顯著區別,其中可能會包含有重要的信息,所以不對離群點進行平滑處理。9.4KPCA深度信念網絡模型將N個觀測數據按照測量時間先后順序進行排列,構成一個符合正態分布的隨機數據集。樣本的標準方差為根據置信準則,若隨機序列中第個數據落在99.7%的置信區間內,則對數據進行平滑處理;若數據不在內,則該數據為離群點,保留原始數據不變。9.4KPCA深度信念網絡模型2.歸一化處理實際中,不同觀測參數單位不同,為了消除各個參數不同量綱的影響,需要對經平滑法處理后的數據歸一化為式中,為原始測量值;和分別為樣本數據中的最大和最小測量值;為經歸一化處理后的值,的取值范圍為。3.核主成分分析法在復雜多變的實驗環境中,參數觀測值之間會存在著非線性相關性。為消除數據之間的非線性關聯性,降低數據維度,提出KPCA分析法。KPCA方法關鍵在于利用非線性映射函數將有關聯性的數據集映射到高維特征空間中,然后再進行傳統的主成分分析,并用核矩陣替代高維特征空間中內積矩陣。9.4KPCA深度信念網絡模型1)核函數設函數是將有關聯性的低維監測數據映射到高維特征空間中的非線性函數,低維特征空間中的向量經過函數映射后的向量為。若在低維空間中存在函數符合要求,則稱該函數為核函數。如果高維空間中的矩陣

滿足式(9.4.3),即矩陣K中的元素均使用核函數表示,則稱矩陣K為核矩陣。式中,為核函數;為映射到高維空間中的樣本矩陣;N表示樣本個數。9.4KPCA深度信念網絡模型由于不知道函數的具體形式,在對高維特征空間中的數據進行主成分提取時,通過核矩陣來替換高維特征空間中的內積矩陣,只需要對K進行分析。目前主要使用的核函數如下:①線性核函數②高斯核函數③多項式核函數④拉普拉斯核函數9.4KPCA深度信念網絡模型⑤Sigmoid型核函數式中,,和為函數表達式中的參數;為冪指數。(3)核主元計算核主元計算就是把核主成分的提取轉變成計算核矩陣特征值及其特征向量相關的問題。核主成分分析計算流程如下:步驟1:觀測參數進行N次觀測得到的樣本矩陣。通過分析選擇符合要求的核函數,并根據核函數和樣本矩陣求得對應的核矩陣K,即9.4KPCA深度信念網絡模型步驟2:將核主元分析是在假設向量為零均值的前提條件下進行的,由于函數的具體表現形式沒有給出,因此,不能對核矩陣直接進行中心化處理。通過公式中心化矩陣。式中,為維的數值全為1的矩陣,為經過式(9.4.10)處理后的核矩陣。步驟3:求的特征值及相應的特征向量。步驟4:求的核主元向量9.4KPCA深度信念網絡模型步驟5:計算方差貢獻率和累計貢獻率式中,為主元的方差;為主元的方差貢獻率;為個主元累計方差貢獻率。9.4KPCA深度信念網絡模型對觀測的原始數據進行歸一化預處理后,再利用KPCA提取數據主要特征進行降維,再將數據依次輸入第一個RBM的顯層中,利用訓練RBM,通過貪婪逐層學習,逐步地完成所有RBM的學習訓練。9.4.2基于KPCA分析的DBN模型最后在DBN的頂層設置一個神經網絡來完成分類,使用反向傳播算法,結合有標簽的樣本對整體DBN網絡進行參數的微調?;贙PCA分析的深度信念網絡模型,如圖所示。9.5全參數動態學習深度信念網絡對DBN進行訓練的過程主要有兩步:第一,使用無監督學習方法訓練每一層RBM,且每個RBM的輸入為上一個RBM的輸出,即每一層RBM都要單獨訓練,確保特征向量映射到不同的特征空間時,盡可能多的保留特征信息;第二,使用最后一層的BP網絡接收最后一個RBM的輸出,用有監督的方式訓練整個網絡,對其進行微調。對一個典型的由三個RBM堆疊成的DBN結構模型(圖9.1),在無監督前向堆疊RBM學習中,首先在可見層生成一個向量,將輸入數據從可見層傳到隱層。在這個過程中,可見層的輸入會被隨機選擇,用來嘗試重構原始的輸入信號;接著,新得到的可見層神經元激活單元將繼續前向傳遞,來重構隱層神經元激活單元獲得;這些重復后退和前進的步驟就是Gibbs采樣[186183]。整個過程中,權值更新的主要依據就是隱層激活單元與可見輸入信號之間的相關性差別。9.5全參數動態學習深度信念網絡對所有的隱含層單元計算式中,。對所有的隱含層單元計算式中,。對所有的隱含層單元計算式中,。9.5全參數動態學習深度信念網絡參數更新公式為按上述步驟完成迭代更新,并依次訓練下一個RBM,最終得到DBN網絡的最后更新參數。9.5全參數動態學習深度信念網絡無監督前向堆疊RBM學習完成后可以初始化RBM每層的參數,相當于為后續的監督學習提供了輸入數據的先驗知識,然后使用有監督后向微調算法對DBN的權值進行微調,接著利用輸出誤差值進行輸出層與前一層之間的誤差估計。

同理,經過逐層的反向傳播訓練,來獲取其余各層之間的誤差,最后使用批梯度下降法計算并更新各節點權值,直到輸出誤差滿足要求。后向微調是從DBN網絡的最后一層出發的,微調公式為9.5全參數動態學習深度信念網絡DBN的BP算法只需要對權值參數空間進行一個局部的搜索,這樣的權值微調算法克服了傳統BP神經網絡因隨機初始化權值參數而容易陷入局部最小和訓練時間過長的缺點,只需在已知權值空間內進行微調即可,大大縮減了參數尋優的收斂時間。其次,使用CD算法可進行快速訓練,將DBN整體框架簡化為多個RBM結構,這樣避免了直接從整體上訓練DBN的復雜度。采用這種方式進行網絡訓練,再使用傳統反向傳播算法進行網絡微調,大大提升了網絡的建模能力,使模型快速收斂到最優。DBN模型中有兩個過程使用了學習率:RBM前向堆疊和后向微調過程。學習率能夠影響網絡的學習進度,合適的學習速率是保證參數學習到最佳狀態的必要條件。9.5全參數動態學習深度信念網絡DBN模型中參數優化,即權重與偏置的一般更新公式為式中,為迭代次的參數值;為迭代次的參數值,為學習率(步長);為定義在數據集上的損失函數的梯度。根據連接權重和偏置的不同特點和作用,這里給出一種全參數動態學習策略,數學表達式如下:(1)RBM前向堆疊過程中參數的學習策略9.5全參數動態學習深度信念網絡式中,為連接權重下一回合的學習率;為當前回合連接權重的學習率;取1;為一定比例的上一梯度和當前梯度的平方和,為衰減因子,取值為0.9;和分別為迭代第次可見單元和隱含單元偏置的學習率;和分別為迭代第

次可見單元和隱含單元偏置的學習率;使用呈下降趨勢的冪指數函數;為最大迭代次數;q取0.75。(2)后向微調過程中參數的學習策略式中,為后向微調過程中連接權重下一回合的學習率;為當前回合連接權重的學習率9.5全參數動態學習深度信念網絡該學習策略的思想是:對于權重而言,利用當前學習率與最近兩個梯度平方和,自適應調節下一回合的學習率。只使用最近兩個梯度的平方和,減少了歷史梯度的冗長計算;同時學習率隨著迭代次數動態變化,這樣都使模型的收斂速度有所加快。對于偏置而言,從減少計算量的角度出發,為其設置了只與當前學習率有關的冪指數函數,這樣可以加快模型的收斂速度。9.6深度信念網絡優化算法傳統的深度信念網絡(DBN)參數訓練方法存在一定的缺陷,在一定程度上影響了其特征提取能力和收斂速度。首先,網絡參數的隨機初始化使其淺層網絡在學習訓練過程易陷入局部搜索,影響了DBN的特征提取能力。

其次,DBN在提取高維數據的底層特征時,需將高維數據直接作為網絡的輸入,導致網絡參數大幅度增加,從而使網絡訓練的收斂速度變慢。

為克服這些缺點,可使用粒子群優化算法確定DBN的最優結構、網絡連接權值和偏置;也可使用dropout技術訓練DBN結構,在DBN訓練過程中每次隨機去掉一部分隱含層節點,避免了訓練過程中可能出現的過擬合現象,但隨機去掉節點的過程中可能會造成一定的誤差。9.6.1混沌免疫算法優化深度信念網絡9.6深度信念網絡優化算法DBN的優勢在于具有強大的特征提取能力,而其特征提取能力取決于網絡參數。DBN的網絡參數包括超參數和可訓練獲得參數。超參數包括隱含層層數及節點數、學習率和動量等;可訓練獲得參數是指通過網絡學習訓練獲得的DBN連接權值和偏置。人工免疫算法具有搜索能力強、尋優速度快等特點,被廣泛應用于優化神經網絡,以提高網絡的收斂速度和泛化性能。本節介紹一種利用改進的混沌免疫算法進行DBN參數優化的方法。9.6深度信念網絡優化算法1.克隆選擇算法克隆選擇算法(cloneselectionalgorithm,CSA)借鑒了人工免疫系統中抗體克隆選擇的免疫機理,具有全局搜索能力強、尋優速度快等優點,與其它智能算法相比能夠產生更有利于復雜優化問題的最優解。

將CSA應用于復雜優化問題時,待優化問題的解映射為抗體,待優化問題的目標函數映射為親和力,優化解與目標函數的匹配程度映射為抗原和抗體親和力,對具有較高親和力的抗體進行克隆選擇,通過高頻變異和濃度抑制保持抗體多樣性,實現流程如圖所示。9.6深度信念網絡優化算法2.改進的混沌免疫算法基本的CSA算法在抗體變異時由于變異的隨機性、無向性,尋優過程中易陷入局部最優值,影響算法的收斂速度。本節利用自適應變異改善算法的全局搜索能力和局部搜索能力,利用螢火蟲優化變異對抗體種群進行定向搜索,混沌變異進行全局搜索,邊界變異控制種群的搜索范圍。此外,CSA算法的時間復雜度為(T為進化代數,Ab為抗體規模),因此,對于低維解的優化問題,抗體規模小,算法很快收斂;而對于高維參數的優化問題,所需抗體規模異常龐大,算法收斂減慢。這里給出可變選擇算子,抗體選擇規模隨著進化代數逐漸減小,加快算法的尋優速度。9.6深度信念網絡優化算法(1)混沌初始化。引入混沌算法,用于初始化CSA抗體種群。采用Logistic映射的混沌公式,對抗體進行快速搜索,混沌公式為(2)親和力計算??乖涂贵w親和力通過DBN的輸出誤差來衡量,DBN輸出誤差越小,親和力越小,抗原和抗體的匹配程度越高,計算公式為式中,為第n個訓練樣本的網絡實際輸出,為第n個訓練樣本的期望輸出,N為訓練樣本數。9.6深度信念網絡優化算法(3)自適應變異。螢火蟲優化變異、混沌變異和邊界變異的自適應變異在避免整個算法陷入局部最優的同時,能保證抗體向有益的方向進化。

螢火蟲算法將每個個體視為一個具有一定感知能力的螢火蟲,在搜索范圍內根據螢火蟲的熒光亮度和相互吸引度更新螢火蟲位置,熒光亮度弱的螢火蟲會被熒光亮強的螢火蟲所吸引,尋找最優解的過程就是尋找最亮的螢火蟲的過程。

這里在變異過程中引入螢火蟲算法,首先,將每個抗體看作一個螢火蟲,抗原和抗體的親和力看作螢火蟲的熒光亮度,通過各螢火蟲的位置尋優實現抗體的定向變異,其抗體更新公式為9.6深度信念網絡優化算法式中,和分別為第i個抗體在第k+1代和第k代的位置,ζ為的隨機數,為上服從正態分布的隨機因子,為最大吸引度,為吸收系數,為抗體i與抗體j之間的距離。在螢火蟲優化變異過程中,增加局部搜索計數器

,提出新的抗體更新機制如下:

計算每次迭代得到的抗體親和力與原抗體親和力差值,若大于設定閾值,則更新當前抗體,否則,局部搜索計數器

。當連續幾代抗體都沒有改變或改變很小,局部搜索計數器達到一定值,說明算法陷入了局部搜索,此時采用混沌變異,快速跳出局部最優。同時,為了避免尋優過程中抗體偏離搜索范圍,引入邊界變異,當抗體越過邊界時,進行邊界變異,抗體更新公式為式中,為搜索范圍最大值,為搜索范圍最小值,c=0.01。9.6深度信念網絡優化算法改進的自適應變異算法如下:算法9.1://自適應變異算法輸入:初始抗體種群N0,抗體種群大小M,最大吸引度,吸收系數,抗體搜索范圍x,局部搜索閾值和臨界值。輸出:變異后抗體種群T9.6深度信念網絡優化算法9.6深度信念網絡優化算法(4)可變選擇算子采用自適應變異時,抗體尋優范圍會不斷向最優抗體縮進,此時繼續保留固定值選擇抗體,不僅對尋優無益,而且會減慢算法的收斂速度。

現對選擇算子進行改進,將固定值改為可變值,進化初期選擇算子較大,抗體被選擇規模大,隨著進化逐漸達到收斂,選擇算子變小,抗體被選擇規模小。這樣做的好處是,降低了算法的時間復雜度,加快了算法的尋優速度。選擇算子的調整公式如下式中,k和分別為當前進化代數和最大進化代數,為初始選擇規模。9.6深度信念網絡優化算法3.改進的混沌免疫算法優化DBN參數在傳統的DBN訓練方法基礎上,加入改進的混沌免疫算法優化DBN參數。利用改進的混沌免疫算法先對預訓練得到的DBN參數進行全局優化,然后再進行傳統的BP算法局部微調獲得最優參數。

改進混沌免疫算法的主體框架為克隆選擇算法,首先,將預訓練得到的DBN連接權值和偏置作為抗體,并利用混沌公式初始化抗體種群。然后,每個抗體作為網絡參數確定一個唯一的DBN,得到其輸出響應值,進而計算各抗體親和力。根據各抗體的親和力,對抗體進行不同程度的克隆變異,不斷得到新的抗體種群。最后,根據最優抗體更新DBN參數。改進的混沌免疫算法優化DBN參數算法如下:9.6深度信念網絡優化算法算法9.2://改進的混沌免疫算法優化DBN參數算法輸入:DBN連接權值和偏置,訓練數據x,訓練期望輸出y,改進的混沌免疫算法參數k輸出:DBN全局最優參數9.6深度信念網絡優化算法9.6深度信念網絡優化算法9.6深度信念網絡優化算法深度置信網絡(DBN)網絡結構、隱含層數量以及學習速率等,都會對DBN的分類結果產生很大的影響。目前,DBN大多是憑借經驗或者通過耗費大量時間多次調參來確定網絡結構。基于此,本節給出一種基于粒子群優化(ParticleSwarmOptimization,PSO)的DBN算法。

該模型利用PSO對DBN的幾個重要參數進行學習訓練,然后將訓練得到的最優參數賦給DBN網絡,利用最優結構的DBN網絡對數據進行特征提取。該模型采用自適應時刻估計法(Adam)對所有連接權值進行有效的微調,進一步提高了DBN的分類精度。基于優化DBN算法主要包括兩部分:①DBN網絡初始化;②PSO優化DBN網絡結構。9.6.2粒子群算法優化深度置信網絡9.6深度信念網絡優化算法1.DBN網絡初始化DBN是由多個RBM堆疊而成,DBN的訓練過程就是通過每一個RBM的依次順序訓練完成,可以分為兩個階段:第一階段為前向堆疊RBM學習過程;第二階段為DBN的后向微調學習過程。第一階段學習過程每次只考慮單一RBM層進行無監督的訓練,而第二階段有監督的自適應時刻估計法(AdaptiveMomentEstimation,Adam)對參數的微調卻同時考慮了所有的層。為了使RBM結構下的概率分布盡可能的與訓練樣本一致,文獻給出一種進行參數微調來最大化RBM訓練過程當中產生的對數似然函數的方法,從而獲得合適的參數θ。在不失一般性的情況下,可見層的概率為9.6深度信念網絡優化算法式中,θ可以根據求最大似然函數最大值得到合適的值,損失函數及其梯度為式中,代表偏導數在分布下的期望值。不容易求取,只能通過一些采樣方法來得到其近似值。正向是樣本數據可見狀態的期望,而反相由于配分函數的線性無法計算。此時通常會采用Gibbs抽樣來估計負相位。9.6深度信念網絡優化算法綜上,RBM訓練可以歸結如下:首先將訓練數據提供給可見層神經元,然后由求得隱含層當中某個單元被激活的概率。再次重復這個過程來更新可見層的神經元,然后隱含層神經元會進一步“重構”和的狀態。隨著數據的聯合似然函數的梯度變化,對可見層和隱含層之間的權重的更新規則為式中,表示訓練數據的期望;表示重構后模型分布下數據期望;η表示學習率,。學習率較大時,算法收斂較快,但有可能引起算法的不穩定;學習率較小時,可避免不穩定情況,但收斂變慢,影響計算時間。9.6深度信念網絡優化算法為解決這一問題,一般采用小批量梯度下降(MinBatchGradientDescent,MSGD)方法進行參數更新。這種算法將本輪訓練過程和上輪訓練中的參數關聯起來,該算法能夠帶來很好的訓練速度,一定程度上解決了收斂不穩定的問題,但容易收斂到局部極小值,并且有可能被困在鞍點。因此,文獻采用Adam方法進行參數更新。Adam的優點主要在于經過偏置校正后,每一次迭代學習率都有個確定范圍,使得參數比較平穩。算法公式為(9.3.5)-(9.3.9)。9.6深度信念網絡優化算法2.PSO訓練DBN網絡結構大量研究表明,包含多層隱含層的DBN網絡比只有一層的要好很多;深度神經網絡模型隨著隱含層數的增加,分類錯誤率會下降,但當隱含層數增加至四層及以上時,模型的分類錯誤率會上升而且泛化性能下降。粒子群優化算法(ParticleSwarmOptimization,PSO)是一種基于種群的隨機優化算法。在PSO算法中,每個優化問題的解都是搜索空間中的一個粒子。所有的粒子都有一個被優化的函數決定的適應度值,每個粒子還有一個速度V決定它們飛行的方向和距離。PSO初始化一群粒子,然后根據粒子群中當前的最優粒子在解空間中搜索最優解。每次迭代中,粒子都是通過追蹤兩個“極值”來更新自己,一個是粒子自身找到的最優解,稱為個體極值(pbest);另一個極值是整個群體找到的最優解,稱為全局極值(gbest)。PSO算法需要調節的參數少,且簡單易于實現,適合在動態、多目標優化環境中尋優,與傳統算法相比具有更快的計算速度和更好的全局搜索能力。9.6深度信念網絡優化算法對一個3層隱含層DBN,每層分別有、和個神經元,學習率。對粒子群進行編碼時,設定PSO中的每一個粒子為一個四維向量。粒子種群數量為N,N一般取10~20。PSO的最大迭代次數為。9.6深度信念網絡優化算法步驟1:數據預處理對采集信號進行預處理。為了保證原始數據相對不變形,采用進行歸一化。如果采集的原始信號為高維信號,直接進行訓練的時間和收斂性都受到很大的影響,所以需要進行降維。在預處理時,需用主成分分析法(PCA)進行降維處理。步驟2:劃分數據集將PCA降維后的數據集D劃分為兩個互斥的集合,其中一個集合作為訓練集,另一個作為測試集。在訓練集上訓練出模型后,用測試集來評估其測試誤差,作為泛化誤差的估計。步驟3:初始化粒子群根據DBNs網絡的參數(連接權值和隱藏節點值)生成粒子群,并初始化這些粒子的位置和速度,即初始化粒子的位置、速度。9.6深度信念網絡優化算法步驟4:適應度值計算根據初始化的粒子位置和速度,得到DBNs網絡的輸出響應值后,按適應度函數計算粒子群的適應度值。式中,N為訓練樣本,M為輸出神經元個數,和分別表示第i個樣本的第j個分量的輸出值和期望輸出值。步驟5:更新粒子的速度和位置根據步驟4計算得到粒子群的適應度值,找到本輪粒子群最優的粒子和搜索歷史上的最優粒子。粒子的速度和位置的更新公式為9.6深度信念網絡優化算法式中,ω表示慣性權重,取值介于[0,1],一般取ω=0.9;表示加速參數,一般限定相等且取值范圍為[0,4],Shi和Eberhart經過多次試驗,建議為了平衡隨機因素的作用,設置

最好;是兩個在[0,1]范圍變化的隨機值。步驟6:如果訓練樣本的誤分類率滿足設定條件或者迭代次數等于M,則PSO優化結束,否則轉到步驟4,k=k+1,重復執行步驟5和步驟6,直到滿足判別條件。步驟7:利用訓練好的DBN網絡訓練測試數據,輸出信號分類結果。9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙1.深度置信網絡DBN實際上是由幾個受限玻爾茲曼機(RBMs)自底向上連接在一起的網絡。RBM是一種生成式隨機人工神經網絡,它可以學習其輸入集合上的概率分布。RBM是一種玻爾茲曼機,其約束條件是神經元必須形成二分圖,兩組神經元分別構成“可見”和“隱藏”層,并且一組內的節點之間沒有任何連接。為了提高訓練效率,采用了基于梯度的對比發散算法。RBM網絡結構,如圖所示。與傳統網絡相比,神經元的可見層與隱含層之間的連接具有更高的可靠性。9.7.1基于貪婪方法的深度置信網絡和分別表示輸入向量和輸出向量。DBN由一堆RBM組成,如圖所示。圖中解釋了網絡的訓練階段。9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙用于生成輸出的RBM的概率分布為和分別稱為標準化因子和能量函數,且9.6深度信念網絡優化算法式中,函數定義為式中,和是可見和不可見的閾值變量;和是可見的和隱藏的變量,矩陣為節點間連接的權重。根據log梯度計算RBM網絡權值的更新準則為式中,為訓練樣本的期望值,為模型的期望值。9.6深度信念網絡優化算法2.一種貪婪訓練算法為了用RBMs建立一個深層次模型,現用貪婪算法來訓練一個多層的深網絡。首先,學習一個RBM作為DBN的第一層,權值矩陣為。然后,初始化第二層的權重()以確保DBN的兩個隱含層至少與RBM相等。通過生成第一層輸出,可以通過修改權重矩陣來改進DBN,也可以用第二個RBM得到的向量來學習RBM的第三層。通過初始化,它保證了對數似然函數的下限得到改善。在迭代過程中,建立的深度層次模型實施步驟,如下所示。算法9.1步驟:步驟1:確定第一隱藏層的參數,從而確定CD訓練算法。步驟2:固定參數并使用作為輸入向量,以訓練下一層的特征。步驟3:固定參數,該參數定義屬性的第二層,并使用來自

的第個樣本作為第三層訓練特征的數據。9.6深度信念網絡優化算法在最后一層,為了計算輸入的概率分布,使用了softmax層。softmax函數為式中,為神經元j的可能值,是進入每個神經元的值。9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙1.數據集訓練和測試數據集由ADHD-200全球競賽提供。紐約大學的訓練數據集包括222個訓練樣本和41個測試樣本。NeuroImage數據集包含48個訓練樣本和25個測試樣本。參與研究的受試者年齡在7歲至21歲之間。深度置信網絡所用特征,如表所示。采用功能磁共振成像(fMRI)成像獲得所需數據。9.7.2基于貪婪方法的深度置信網絡說明特征病人的性別Gender病人喜歡用一只手而不是另一只手Handedness在不同的狀態下的個人智商IQmeasure患者服藥后出現的狀態medicationstatus控制個體的行為和狀態qualitycontrol從FMRI圖像中獲得的特征FMRIFeatures個體的注意力不集中程度Inattentive個體的過度活躍程度Hyper/Impulsive口語或口語智商VerbalIQ表現功能的智商PerformanceIQ服藥后出現的抑郁狀態medstatus9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙第一次對人們休息時(最不活躍時)的行為和情緒進行質量控制QC_Rest_1第二次對人們休息時(最不活躍時)的行為和情緒進行質量控制QC_Rest_2第三次對人們休息時(最不活躍時)的行為和情緒進行質量控制QC_Rest_3第四次對人們休息時(最不活躍時)的行為和情緒進行質量控制QC_Rest_4首次對解剖狀態的質量控制QC_Anatomical_1二次解剖狀態的質量控制QC_Anatomical_29.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙2.文獻的方法與其他方法的比較利用貪婪訓練算法對訓練數據進行學習,并對測試數據進行評估。在NYU和NeuronImage的標準數據集上,分別對文獻的方法進行了評價。文獻的方法是一種二元分類任務,其中陽性分類包括ADHD患者,陰性分類包括非ADHD患者。

評價結果,如表所示。在典型的分類問題中,有許多方法可以用于對數據集進行過采樣。最常見的技術被稱為SMOTE。需要注意的是,在數據集上應用SMOTE方法來緩解不平衡后,數據集變得均衡。數據集精度召回率F值(=0.5)PositiveNegativePositiveNegativePositiveNegativeNYU72%42%75%38%74%40%NeuroImage64%73%75%62%69%67%9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙表9.3顯示了文獻[205202]的方法和ADHD-200全球競賽引入的最佳方法以及SVM、RBF、RBF-SVM和決策樹算法的結果(Brown等人,2012年)。

準確率NYU數據集NeuroImage數據集提出的方法63.6869.83ADHD-20035.1959.96RBFSVM64.264.2RBF51.948.2SVM55.161.2決策樹51.954.1表9.3表明,與NYU和NeuroImage數據集相比,文獻[205202]的方法分別提高了+12.04和27.81%。采用深度學習方法提取高效特征以及使用Softmax分類器是該方法相對于其他方法的優勢。9.7實例10:基于貪婪方法的深度置信網絡診斷注意缺陷多動障礙

綜上,注意缺陷多動障礙(ADHD)已成為最常見的疾病之一,其早期診斷具有重要意義。文獻[205202]提出了一種基于深度置信網絡的方法,利用貪婪算法對網絡結構進行構造和訓練。在兩個標準數據集上進行的實驗結果表明,該方法比現有的方法具有明顯的優勢。PPT模板下載:/moban/行業PPT模板:/hangye/節日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

10.1自編碼器10.2稀疏性自適應編碼器10.3變分自編碼器10.4自編碼回聲狀態網絡10.5深度典型相關稀疏自編碼器10.6條件雙重對抗自編碼網絡10.7自編碼應用模型第十章深度自編碼器10.8改進LDA和自編碼器的調制識別算法7410.1自編碼器7410.1.1自編碼原理1.編碼-解碼圖中,輸入經編碼器,得到編碼結果為編碼經解碼器解碼或稱重構為7510.1自編碼器75重構的與輸入的接近程度,可以用損失函數來衡量。損失函數記為,用于測量重建的好壞,目標是最小化的期望值。可以有多種多樣的定義,其中均方誤差是最常見的一種形式,即圖10.2顯示了重構存在的誤差error。7610.1自編碼器76編碼器將高維原始輸入特征量映射到一個低維隱藏空間向量z(M維),解碼器再將z映射到一個N維輸出層,從而實現了對原始輸入特征量的復現。圖10.3也對應于由輸入層、映射層(編碼層)、瓶頸層、解映射層(解碼層)和輸出層構成的自編碼網絡,如圖10.4所示。2.自編碼器自編碼器是深度學習中的一種無監督學習模型,先通過編碼器將高維特征映射到低維度的隱藏表示,再通過解碼器將輸入特征量復現,如圖10.3所示。7710.1自編碼器77圖(a)為5層結構,圖(b)簡化為3層結構。假設輸入層的輸入向量、編碼層的編碼函數、輸出層,解碼層的解碼函數,N是輸入樣本和輸出樣本的維度,是隱含層的維度。隱含層與輸入層之間的映射關系為(a)五層結構(b)三層結構7810.1自編碼器78式中,為線性或非線性的激勵函數,是權值矩陣,

是隱含層的偏置向量。同理,隱含層到輸出層也可以由一個函數g映射得到,關系為式中,為激勵函數,是權值矩陣,是輸出層的偏置向量。AE的基本思想為:從網絡的輸入層到輸出層,學習一個函數使。激勵函數均選取sigmoid函數,其形式為7910.1自編碼器79由于的值域在0到1之間,所以需要對數據進行歸一化自動編碼器的參數包括網絡權值和偏置向量,即

,可以通過最小化損失函數進行求解。假設訓練樣本為,N為樣本個數,,則損失函數為8010.1自編碼器80基于以上假設,反向傳播算法的步驟如下:

步驟1:計算前向傳播各層神經元的激活值,即步驟2:計算第層(輸出層)第個輸出神經元的梯度差,即步驟3:計算第層(隱含層)第個輸出神經元的梯度差,即8110.1自編碼器81式中步驟4:計算最終網絡中的偏導數8210.2稀疏性自適應編碼器82自編碼器要求輸出盡可能等于輸入,并且它的隱藏層必須滿足一定的稀疏性,即隱藏層不能攜帶太多信息。所以隱藏層對輸入進行了壓縮,并在輸出層中解壓縮。整個過程肯定會丟失信息,但訓練能夠使丟失的信息盡量少。稀疏自編碼網絡就是在自編碼網絡基礎上,對隱含層增加稀疏性限制,并且可以將多個自編碼網絡進行堆疊[207204-208205]。

圖10.5為堆疊兩個自編碼網絡的稀疏自編碼網絡,第一個自編碼網絡訓練好后,取其隱含層作為下一個自編碼網絡的輸入與期望輸出。如此反復堆疊,直至達到預定網絡層數。最后進入網絡微調過程,將輸入層、第一層隱含層、第二層隱含層以及之后所有的隱層整合為一個新的神經網絡,最后連接一個數據分類器,利用全部帶標數據有監督地重新調整網絡的參數。8310.2稀疏性自適應編碼器83由于網絡常用的激活函數為sigmoid函數,其輸出范圍是0到1,所以使第個隱含層第j個神經元對第個隱含層所有神經元激活平均值,即8410.2稀疏性自適應編碼器84總接近一個比較小的實數,即,表示稀疏度目標,就可保證網絡隱含層的稀疏性。為使兩值盡量接近,引入Kullback-Liebler散度(KL散度)。KL散度定義為式中,表示隱含層節點的數量。稀疏自編碼器(SparseAutoencoder,SAE)的總代價函數表示為式中,表示稀疏性懲罰項。通過最小化成本函數,可以獲得最優參數。因為代價函數多了一項,所以梯度的表達式也有變化。8510.2稀疏性自適應編碼器85為了方例起見,對稀疏性懲罰項只計算第1層參數參,令所以8610.2稀疏性自適應編碼器86所以相當于變成8710.3變分自編碼器8710.3.1變分自編碼理論變分自動編碼器(VariationalAutocoder,VAE)[是自編碼器的一種,VAE能將高維原始特征量提取成低維的高階特征量而盡可能多地保留原本的信息。與一般的自編碼器不同,VAE基于變分貝葉斯推斷,通過尋找高階隱藏變量所滿足的高斯分布使映射得到的高階特征,具有更強的魯棒性,有利于增強分類器的泛化能力、減少噪聲來帶的干擾。

變分自編碼器通常由3層神經網絡組成,包括輸入層、隱含層和輸出層。通過對輸入(D為樣本維數,N為樣本數)進行編碼得到隱含層輸出(為隱含層空間維數),再通過解碼將隱含層輸出重構回樣本原始空間維度,得到重構樣本。自編碼器的訓練是使輸出不斷地逼近輸入,進而獲得能表征輸入樣本特性的隱含層特征。8810.3變分自編碼器88VAE作為一類生成模型,基本結構如圖10.6所示。VAE利用隱變量表征原始數據集的分布,通過優化生成參數;利用隱變量生成數據,使與原始數據高概率的相似,即最大化邊緣分布式中,表示由隱變量重構原始數據;表示隱變量的先驗分布,這里采用高斯分布。由于沒有標簽與對應,會導致利用生成的樣本不能與原始樣本相對應。因此,采用表示由原始數據通過學習得到隱變量,從而建立與的關系。8910.3變分自編碼器89由于真實的后驗分布很難計算,故采用服從高斯分布的近似后驗代替真實后驗,兩個分布的Kullback-Leibler散度為

將式(10.3.2)進行變換,得9010.3變分自編碼器90由于KL散度非負,令式(10.3.3)右側等于,得。是需要最大化的對數似然函數,而又希望近似后驗分布接近真實后驗分布,使接近于0,這里稱為的變分下界。為優化和,可由似然函數的變分下界定義VAE的損失函數,即

式中,表示正則化項;表示重構誤差。與自編碼器類似,可表示為一個變分參數為的編碼器,可表示為一個生成參數為的解碼器。9110.3變分自編碼器91通過假設服從,服從的高斯分布,計算式(10.3.4)的右側第1項

計算式(10.3.4)的右側第2項,有式中,表示對采樣的次數,一般=1。由于采樣過程不可導,為避免無法直接對z進行求導,而不能通過梯度下降更新網絡參數,利用重參數化技巧,對隨機變量進行重參數化,令9210.3變分自編碼器92式中,為對N維獨立標準高斯分布的一次隨機采樣值,表示元素積,為均值、為方差。為計算式(10.3.6),一般選擇伯努利分布或者高斯分布。如果則有網絡的輸入信號,為非二值型數據,這里的分布選擇高斯分布,有

由此即可計算式(10.3.8),有由式(10.3.5)和式(10.8.8)計算,即可得VAE的損失函數。9310.3變分自編碼器根據式(10.3.7)~式(10.3.9),N維標準差向量;N維數學期望向量。這時,圖10.6可以改畫為圖10.7。

9410.3變分自編碼器VAE模型訓練的目標是最小化重構誤差和使盡可能地接近標準多元高斯分布。VAE的損失函數為

式中,為原始第i輸入特征量;為復現的第i維原始輸入特征量。損失函數由2部分組成:(1)交叉熵損失函數,用來度量復現特征與原始輸入特征之間的差異程度;(2)為相對熵損失函數,即KL(Kullback-Leibler)度,用來度量標準多元高斯分布之間的差異程度。9510.3變分自編碼器9510.3.2堆疊變分自動編碼器1.堆疊變分自動編碼器結構堆疊變分自動編碼器(stackedVariationalAutoencoder,SVAE)是將多個VAE堆疊構成的深層網絡結構,SVAE逐層降低輸入特征的維度,提取高階特征。整個模型的訓練過程分為無監督的預訓練和有監督的微調二個階段。評估模型的結構,如圖10.8所示[210207]。圖中,輸入層中的圓點表示神經元為第k個VAE提取的高階特征值。9610.3變分自編碼器預訓練階段,模型從最底層的VAE開始訓練,當充分完成對本層特征的學習之后,本層VAE輸出的高階特征將作為上一層VAE的輸入,繼續對上一層VAE進行訓練,直至所有VAE都得到了充分的訓練。SVAE通過學習特征的分布情況,在訓練時加入高斯噪聲,泛化能力強、提取的高階特征具有抗噪聲能力。與單個VAE直接提取特征相比,SVAE由于其深層的網絡結構,對于高維的非線性系統擁有更好的擬合能力,更適合復雜的分類任務。經過SVAE提取后的高階特征輸入Logistic分類器,使用反向傳播算法對整個網絡的參數進行有監督的微調,根據公式得到模型的最優參數。

式中,函數為使函數取最小值時的取值;為模型參數矩陣;為訓練樣本的期望標簽值;為訓練樣本的預測標簽值。9710.3變分自編碼器2.L2正則化為了提高判別模型的泛化能力,引入L2正則化。加入L2正則化后的損失函數為式中,為原始的目標函數;為神經元的權重值參數;為所有神經元的權重值集合;為懲罰系數。L2正則化通過在損失函數中加入L2正則化項,使判別模型在訓練時傾向于使用較小的權重值參數,一定程度上減小模型的過擬合,增強泛化能力。9810.3變分自編碼器9810.3.3深度卷積變分自編碼器1.深度卷積變分自編碼器結構卷積神經網絡(CNN)通常由輸入層、卷積層、池化層、激活函數、全連接層和輸出層組成。

卷積層由多個特征面構成,每個特征面由多個神經元組成,當前層神經元的輸入是通過卷積核與上一層特征面的局部區域相連,利用連接權值和偏置進行卷積操作,并采用激活函數激活得到當前層神經元的輸入值;連接權值的大小由卷積核的大小決定。池化層一般在卷積層之后,類似于下采樣操作,起到二次特征提取的作用。全連接層中的每個神經元與上一層中的所有神經元進行全連接,可以整合卷積層或者池化層中具有類別區分性的局部信息。9910.3變分自編碼器99VAE中的神經網絡與多層感知器(Multi-layerperceptron,MLP)類似,采用的是全連接方式,文獻[211208]采用卷積神經網絡構造VAE,以減小網絡復雜度,得到深度卷積變分自編碼器(DeepconvolutionalvariationalAutoencoder,DCVAE),如圖所示。10010.3變分自編碼器100DCVAE模型由兩部分組成,虛線框內是VAE的編碼和解碼過程,虛線框外是一個多層卷積神經網絡。通過VAE的無監督學習和卷積神經網絡的有監督學習完成DCVAE模型的訓練。

在VAE編碼階段,輸入層后連接第1個卷積層Convl,16@64×1表示16個特征面,64×1表示卷積核的大小為(64,1),Stride為(2,1),也即在特征面的縱向上滑動步長為2、橫向上為1不進行滑動;將卷積層Conv1的輸出進行BN歸一化,并作為池化層的輸入,用ReLU函數作激活函數,其中,批量歸一化是對某一層的輸入的小批量樣本數據進行歸一化處理,以減小每次輸入數據分布的變化,有利于網絡參數的訓練,使網絡快速收斂,也能提高網絡的泛化能力。10110.3變分自編碼器101池化操作選擇最大池化(Maxpooling),步長為2;將第1個池化層的輸出進行Dropout操作,起到加入噪聲的作用,并將其作為第2個卷積層Conv2的輸入,同樣再進行BN歸一化和最大池化處理,通過一個200個神經元的全連接層,輸出隱含層的均值和方差的對數,利用重參數化采樣得到隱含層的特征;由于VAE是無監督學習,需要利用解碼過程重構輸入數據完成訓練,解碼過程是編碼過程的反向操作,用反卷積替換卷積操作。10210.3變分自編碼器102完成對VAE的訓練后,得到隱含變量,并將作為卷積神經網絡中卷積層Conv3的輸入。卷積層Conv3有32個特征面,卷積核大小為(4,1),Stride步長為1;將Conv3的輸出進行BN歸一化,再采用最大池化處理,并進入Dropout操作;Conv4有64個特征面,卷積核大小為(4,1),Stride步長為1;將Conv4的輸出進行BN歸一化,采用最大池化處理;池化層后連接一個100個神經元的全連接層,并輸入到Softmax分類器。

利用交叉熵構建多層卷積神經網絡訓練模型的損失函數,通過反向微調更新網絡參數。多次訓練后,完成對DCVAE網絡的優化學習。10310.3變分自編碼器103本節采用式(10.3.14)所示的變化的Dropout,其中,p值逐步減小,并且p值取較大值的次數大于取較小值的次數。當值取較大值,用于學習數據的細節特征;當值取較小值,用于學習數據魯棒的判別性特征,降低模型對微小擾動的敏感性。如圖10.18所示,在DCVAE中,在VAE訓練階段和多層卷積神經網絡訓練階段的第1個Maxpooling層后均使用了Dropout。式中,為網絡迭代訓練的次數;為第次迭代訓練;為第次訓練超參數的取值。10410.3變分自編碼器1043.學習率更新學習率是一個重要的超參數,控制著神經網絡反向傳播權重更新的速度。學習率越大,沿著梯度下降的速度越快,網絡訓練可能會錯過局部最優解;學習率越小,權重更新速度越慢,錯過局部最優解的概率越小,但網絡達到收斂所需要的時間相對更長。

為加快網絡收斂,在訓練開始時,學習率取較大值;在接近最大訓練次數時,學習率可取較小值。現采用利用隨機梯度下降法(stochasticgradientdescent,SGD)更新網絡參數,學習率的取值為式中,為網絡迭代訓練的次數;為第次迭代訓練;為第次迭代訓練。10510.4自編碼回聲狀態網絡105回聲狀態網絡是一種具有新型結構的遞歸神經網絡,其結構中特殊之處在于具有一個動態神經元儲備池(dynamicneuronsreservoir,DNR)。儲備池由很多的神經元組成,具有時序記憶功能。儲備池中的節點是隨機大規模產生并采用稀疏連接(1%~5%連接),采用廣義逆方法求取輸出權重,可以獲得全局最優解,學習速度快。然而,回聲狀態網絡在處理高維、復雜過程數據時,儲備池需要配置大量的節點。樣本數據經儲備池大量節點映射之后復雜度增大、維數升高,使網絡的計算量變大,進一步影響回聲狀態網絡的精度。

另一方面,求解回聲狀態網絡輸出權值采用廣義逆或者最小二乘法,這在處理高維數據尤其是存在共線性的數據時,求解的輸出權值不準確。經過儲備池大量節點的映射,儲備池輸出矩陣很容易存在共線性,從而影響輸出權值的求解,降低回聲狀態網絡模型的精度。10610.4自編碼回聲狀態網絡106為了解決該問題,對儲備池的輸出做降維處理。其中,自編碼神經網絡就是一種有效的非線性特征提取方法。自編碼神經網絡與自聯想神經網絡模型具有相似的結構和功能,都具有鏡像結構,輸入與輸出相同、中間層節點數目少于輸入輸出維度,因此,通過隱含層節點的映射可實現對輸入數據的壓縮。

自編碼神經網絡中間瓶頸層在壓縮數據的同時能夠除去數據的噪聲,使得通過自編碼神經網絡提取的特征既能實現降維又能去除噪聲。由于自編碼神經網絡隱含層采用非線性激活函數,從而保證了提取特征之間沒有共線性。10710.4自編碼回聲狀態網絡10710.4.1回聲狀態網絡回聲狀態網絡是一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論