卷積神經(jīng)網(wǎng)絡(luò)_第1頁
卷積神經(jīng)網(wǎng)絡(luò)_第2頁
卷積神經(jīng)網(wǎng)絡(luò)_第3頁
卷積神經(jīng)網(wǎng)絡(luò)_第4頁
卷積神經(jīng)網(wǎng)絡(luò)_第5頁
免費預(yù)覽已結(jié)束,剩余8頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、卷積神經(jīng)網(wǎng)絡(luò) 摘要:卷積神經(jīng)網(wǎng)絡(luò)是近年來廣泛應(yīng)用于模式識別、圖像處理等領(lǐng)域的一種高效識別算法,它具有結(jié)構(gòu)簡 單、訓(xùn)練參數(shù)少和適應(yīng)性強(qiáng)等特點。本文從卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史開始,詳細(xì)闡述了卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng) 絡(luò)結(jié)構(gòu)、神經(jīng)元模型和訓(xùn)練算法。在此基礎(chǔ)上以卷積神經(jīng)網(wǎng)絡(luò)在人臉檢測和形狀識別方面的應(yīng)用為例,簡 單介紹了卷積神經(jīng)網(wǎng)絡(luò)在工程上的應(yīng)用,并給出了設(shè)計思路和網(wǎng)絡(luò)結(jié)構(gòu)。 關(guān)鍵字:模型;結(jié)構(gòu);訓(xùn)練算法;人臉檢測;形狀識別0 引言 卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點, 它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò), 降低了網(wǎng)絡(luò)模型的復(fù)雜度, 減少了權(quán)值 的數(shù)量。 該優(yōu)點

2、在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器, 這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、 比例縮放、 傾斜或者共他形式的變形具 有高度不變性。1 卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史1962 年 Hubel 和 Wiesel 通過對貓視覺皮層細(xì)胞的研究, 提出了感受野 (receptive field) 的概念, 1984 年日本學(xué)者 Fukushima 基于感受野概念提出的神經(jīng)認(rèn)知機(jī) (neocognitron) 可 以看作是卷積神經(jīng)網(wǎng)絡(luò)的第一個實現(xiàn)網(wǎng)絡(luò),也是感受野概念在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng) 用。

3、神經(jīng)認(rèn)知機(jī)將一個視覺模式分解成許多子模式(特征) ,然后進(jìn)入分層遞階式相連的特征平面進(jìn)行處理,它試圖將視覺系統(tǒng)模型化,使其能夠在即使物體有位移或輕微變形的時候, 也能完成識別。 神經(jīng)認(rèn)知機(jī)能夠利用位移恒定能力從激勵模式中學(xué)習(xí), 并且可識別這些模式 的變化形, 在其后的應(yīng)用研究中, Fukushima 將神經(jīng)認(rèn)知機(jī)主要用于手寫數(shù)字的識別。 隨后, 國內(nèi)外的研究人員提出多種卷積神經(jīng)網(wǎng)絡(luò)形式, 在郵政編碼識別和人臉識別方面得到了大規(guī) 模的應(yīng)用。通常神經(jīng)認(rèn)知機(jī)包含兩類神經(jīng)元,即承擔(dān)特征抽取的S-元和抗變形的 C-元。S-元中涉及兩個重要參數(shù), 即感受野與閾值參數(shù), 前者確定輸入連接的數(shù)目, 后者則控制

4、對特征子模 式的反應(yīng)程度。 許多學(xué)者一直致力于提高神經(jīng)認(rèn)知機(jī)的性能的研究: 在傳統(tǒng)的神經(jīng)認(rèn)知機(jī)中, 每個S-元的感光區(qū)中由 C-元帶來的視覺模糊量呈正態(tài)分布。如果感光區(qū)的邊緣所產(chǎn)生的模 糊效果要比中央來得大,S-元將會接受這種非正態(tài)模糊所導(dǎo)致的更大的變形容忍性。我們希望得到的是, 訓(xùn)練模式與變形刺激模式在感受野的邊緣與其中心所產(chǎn)生的效果之間的差異變 得越來越大。為了有效地形成這種非正態(tài)模糊,F(xiàn)UkUShima提出了帶雙C-元層的改進(jìn)型神經(jīng)認(rèn)知機(jī)。Trotin 等人提出了動態(tài)構(gòu)造神經(jīng)認(rèn)知機(jī)并自動降低閉值的方法 1 ,初始態(tài)的神經(jīng)認(rèn)知 機(jī)各層的神經(jīng)元數(shù)目設(shè)為零, 然后會對于給定的應(yīng)用找到合適的網(wǎng)絡(luò)

5、規(guī)模。 在構(gòu)造網(wǎng)絡(luò)過程 中,利用一個反饋信號來預(yù)測降低閾值的效果, 再基于這種預(yù)測來調(diào)節(jié)閾值。 他們指出這種 自動閾值調(diào)節(jié)后的識別率與手工設(shè)置閾值的識別率相若,然而, 上述反饋信號的具體機(jī)制并未給出,并且在他們后來的研究中承認(rèn)這種自動閾值調(diào)節(jié)是很困難的【8】。Hildebrandt 將神經(jīng)認(rèn)知機(jī)看作是一種線性相關(guān)分類器, 也通過修改閾值以使神經(jīng)認(rèn)知 機(jī)成為最優(yōu)的分類器。 Lovell 應(yīng)用 Hildebrandt 的訓(xùn)練方法卻沒有成功。 對此, Hildebrandt 解釋的是,該方法只能應(yīng)用于輸出層,而不能應(yīng)用于網(wǎng)絡(luò)的每一層。事實上,Hildebrandt沒有考慮信息在網(wǎng)絡(luò)傳播中會逐層丟失。

6、Van Ooyen和NiehUiS為提高神經(jīng)認(rèn)知機(jī)的區(qū)別能力引入了一個新的參數(shù)。事實上,該 參數(shù)作為一種抑制信號, 抑制了神經(jīng)元對重復(fù)激勵特征的激勵。 多數(shù)神經(jīng)網(wǎng)絡(luò)在權(quán)值中記憶 訓(xùn)練信息。根據(jù) Hebb學(xué)習(xí)規(guī)則,某種特征訓(xùn)練的次數(shù)越多,在以后的識別過程中就越容易被檢測。 也有學(xué)者將進(jìn)化計算理論與神經(jīng)認(rèn)知機(jī)結(jié)合【9】,通過減弱對重復(fù)性激勵特征的訓(xùn)練學(xué)習(xí),而使得網(wǎng)絡(luò)注意那些不同的特征以助于提高區(qū)分能力。 上述都是神經(jīng)認(rèn)知機(jī)的發(fā)展過 程,而卷積神經(jīng)網(wǎng)絡(luò)可看作是神經(jīng)認(rèn)知機(jī)的推廣形式, 神經(jīng)認(rèn)知機(jī)是卷積神經(jīng)網(wǎng)絡(luò)的一種特 例。卷積神經(jīng)網(wǎng)絡(luò)本身可采用不同的神經(jīng)元和學(xué)習(xí)規(guī)則的組合形式。其中一種方法是采用M-P

7、神經(jīng)元和BP學(xué)習(xí)規(guī)則的組合,常用于郵政編碼識別中。還有一種是先歸一化卷積神經(jīng) 網(wǎng)絡(luò),然后神經(jīng)元計算出用輸入信號將權(quán)值和歸一化處理后的值, 再單獨訓(xùn)練每個隱層得到 權(quán)值, 最后獲勝的神經(jīng)元輸出活性, 這個方法在處理二值數(shù)字圖像時比較可行, 但沒有在大 數(shù)據(jù)庫中得到驗證。 第三種方法綜合前兩種方法的優(yōu)勢, 即采用 McCulloch-Pitts 神經(jīng)元代 替復(fù)雜的基于神經(jīng)認(rèn)知機(jī)的神經(jīng)元。 在該方法中, 網(wǎng)絡(luò)的隱層和神經(jīng)認(rèn)知機(jī)一樣, 是一層一 層訓(xùn)練的,但是回避了耗時的誤差反向傳播算法。這種神經(jīng)網(wǎng)絡(luò)被稱為改進(jìn)的神經(jīng)認(rèn)知機(jī)。 隨后神經(jīng)認(rèn)知機(jī)和改進(jìn)的神經(jīng)認(rèn)知機(jī)作為卷積神經(jīng)網(wǎng)絡(luò)的例子,廣泛用于各種識別任務(wù)

8、中, 比如大數(shù)據(jù)庫的人臉識別和數(shù)字識別。 下面詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的原理、 網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練 算法。2 卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò), 每層由多個二維平面組成, 而每個平面由多個獨 立神經(jīng)元組成。網(wǎng)絡(luò)中包含一些簡單元和復(fù)雜元,分別記為S-元和C-元。S-元聚合在一起組成S-面,S-面聚合在一起組成 S-層,用US表示。C-元、C-面和C-層(US)之間存在類似的 關(guān)系。網(wǎng)絡(luò)的任一中間級由S-層與C-層串接而成,而輸入級只含一層,它直接接受二維視覺模式,樣本特征提取步驟已嵌入到卷積神經(jīng)網(wǎng)絡(luò)模型的互聯(lián)結(jié)構(gòu)中。一般地,US為特征提取層, 每個神經(jīng)元的輸入與前一層的局部感受野相連

9、, 并提取該局部的特征, 一旦該局部特 征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來;UC是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成, 每個特征映射為一個平面, 平面上所有神經(jīng)元的權(quán)值相等。 特征 映射結(jié)構(gòu)采用影響函數(shù)核小的 Sigmoid 函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù), 使得特征映射具有位 移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù), 降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。 卷積神經(jīng)網(wǎng)絡(luò)中的每一個特征提取層 (S- 層)都緊跟著一個用 來求局部平均與二次提取的計算層(C-層),這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識別時對輸入樣本有較高的畸變?nèi)萑棠芰?【10】

10、。網(wǎng)絡(luò)中神經(jīng)元的輸出連接值符合 “最大值檢出假說” 【15】,即在某一小區(qū)域內(nèi)存在的一個 神經(jīng)元集合中, 只有輸出最大的神經(jīng)元才強(qiáng)化輸出連接值。 所以若神經(jīng)元近旁存在有輸出比 其更強(qiáng)的神經(jīng)元時, 其輸出連接值將不被強(qiáng)化。 根據(jù)上述假說, 就限定了只有一個神經(jīng)元會 發(fā)生強(qiáng)化。卷積神經(jīng)網(wǎng)絡(luò)的種元就是某 S-面上最大輸出的S-元,它不僅可以使其自身強(qiáng)化, 而且還控制了鄰近元的強(qiáng)化結(jié)果。因而,所有的 S-元漸漸提取了幾乎所有位置上相同的特 征。在卷積神經(jīng)網(wǎng)絡(luò)早期研究中占主導(dǎo)的無監(jiān)督學(xué)習(xí)中, 訓(xùn)練一種模式時需花費相當(dāng)長的時 間去自動搜索一層上所有元中具有最大輸出的種元, 而現(xiàn)在的有監(jiān)督學(xué)習(xí)方式中, 訓(xùn)練

11、模式 同它們的種元皆由教師設(shè)定。圖1是文獻(xiàn)12中卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)圖。將原始圖像直接輸入到輸入層 (Uci),原始圖像的大小決定了輸入向量的尺寸, 神經(jīng)元提取圖像的局部特征, 因此每個神經(jīng)元都與前 一層的局部感受野相連。文中使用了4層網(wǎng)絡(luò)結(jié)構(gòu),隱層由 S-層和C-層組成。每層均包含多個平面,輸入層直接映射到U2層包含的多個平面上。每層中各平面的神經(jīng)元提取圖像中特定區(qū)域的局部特征,如邊緣特征,方向特征等,在訓(xùn)練時不斷修正S-層神經(jīng)元的權(quán)值。同一平面上的神經(jīng)元權(quán)值相同,這樣可以有相同程度的位移、旋轉(zhuǎn)不變性。S-層中每個神經(jīng)元局部輸入窗口的大小均為5x5,由于同一個平面上的神經(jīng)元共享一個權(quán)值向量

12、,所以從一個平面到下一個平面的映射可以看作是作卷積運算, S-層可看作是模糊濾波器,起到二次特 征提取的作用。隱層與隱層之間空間分辨率遞減, 而每層所含的平面數(shù)遞增, 這樣可用于檢 測更多的特征信息。圖1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖The StrUCtUre Of convolutional neural network神經(jīng)元模型在卷積神經(jīng)網(wǎng)絡(luò)中,只有S-元間的輸入連接是可變的,而其他元的輸入連接是固定的。用USi( k, n)表示第I級,第k個S-面上,一個S-元的輸出,用UC(k,n)表示在該級第k個C-面上一個C-元的輸出。其中,n是一個二維坐標(biāo),代表輸入層中神經(jīng)元的感受野所 在位置,在第一級,感

13、受野的面積較小,隨后隨著I的增大而增加。Ki 11a v, ,k Uci 1 k 1 ,n VUsi k, nr kr kk i v Ai1-b1 k UVi nrik 1 1 vi式中ai( V,ki-1,k)和bi(k)分別表示興奮性輸入和抑制性輸入的連接系數(shù);ri (k)控制特征提取的選擇性,其值越大,對噪音和特征畸變的容錯性越差,它是一常量,它控制著位于每一 S-層處的單個抑制子平面中每個神經(jīng)元的輸入:r i(k)的值越大,與抑制性成比例的興奮性就得越大,以便能產(chǎn)生一個非零輸出,換句話說就是相當(dāng)好的匹配才一能激活神經(jīng) 元,然而因為ri(k)還需乘以 (),所以ri值越大就能產(chǎn)生越大的輸

14、出,相反,小的ri(k)值允許不太匹配的神經(jīng)元興奮,但它只能產(chǎn)生一個比較小的輸出;(X)為非線性函數(shù)。V是一個矢量,表示處于n感受野中的前層神經(jīng)元 n的相對位置,A確定S神經(jīng)元要提取特征 的大小,代表n的感受野。所以式中對V的求和也就包含了指定區(qū)域當(dāng)中所有的神經(jīng)元;外面對于勺ki-1的求和,也就包含了前一級的所有子平面,因此在分子中的求和項有時也被稱 作興奮項,實際上為乘積的和,輸入到n的神經(jīng)元的輸出都乘上它們相應(yīng)的權(quán)值然后再輸出 到nc。x,x 0X0,x0式表示的是指定某級(第I級)、某層(S-層)、某面(第ki個S-面)、某元(向量為n處) 的一個輸出。對于一個 S-元的作用函數(shù)可分為兩

15、部分,即興奮性作用函數(shù)和抑制性作用函 數(shù)。興奮性作用使得膜電位上升,而抑制性作用起分流作用。興奮性作用為:Ki 1ai v,k i 1,k Uci 1 ki 1, n Vk i 1 v AS-元與其前一級C-層的所有C-面均有連接,所連接的C-元個數(shù)由該S-級的參數(shù)感受野 A唯一確定。網(wǎng)絡(luò)中另一個重要的神經(jīng)元是假設(shè)存在的抑制性神經(jīng)元V-元Ui (n),它位于S-面上滿足以下三個條件:環(huán)元的抑制作用影響整個網(wǎng)絡(luò)的運作;C-元與V-元間存在著固定的連接;V-元的輸出事先設(shè)為多個C-元輸出的平均值。可以用它來表示網(wǎng)絡(luò)的抑制性作用,發(fā)送一個抑制信號給 US1(k, n)神經(jīng)元,從與US1( k, n)

16、類似的元接收它的輸入連接值,并輸出:Kl 1;22 IUv nCIVUC ik i, n vk v A權(quán)Cl (V)是位于V元感受野中的V處的神經(jīng)元相連的權(quán)值,不需要訓(xùn)練這些 值,但它們應(yīng)隨著IV I的增加而單調(diào)減小。因此,選擇式的歸一化權(quán)值。CC式中的歸一化常量 C由式給出,其中:r(v)是從V處到感受野中心的 歸一化距離:C(I)C神經(jīng)元的輸出由式給出:K 1r(V) aK i i V A jKt1j(k,k i) d (V)ust (k,n V)Ud(k,n)() 1 1VDt 11 Vs (n)上式中 (X)為:X,x 0(X)X()式中為一常量。0, X 0k是第I級中的S子平面的數(shù)

17、量。D是G元的感受野。因此,它和特征的大小相對應(yīng)。d(v) 是固定興奮連接權(quán)的權(quán)值, 它是Iv I的單調(diào)遞減函數(shù)。如果第k個S神經(jīng)元子平面從第 k-1 子平面處收到信號,那么 J (kl,k M )的值為,1否則為O。最后,S層的VS神經(jīng)元的輸出為1 Kl 1VSt d I(V)US(kj,n V)()KI Kl 1 1 V Vt圖2為卷積神經(jīng)網(wǎng)絡(luò)中不同神經(jīng)元之間的連接關(guān)系圖,從圖中可以很清楚地看出各種不同神經(jīng)元之間的連接關(guān)系。圖2 卷積神經(jīng)網(wǎng)絡(luò)中不同神經(jīng)元間的連接The ConneCtionS convolutional neural network among different neur

18、ons卷積網(wǎng)絡(luò)的訓(xùn)練過程神經(jīng)網(wǎng)絡(luò)用于模式識別的主流是有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò),無指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)更多的是用于聚類分析。對于有指導(dǎo)的模式識別,由于任一樣本的類別是已知的,樣本在空間的分布不再是依據(jù)其自然分布傾向來劃分,而是要根據(jù)同類樣本在空間的分布及不同類樣本之間的分離程度找 一種適當(dāng)?shù)目臻g劃分方法,或者找到一個分類邊界,使得不同類樣本分別位于不同的區(qū)域內(nèi)。這就需要一個長時間且復(fù)雜的學(xué)習(xí)過程,不斷調(diào)整用以劃分樣本空間的分類邊界的位置,使盡可能少的樣本被劃分到非同類區(qū)域中。由于本文主要是檢測圖像中的人臉,所以可將樣本空間分成兩類:樣本空間和非樣本空間,因而本文所使用的學(xué)習(xí)網(wǎng)絡(luò)也是有指導(dǎo)的學(xué)習(xí)網(wǎng)絡(luò)。 卷積網(wǎng)絡(luò)在本

19、質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān) 系,而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式,只要用已知的模式對卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對之間的映射能力。卷積網(wǎng)絡(luò)執(zhí)行的是有導(dǎo)師訓(xùn)練,所以其樣本集是由形如:(輸入向量,理想輸出向量)的向量對構(gòu)成的。所有這些向量對,都應(yīng)該是來 源于網(wǎng)絡(luò)即將模擬的系統(tǒng)的實際“運行”結(jié)果。它們可以是從實際運行系統(tǒng)中采集來的。在開始訓(xùn)練前,所有的權(quán)都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化。“小隨機(jī)數(shù)”用來保證網(wǎng)絡(luò)不會因權(quán)值過大而進(jìn)入飽和狀態(tài),從而導(dǎo)致訓(xùn)練失敗;“不同”用來保證網(wǎng)絡(luò)可以正常地學(xué)習(xí)。實際上,如果用相同的數(shù)去初始化權(quán)矩陣,則網(wǎng)絡(luò)

20、無能力學(xué)習(xí)。訓(xùn)練算法主要包括 4步,這4步被分為兩個階段:第一階段,向前傳播階段: 從樣本集中取一個樣本(X,Y P),將X輸入網(wǎng)絡(luò); 計算相應(yīng)的實際輸出 ObO在此階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運行時執(zhí)行的過程。在此過程中,網(wǎng)絡(luò)執(zhí)行的是由式()計算:QP=Fn(F2( Fl(X3W I)Wr)Wn)第二階段,向后傳播階段 計算實際輸出 Q與相應(yīng)的理想輸出 YP的差; 按極小化誤差的方法調(diào)整權(quán)矩陣。這兩個階段的工作一般應(yīng)受到精度要求的控制,在這里,用式()計算Epo作為網(wǎng)絡(luò)關(guān)于第P個樣本的誤差測度。而將網(wǎng)絡(luò)關(guān)于整個樣本集的誤差測度定義為:E=

21、Ep。EP(ypj2 j 12OPj)如前所述,之所以將此階段稱為向后傳播階段,是對應(yīng)于輸入信號的正常傳播而言的。因為在開始調(diào)整神經(jīng)元的連接權(quán)時,只能求出輸出層的誤差,而其他層的誤差要通過此誤差反向逐層后推才能得到。有時候也稱之為誤差傳播階段。為了更清楚地說明本文所使用的卷 積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,首先假設(shè)輸入層、中間層和輸出層的單元數(shù)分別是N、L和 MX=(x0,x1,,xN)是加到網(wǎng)絡(luò)的輸入矢量,H=(hO,h1,,hL)是中間層輸出矢量, Y=(yO,y1,yM)是網(wǎng)絡(luò)的實際輸出矢量,并且用 D=(d0,d1,dM)來表示訓(xùn)練組中各模式 的目標(biāo)輸出矢量輸出單元i到隱單元j的權(quán)值是Vj ,而

22、隱單元j到輸出單元k的權(quán)值是Wk。另外用 k和 j來分別表示輸出單元和隱含單元的閾值。于是,中間層各單元的輸出為式():hjf( VijXij)()i 0而輸出層各單元的輸出是式():L 1yk fWUhjk()j 0其中f(*)是激勵函數(shù)采用 S型函數(shù)式():1f (X)kX()1 e在上述條件下,網(wǎng)絡(luò)的訓(xùn)練過程如下:1) 選定訓(xùn)練組。從樣本集中分別隨機(jī)地選取300個樣本作為訓(xùn)練組。2) 將各權(quán)值 Vj, W和閾值 j, k置成小的接近于 0的隨機(jī)值,并初始化精度控制參數(shù)和學(xué)習(xí)率°3) 從訓(xùn)練組中取一個輸入模式X加到網(wǎng)絡(luò),并給定它的目標(biāo)輸出矢量 D4) 利用式()計算出一個中間層輸

23、出矢量H,再用式計算出網(wǎng)絡(luò)的實際輸出矢丫。5) 將輸出矢量中的元素 yk與目標(biāo)矢量中的元素 dk進(jìn)行比較,計算出M個輸出誤差項式()():k(dkyk)yk(1 yk)()對中間層的隱單元也計算出I一個誤差項式():M 1jhj(1h j )kW jkk 0()6)依次計算出各權(quán)值的調(diào)整量式()和式():Wk(n) ( /(1 L)*( Wjk (n1)1)* k*hj()Vj (n) ( /(1 N)*(Vj (n1)1)* k*hj()和閾值的調(diào)整量式()和():k(n) ( /(1 L)*(k(n1)1)* k()j(n) ( /(1 L)*(j(n 1)1)* j()7)調(diào)整權(quán)值式()

24、和式():Wjk (n 1)Wjk (n)Wjk (n)()Vj (n 1)Vij(n)Vij (n)()調(diào)整閾值式()和()k(n 1)k(n)k(n)()j(n 1) j(n)j(n)8)當(dāng)k每經(jīng)歷1至M后,判斷指標(biāo)是否滿足精度要求:E ,其中E是總誤差函數(shù),且E4 M 1-(dk yk)2。如果不滿足,就返回(3),繼續(xù)迭代。如果滿2 k 0足就進(jìn)入下一步。9)訓(xùn)練結(jié)束,將權(quán)值和閾值保存在文件中。這時可以認(rèn)為各個權(quán)值已經(jīng)達(dá)穩(wěn)定,分類器形成。再一次進(jìn)行訓(xùn)練時,直接從文件導(dǎo)出權(quán)值和閾值進(jìn)行訓(xùn)練,不需要進(jìn)行初始化。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點卷積神經(jīng)網(wǎng)絡(luò)CNN主要用來識別位移、縮放及其他形式扭曲不變性的

25、二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時,避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。流的分類方式幾乎都是基于統(tǒng)計特征的,這就意味著在進(jìn)行分辨前必須提取某些特征。 然而,顯式的特征提取并不容易,在一些應(yīng)用問題中也

26、并非總是可靠的。卷積神經(jīng)網(wǎng)絡(luò),它 避免了顯式的特征取樣, 隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。這使得卷積神經(jīng)網(wǎng)絡(luò)明顯有別于其他基于神經(jīng)網(wǎng)絡(luò)的分類器,通過結(jié)構(gòu)重組和減少權(quán)值將特征提取功能融合進(jìn)多層感知器。它可以直接處理灰度圖片,能夠直接用于處理基于圖像的分類。卷積網(wǎng)絡(luò)較一般神經(jīng)網(wǎng)絡(luò)在圖像處理方面有如下優(yōu)點:a)輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好的吻合;b)特征提取和模式分類同時進(jìn)行,并同時在訓(xùn)練中產(chǎn)生;C)權(quán)重共享可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更簡單,適應(yīng)性更強(qiáng)。3卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用基于卷積網(wǎng)絡(luò)的形狀識別對于形狀的分析和識別具 因此二維圖像的識別是 其中,第一類是基于物體物體的形狀是人的視覺系統(tǒng)

27、分析和識別物體的基礎(chǔ),幾何形狀是物體的本質(zhì)特征的表 現(xiàn),并具有平移、縮放和旋轉(zhuǎn)不變等特點,所以在模式識別領(lǐng)域, 有十分重要的意義,而二維圖像作為三維圖像的特例以及組成部分, 三維圖像識別的基礎(chǔ)。物體形狀的識別方法可以歸納為如下兩類,曰甘是基邊界形狀的識別,這種邊界的特征主要有周長、角、彎曲度、寬度、高度、直徑等,第二類 于物體所覆蓋區(qū)域的形狀識別,這種區(qū)域的特征主要有面積、 圓度、矩特征等,上述兩類方法都適用于物體形狀的結(jié)構(gòu)或區(qū)域的識別。卷積神經(jīng)網(wǎng)絡(luò)也是一種基于物體邊界形狀的識別,它既可以識別封閉形狀同時對不封閉形狀也有較高的識別率。圖3試驗用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖The StrUCtUre O

28、f convolutional neural network圖3是所用的網(wǎng)絡(luò)結(jié)構(gòu),Ub是輸入層,UC4是識別層。US為特征提取層,US1的輸入是光 感受器的像素位圖,該層只是提取一些相對簡單的像素特征,隨后幾層的S-元提取一些更為復(fù)雜的像素特征,隨著層數(shù)的增加,提取的特征也相應(yīng)遞增;UC是特征映射層,提取高階特征,提取這些高階特征時不需要提取像簡單特征那樣的精確位置信息。網(wǎng)絡(luò)中S-元的閉值是預(yù)先設(shè)定值,訓(xùn)練時權(quán)值的更新基于FUkUShima提出的增強(qiáng)型學(xué)習(xí)規(guī)則,如式所示,網(wǎng)絡(luò)的訓(xùn)練方式采用的是無監(jiān)督學(xué)習(xí)方式。圖4與圖5是部分實驗樣本圖圖4部分訓(xùn)練樣本圖Part Of the training

29、SamPIe plans圖5部分測試樣本圖Part Of the test SamPIe pla ns樣本分為三角形,四邊形,八邊形,圓形四類,每類10個共80個樣本,實驗訓(xùn)練時采用40個樣本,測試時采用剩余的 40個樣本,最終的識別結(jié)果如表2所示。表1訓(xùn)練后網(wǎng)絡(luò)參數(shù)Table1 NetWOrk ParameterS after training級數(shù)S-層包含的S-面數(shù)S-元數(shù)第一級1632第二級19290第三級:15272第四級789表2識別結(jié)果ReCOgnitiOn results待識別形狀識別結(jié)果三角形10個全對四邊形10個全對八邊形10個全對圓形對9個,另一個錯識成四邊形識別錯誤樣本如

30、圖6所示:圖6測試出錯樣本The SamPIe error in test識別錯誤的原因是由于訓(xùn)練所用樣本模式較少,不能覆蓋所有的圓形模式,以至于該測試模式輸入網(wǎng)絡(luò)時,與之相近的四邊形模式獲勝,最終得到錯誤的輸出結(jié)果。這里采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行形狀識別目的主要是為了驗證卷積神經(jīng)網(wǎng)絡(luò)的模式識別能力,所以雖然采用的樣本圖片較少,但已經(jīng)能夠說明卷積網(wǎng)。絡(luò)在形狀識別時有較高的識別率和抗畸變性,而識別前的車牌字符由于前期處理(定位、分割)能力的局限性,具有一定的噪聲和變形,因此可以將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于車牌識別系統(tǒng)。基于卷積網(wǎng)絡(luò)的人臉檢測卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的人臉檢測方法不同,它是通過直接作用于輸入樣本,用樣

31、本來訓(xùn)練網(wǎng)絡(luò)并最終實現(xiàn)檢測任務(wù)的。它是非參數(shù)型的人臉檢測方法,可以省去傳統(tǒng)方法中建模、 參數(shù)估計以及參數(shù)檢驗、重建模型等的一系列復(fù)雜過程。本文針對圖像中任意大小、位置、姿勢、方向、膚色、面部表情和光照條件的人臉,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural NetWOrkS ,簡稱CNN的人臉檢測方法。設(shè)計了一個輸入層節(jié)點數(shù)為400、輸出層節(jié)點數(shù)為2、四層隱藏層的 CNN網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)如圖 7。圖7卷積網(wǎng)絡(luò)結(jié)構(gòu)The structure of convolutional neural network輸入、輸出層的設(shè)計: 卷積神經(jīng)網(wǎng)絡(luò)是一種分層型網(wǎng)絡(luò), 具有輸入層、 中間層

32、 (隱含層) 和輸出層的三層結(jié)構(gòu)。 對于一個神經(jīng)網(wǎng)絡(luò), 中間層可以有兩個以上, 而具有一個中間層的神 經(jīng)網(wǎng)絡(luò)則是一種基本的神經(jīng)網(wǎng)絡(luò)模型。 實驗表明, 增加隱含層的層數(shù)和隱含層神經(jīng)元的個數(shù) 不一定能夠提高網(wǎng)絡(luò)的精度和表達(dá)能力。使用輸入窗口的大小都是20× 20,這是通常能使用的最小窗口, 這個窗口包含了人臉非常關(guān)鍵的部分。 因此, 可將輸入層節(jié)點數(shù)設(shè)計為 400, 對應(yīng)于 20× 20 圖像窗口中按行展開的各個像素。考慮到本文使用卷積神經(jīng)網(wǎng)絡(luò)是用作分類 器,其類別數(shù)為 2(即人臉和非人臉) ,所以輸出層的節(jié)點數(shù)為 2。隱藏層的設(shè)計:隱藏層為四層,分別是圖像特征增強(qiáng)的卷積層、數(shù)

33、據(jù)縮減的子抽樣層、 和兩個激活函數(shù)層。其結(jié)構(gòu)如圖 7 所示。設(shè)計方法如下:卷積層的設(shè)計: 信號的卷積運算是信號處理領(lǐng)域中最重要的運算之一。比如, 在圖像處理、語音識別、地震勘探、超聲診斷、光學(xué)成像、系統(tǒng)辨識及其他諸多信號處理領(lǐng)域中。卷 積運算一個重要的特點就是,通過卷積運算, 可以使原信號特征增強(qiáng), 并且降低噪音。 在進(jìn) 行人臉檢測時使用離散的卷積核, 對圖像進(jìn)行處理。 由于離散卷積核只需要進(jìn)行優(yōu)先次的加 法運算,而且是整數(shù)運算,沒有浮點運算,計算機(jī)可以迅速的計算出結(jié)果。 本文選定的四個 卷積核,分別為兩個拉普拉斯算子和兩個 Sobel 邊緣算子。 輸入圖像分別經(jīng)過這四個卷積核 的卷積得到四個

34、 18× 18 的待測圖像。其中拉普拉斯算子是圖像的整體特征增強(qiáng)。而Sobel邊緣算子則強(qiáng)化了邊緣特征。子抽樣層的設(shè)計: 利用圖像局部相關(guān)性的原理, 對圖像進(jìn)行子抽樣, 可以減少數(shù)據(jù)處理 量同時保留有用信息。 本層把卷積層輸出的四個圖像作為輸入, 分別進(jìn)行子抽樣運算后輸出 四個 9×9 圖像。而該圖像保留了原圖像的絕大部分有用信息。子抽樣點的值是原圖像相鄰 四個點的平均值。激活函數(shù)層: 本層分為兩層激活函數(shù)層, 一層為通過與抽樣層輸出的四個圖像分別進(jìn)行 全連結(jié),得到四個中間輸出。 第二層為有四個中間結(jié)果連接的四個激活函數(shù)并與輸出層連接, 得出網(wǎng)絡(luò)判斷結(jié)果。這層有 9 

35、15; 9 × 4+ 1 × 4個激活函數(shù)參數(shù)需要訓(xùn)練。激勵函數(shù)的選擇: 網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和訓(xùn)練數(shù)據(jù)確定后, 總誤差函數(shù)就完全由激勵函數(shù)決 定了,因此,激發(fā)函數(shù)的選擇對網(wǎng)絡(luò)的收斂性具有很重要的作用。 對每一個人工神經(jīng)元來說, 它可以接受一組來自系統(tǒng)中其他神經(jīng)元的輸入信號, 每個輸入對應(yīng)一個權(quán), 所以輸入的加權(quán) 和決定該神經(jīng)元的激活狀態(tài)。 按照卷積網(wǎng)絡(luò)算法的要求, 這些神經(jīng)元所用的激活函數(shù)必須是 處處可導(dǎo)的。在設(shè)計基于人工神經(jīng)網(wǎng)絡(luò)的分類系統(tǒng)中, 不僅網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計非常重要, 而且訓(xùn)練數(shù)據(jù) 的收集也十分重要。 在人臉檢測系統(tǒng)中除了選擇好的人臉樣本外同時還要解決從大量非人臉 圖像中

36、選擇非人臉樣本的問題。 對于人臉樣本圖像還要進(jìn)行一些預(yù)處理, 以消除噪音和光線 差異的影響。 為了提高網(wǎng)絡(luò)的健壯性, 收集各種不同類型的人臉樣本; 為了得到更多的樣本, 并提高旋轉(zhuǎn)不變性和亮度可變性的能力, 對初始人臉樣本集中的部分圖像進(jìn)行一些變換。 然 后是關(guān)于非人臉樣本的收集,這是基于神經(jīng)網(wǎng)絡(luò)的檢測方法中的一個難題,按照常用的 Bootstrap 處理方法,可以從大量的圖像中收集這些邊界樣本,同時根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特 點,做出一些改進(jìn),降低隨機(jī)性,提高了效率。在獲得圖像數(shù)據(jù)后,通過一些歸一化和預(yù)處 理步驟,減小圖像噪聲的影響和消除圖像亮度及對比度的差異, 提高數(shù)據(jù)的針對性和魯棒性, 得到統(tǒng)

37、計的方法進(jìn)行學(xué)習(xí)處理樣本的最基本的特征向量,然后使用這些特征向量訓(xùn)練網(wǎng)絡(luò)。4 總結(jié)本文首先闡述了卷積神經(jīng)網(wǎng)絡(luò)的原理。卷積神經(jīng)網(wǎng)絡(luò)是在神經(jīng)認(rèn)知機(jī)的基礎(chǔ)上為了處理 模式識別問題而提出的網(wǎng)絡(luò)。 此網(wǎng)絡(luò)是多層的分級神經(jīng)網(wǎng)絡(luò), 每層的神經(jīng)元都是相同類型的, 或簡單,或復(fù)雜,或是超復(fù)雜的神經(jīng)元, 在每層之間都有非常稀少并且固定模式的連接。介 紹了基本的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其神經(jīng)元模型, 接著討論了卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程, 當(dāng)需 要的特征已預(yù)先確定, 那么就采用有監(jiān)督算法, 網(wǎng)絡(luò)一層一層地學(xué)習(xí), 反之則進(jìn)行無監(jiān)督學(xué) 習(xí)。最后簡要的介紹了卷積神經(jīng)網(wǎng)絡(luò)在形狀識別和人臉檢測中的應(yīng)用。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用于二

38、維圖像處理、模式識別、機(jī)器視覺、形狀識別、智 能交通等領(lǐng)域,并且能夠很好的解決各個領(lǐng)域中的問題。參考文獻(xiàn)1 王天翼. 基于卷積網(wǎng)絡(luò)的三位特征提取 學(xué)位論文. 吉林:吉林大學(xué),2006.2 李葆青 . 基于卷積神經(jīng)網(wǎng)絡(luò)的模式分類器 J. 大連大學(xué)學(xué)報 ,2003,24(2):19-23.3 Simon Haykin 著, 葉世偉 ,史忠植譯 . 神經(jīng)網(wǎng)絡(luò)原理 M. 北京:機(jī)械工業(yè)出版社, 2004.4 肖柏旭.基于卷積網(wǎng)絡(luò)的人臉檢測的研究與實現(xiàn) 學(xué)位論文.北京:華北電力大學(xué) , 2009.5 陸璐. 卷積神經(jīng)網(wǎng)絡(luò)的研究及其在車牌識別系統(tǒng)中的應(yīng)用 學(xué)位論文. 合肥:合肥工業(yè)大學(xué),2006.6 顧佳

39、玲,彭宏京 .增長式卷積神經(jīng)網(wǎng)絡(luò)及其在人臉檢測中的應(yīng)用 J. 系統(tǒng)仿真學(xué)報 , 2009,21(8):2441-2445.7 趙志宏,楊紹普,馬增強(qiáng).基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究J.系統(tǒng)仿真學(xué)報,2010,22(3):638-641.8 T .H .Hildebrandt, Optimal Training of Thresholded Linear Correlation Classifiers, IEEE Transactions on NeuralNetworks Z(6), 一 588,Nov.(1991).9 K. Fukushima ,“Neocognitron

40、:A self-organizing neural-network model for a Mechanism of Pattern recognitionunaffected by shift in position, Biol. Cybern.,一 202, 1980.10 , Shape , position and size invariant visual pattern recognition based on principles of neocognitron andPerCePtiOn in ArtifiCial NeUraI NetWOrkS,Eds. AmSterdam

41、the Netherlands: North 一 Holland,1992,一 837.11 D. Lovell , et al. , Commentson“Optimal Training of Thresholded Linear Correlation Classifiers ”,IEEE Trans .OnNeural Networks 4(2), 一 369,MarCh(1993).12 K. Fukushima ,“Analysis of the ProCess of visual Pattern reCognition by the neoCognitron ,”Neural N

42、etworks, 198913 Van Ooyenand B. Nienhuis , Pattern ReCognition in the NeoCognitron Is ImProved 一 by Neuronal AdaPtion , BiologiCal Cyberneties70,(1993).14 石大明,劉海濤,舒文豪 .結(jié)合進(jìn)化計算的神經(jīng)認(rèn)知機(jī) .計算機(jī)學(xué)報 J, 2001, 24(5):468 一 47315 Claus Neubauer. Evaluation of' Convolutional Neural Networks for VisualReCognitio

43、n , Neural Netwoks, (1998)16 and ,“Use of different thresholds in learning and reCognition, ”NeuroeomPuting, , 1996.17 G. W. Cottrell , “EMPATH:FaCe, emotion, and gender reCognition using holons , ”in AdvanCes in Neural Information ProCessing Sys18 H. Bourlard and Y. KamP, “Autoassoziation by multilayerPerCePtrons and si

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論