神經網絡報告_第1頁
神經網絡報告_第2頁
神經網絡報告_第3頁
神經網絡報告_第4頁
神經網絡報告_第5頁
已閱讀5頁,還剩21頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄摘要 摘要神經網絡作為一門新興的信息處理科學,是對人腦若干基本特性的抽象和模擬。它是以人的人腦工作模式為基礎,研究白適應及非程序的信息處理方法。這種工作機制的特點表現為通過網絡中人量神經元的作用來體現它白身的處理功能,從模擬人腦的結構和單個神經元功能出發,達到模擬人腦處理信息的日的。目前,在國民經濟和國防科技現代化建設中神經網絡具有廣闊的應用領域和發展前景,其應用領域主要表現在信息領域、自動化領域、程領域和經濟領域等。不可否認的是,雖然它具有廣泛的應有領域,同時自身也存在著許多缺點,從而成為當今人們一直研究的熱點問題。深度學習是一個復雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關技術。它在搜索技術,數據挖掘,機器學習,機器翻譯,自然語言處理,多媒體學習,語音,推薦和個性化技術,以及其他相關領域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動,解決了很多復雜的模式識別難題,使得人工智能相關技術取得了很大進步。將深度學習與各種實際應用研究相結合也是一項很重要的工作。關鍵詞:神經網絡,卷積神經網絡,深度學習,圖像識別AbstracTheneuralnetworkasakindofemerginginformationprocessingscience,whichcanabstractandsimulatesomebasiccharacteristicofthehumanbrain.Itisaninformationprocessmethodthatastudyauto-adapted,thenon-procedural,takesperson'scerebrumworkingpatternasafoundation.Thecharacteristicofthiskindworkmechanismdisplaysitownprocessingfunctioninthemassiveneuronsfunctionthroughthenetwork,fromsimulatingthehumanbrainstructureandthesingleneuronfunction,achievedthegoalthatsimulatesthehumanbrainprocessinformation.Atpresent,inthenationaleconomyandmodernizationofnationaldefensescienceandtechnology,theneuralnetworkhasthebroadapplicationdomainandtheapplicationprospect,itsmainlyappliedininformation,automated,project,economicalandsoon,withoutadoubt,althoughithaswidelyapplieddomain,simultaneouslyalsohasmanyinsufficiencies,thusbecomesthehottopicwhichnowthepeoplecontinuouslystudies.Asacomplexmachinelearningalgorithms,recognitionaccuracyofdeeplearningonimageandaudioisfarbeyondtheprevioustechnologies.Deeplearninghasalsoachievedgreatsuccessinthesearchtechnology,datamining,machinelearning,machinetranslation,naturallanguageprocessing,multimedialearning,speech,recommendationandpersonalizationtechnology,etc.Ithassolvedmanycomplicatedpatternrecognitionproblem,andpromotedtheprogressoftheartificialintelligencetechnology.Itisaveryimportantworktocombinedeeplearningwithapplicationresearch.Keywords:Neuralnetwork,ConvolutionalNeuralNetworks,deeplearning,Imagerecognition1.

緒論1.1神經網絡概述自從1946年第一臺計算機問世以來,計算機軟、硬件技術得到飛速發展。這些技術的發展,使計算機在工業控制的應用中得到了普及的同時,也推動了高級過程控制、人工智能控制等復雜工業控制算法、策略的誕生、發展和完善。在過程計算機控制發展領域,值得一提的是預測控制技術的發展。經典控制理論和現代控制理論都需要受控對象的精確數學模型,然而實際中的對象往往是多變量、高階、時變的復雜過程。預測控制是一種基于模型的先進控制技術,它是20世紀70年代中后期在歐美工業領域內出現的一類新型計算機優化控制算法。它對模型精度的要求不高,同時卻具有較高的控制性能。由于模型形式、優化策略和校正措施的不同,可以形成各種預測控制算法,如動態矩陣控制(DMC)、模型算法控制(MAC)、廣義預測控制(GPC)等等。20世紀80年代中期以來,人工神經網絡以其獨特的優點引起了人們的極大關注。對于控制界,神經網絡的吸引力在于:能夠充分逼近復雜的非線性映射關系;能夠學習與適應不確定系統的動態特性;所有定量或定性的信息都分布存儲于網絡的各個神經元,所以有較強的魯棒性和容錯性;用并行分布處理方法,使得進行快速大量運算成為可能。這些特點顯示了神經網絡在解決高度非線性和嚴重不確定性系統的建模與控制方面的巨大潛力??梢詳喽ǎ焉窠浘W絡引入控制系統是控制學科發展的必然趨勢,神經網絡的這些特點也使基于神經網絡的預測控制算法得到迅速發展,將神經網絡與預測控制相結合,為解決復雜非線性系統控制問題提供了新的方法。近年來,基于神經網絡的預測控制在理論上及應用上均取得很大進展,出現了多種實用的方法,在復雜工業過程控制中取得了許多成功的應用。Jose等(1998)提出一種直接自適應神經網絡控制器,能夠對未知的非線性系統進行預測控制,并成功地將其應用在熱交換過程的流速與溫度控制中。Hu等(1999)設計了基于模糊神經網絡模型的有約束多步預測控制,并將其應用于燒結生產線的線速度控制中。陳增強和袁著祉等(2001)將神經網絡自校正預測控制應用于滌綸片基拉膜生產線橫向剖面這個復雜的多變量非線性系統上,極大地提高了產品的優質率。王樹青等(2003)將神經網絡預測控制成功地應用到水輪發電機組的轉速控制中,大大提高了系統的安全性。Arahal等(2004)采用并行結構的遞歸神經網絡在多組熱交換器中進行了應用。這些成功的應用實踐表明結合神經網絡與預測控制的優勢而形成的神經網絡預測控制在工業過程中具有廣闊的應用前景。2.神經網絡的提出與發展2.1神經網絡的定義人工神經網絡(Artificial

Neural

Network—ANN),簡稱為“神經網絡(NN)”,作為對入腦最簡單的一種抽象和模擬,是人們模仿人的大腦神經系統信息處理功能的一個智能化系統。它的出現成為人們進一步了解入腦思維奧秘的有力工具。盡管它還不是大腦的完美無缺的模型,但它特有的非線性適應性信息處理能力,可以通過學習來獲取外部的知識并存儲在網絡內,可以解決計算機不易處理的難題,特別是語音和圖像識別、理解、知識的處理、組合優化計算和智能控制等~

系列本質上非計算的問題,使之在神經專家系統、模式識別、智能控制、組合優化、預測等領域得到成功應用。人工神經網絡與其他傳統方法相結合,將推動人工智能和信息處理技術不斷發展。80年后代期,特別是在近年來,神經網絡的研究取得了很大的進展,在神經網絡這個涉及生物、電子、計算機、數學、物理等多種學科的新的高科技領域中,吸引了眾多的神經生理學家、心理學家、數學家、計算機與信息科學以及工程師和企業家等。大量的有關神經網絡機理、模型、算

法特性分析,以及在各方面應用的研究成果層出不窮,在國際上掀起了一股人工神經網絡的研究熱潮。

神經網絡是由多個簡單的處理單元彼此按某種方式相互連接而形成的計算機系統,該系統通過對連續或斷續式的輸入作狀態響應而進行信息處理。雖然每個神經元的結構和功能十分簡單,但由大量神經元構成的網絡系統的行為確實豐富多彩和十分復雜。

圖2-1神經網絡神經元的非線性模型BP神經網絡是基于BP算法的多層前饋網絡,其網絡結構簡單,算法成熟,具有自學習和自適應等優點,并且具有非線性動力學的特點。BP算法通過輸入、輸出數據樣本集,根據誤差反向傳遞的原理,對網絡進行訓練,其學習過程包括信息的正想傳播過程以及誤差的反向傳播這兩個過程,對其反復訓練,連續不斷地在相對誤差函數梯度下降的方向上,對網絡權值和偏差的變化進行計算,逐漸逼近,目標。典型的BP神經網絡由一個輸入層、至少一個隱含層和一個輸出層組成。一個典型的三層BP神經網絡如下圖所示:圖2-2三層神經網絡模型2.1神經網絡的發展歷程

人工神經網絡的研究始于20世紀40年代。半個多世紀以來,它經歷了一條由興起到衰退,又由衰退到興盛的曲折發展過程,這一發展過程大致可以分為以下四個階段。

2.1.1初始發展階段

人工神經系統的研究可以追溯到1800年Frued的前精神分析學時期,他已做了些初步工作1913年人工神經系統的第一個實踐是Russell描述的水力裝置。1943年美國心理學家Warren

S

McCulloch與數學家Water

H

Pitts合作,用邏輯的數學工具研究客觀事件在形式神經網絡中的描述,從此開創了對神經網絡的理論研究。他們在分析、總結神經元基本特性的基礎上,首先提出了神經元的數學模型,簡稱胛模型。從腦科學研究來看,MP模型不愧為第一個用數理語言描述腦的信息處理過程的模型。后來MP模型經過數學家的精心臻理和抽象,最終發展成一種有限自動機理論,再一次展現了MP模型的價值。此模型沿用至今,直接影響著這一領域研究的進展。通常認為他們的工作是神經網絡領域研究工作的開始。

在McCulloch和Pitts之后,1949年心理學家D.0.Hebb發表了論著《行為自組織》”,首先提出了一種調整神經網絡連接權值的規則。他認為,學習過程是在實觸上發生的,連接權值的調整正比于兩相連神經元活動狀態的乘積,這就是著名的Hebb學習律。直到現在,Hebb學習律仍然是神經網絡中的一個極為重要的學習規則。人工神經網絡第一個實際應用出現在1957年,F.Rosenblatt?!碧岢隽酥母兄?Perceptron)模型和聯想學習規則。這是第一個真正的人工神經網絡。這個模型由簡單的閩值神經元構成,初步具備了諸如并行處理、分布存儲和學習等神經網絡的一些基本特性,從而確立了從系統角度研究神經網絡的基礎。同時。在1960年B.Widrow和M.E.Hoff”1提出了自適應線性元件網絡,簡稱為Adaline(Adaptive

1inear

element),不僅在計算機上對該網絡進行了模擬,而且還做成了硬件。同時他們還提出了Widrow—Hoff學習算法,改進了網絡權值的學習速度和精度,后來這個算法被稱為LMS算法,即數學上的最速下降法,這種算法在以后的BP網絡及其他信號處理系統中得到了廣泛的應用。

2.1.2低潮時期

但是,Rosenblatt和Widrow的網絡都有同樣的固有局限性。這些局限性在1969年美國麻省理工學院著名的人工智能專家M.Minsky和S.Papert共同出版的名為《感知器》”1的專著中有廣泛的論述。他們指出單層的感知器只能用于線性問題的求解,而對于像XOR(異或)這樣簡單的非線性問題卻無法求解。他們還指出,能夠求解非線性問題的網絡,應該是具有隱層的多層神經網絡,而將感知器模型擴展到多層網絡是否有意義,還不能從理論上得到有力的證明。Minsky的悲觀結論對當時神經網絡的研究是一個沉重的打擊。由于當時計算機技術還不夠發達,VLSI尚未出現,神經網絡的應用還沒有展開,而人工智能和專家系統正處于發展的高潮,從而導致很多研究者放棄了對神經網絡的研究,致使在這以后的10年中,神經網絡的研究進入了一個緩慢發展的低潮期。

雖然在整個20世紀70年代,對神經網絡理論的研究進展緩慢,但并沒有完全停頓下來。世界上~些對神經網絡拖有堅定信心和嚴肅科學態度的學者一直沒有放棄他們的努力,仍然在該領域開展了許多重要的工作。如1972年Teu。Kohonen”1和Jallles

Anderson”1分別獨立提出了能夠完成記憶的新型神經網絡,Stephen

Grossberg”1在自組織識別神經網絡方面研究也十分活躍。同時也出現了一些新的神經網絡模型,如線性神經網絡模型、自組織識別神經網絡模型以及將神經元的輸出函數與統計力學中的玻耳茲曼分布聯系的Boltzmann機模等,都是在這個時期出現的。

2.1.3復興時期

在60年代,由于缺乏新思想和用于實驗的高性能計算機,曾一度動搖了人們對神經網絡的研究興趣。到了80年,隨著個人計算機和工作站計算機能力的急劇增強和廣泛應用,以及不斷引入新的概念,克服了擺在神經網絡研究面前的障礙,人們對神經網絡的研究熱情空前高漲。其中有兩個新概念對神經網絡的復興具有極大的意義。其一是用統計機理解釋某些類型的遞歸網絡的操作,這類網絡可作業聯想存儲器。美國加州理工學院生物物理學家John.J.Hopfield博士在1982年的研究論文就論述了這些思想。在他所提出的Hopfield網絡模型中首次引入網絡能量的概念,并給出了網絡穩定性判據。Hopfield網絡不僅在理論分析與綜合上均達到了相當的深度,最有意義的是該網絡很容易用集成電路實現。Hopfie]d網絡引起了許多科學家的理解與重視,也引起了半導體工業界的重視。1984年,AT&T

Bell實驗室宣布利用Hopfield理論研制成功了第一個研究神經網絡芯片。盡管早期的Hopfield網絡還存在一些問題,但不可否認,正是由于Hopfiel

d的研究才點亮了神經網絡復興的火把,從而掀起神經網絡研究的熱潮。其二是在1986年D.E.Rumelhart和J.L.Mcglelland及其研究小組提出PDP(ParallclDistributed

Processing)網絡思想,則為神經網絡研究新高潮的到來起到了推波助瀾的作用。其中最具影響力的反傳算法是David

RumeIhart和JamesMcClelland“”提出的。該算法有力地回答了60年代Minsky和Papert對神經網絡的責難,已成為至今影響最大,應用最廣的一種網絡學習算法。

2.1.4二十世紀80年后期以來的熱潮

20世紀80年代中期以來,神經網絡的應用研究取得很大的成績,涉及面非常廣泛。為了適應人工神經網絡的發展,1987年成立了國際神經網絡學會,并于同年在美國圣地亞哥召開了第一屆國際神經網絡會議。此后,神經網絡技術的研究始終呈現出蓬勃活躍的局面,理論研究不斷深入,應用范圍不斷擴大。尤其是進入20世紀90年代,隨著IEEE神經網絡會刊的問世,各種論文專著逐年增加,在全世界范圍內逐步形成了研究神經網絡前所未有的新高潮。

從眾多神經網絡的研究和應用成果不難看出,神經網絡的發展具有強大的生命力。盡管當前神經網絡的智能水平不高,許多理論和應用性問題還未得得到很好的解決,但是,隨著人們對大腦信息處理機制認識的目益深化,以及不同智能學科領域之間的交叉與滲透,人工神經網絡必將對智能科學的發展發揮更大的作用。2.3神經網絡研究的意義

神經網絡是在許多學科的基礎上發展起來的,它的深入研究必然帶動其他學科的發展。許多現代科學理論的創導者對腦的功能和神經網絡都有著強烈的興趣,并從中得到了不少啟示,創導或發展了許多新理。論馮-諾依曼曾談到計算機和大腦在結構和功能上的異同,

對它們從元件特性到系統結構進行了詳盡比較。McCuIIoch

和Pitts

提出的形式神經元模型導致了有限自動機理論的發展,

是最終促成第一臺馮-諾依曼電子計算機誕生的重要因素之一。

維納的<

控制論>

一書就是專門討論動物機器的控制和通信問題的。我國著名學者錢學森在他的<

工程控論>

中,專辟章節論述生物體的調節控制和神經網絡問題。因此,早在20

世紀四五十年代,神經系統的功能研究已經引起這些現代科學理論開拓者的興趣,并對他們各自理論的產生創立理論基礎。神經生物學家也正在期待著另一次理論的飛躍,這將使他們能夠解釋已知的各種現象,并提出可由實驗室驗證的假說。神經網絡理論的發展,推動了理論神經科學的產生和發展,為計算神經科學提供了必要的理論和模型。同時,也促進腦科學向定量精確和理論化方向發展。以神經網絡研究為開端,整個學術界對計算的概念和作用有了新的認識和提高。計算并不局限于數學中,并不僅僅采用邏輯的離散的形式,而且大量的運算表現在對模擬量的并行計算。對于后一類計算,傳統的計算機無法施展其威力。神經網絡的數學理論本質上是非線性的數學理論,

因此,

現代非線性科學方面的進展必將推動神經網絡的研究,同時,神經網絡理論也會對非線性科學提出新課題。神經網絡研究不僅重視系統的動態特性,而且強調事件和信息在系統內部的表達和產生。神經網絡在國民經濟和國防科技現代化建設中具有廣闊的應用領域和應用前景。主要應用有:語音識別、圖像識別和理解計算機視覺、智能機器人、故障機器人、故障檢測、實施語音翻譯、企業管理、市場分析、決策優化、物資調運自適應控制、專家系統、智能接口、神經生理學、心理學和認知科學研究等等。隨著神經網絡理論研究的深入以及網絡計算能力的不斷提高,神經網絡的應用領域將會不斷擴大,應用水平將會不斷提高,最終達到神經網絡系統可用來幫人做事的目的,這也是神經網絡研究的最終目標。3.神經網絡的原理3.1神經網絡的基本原理因為人工神經網絡是模擬人和動物的神經網絡的某種結構和功能的模擬,所以要了解神經網絡的工作原理,所以我們首先要了解生物神經元。其結構如下圖所示:圖3-1錐形細胞從上圖可看出生物神經元它包括,細胞體:由細胞核、細胞質與細胞膜組成;軸突:是從細胞體向外伸出的細長部分,也就是神經纖維。軸突是神經細胞的輸出端,通過它向外傳出神經沖動;樹突:是細胞體向外伸出的許多較短的樹枝狀分支。它們是細胞的輸入端,接受來自其它神經元的沖動;突觸:神經元之間相互連接的地方,既是神經末梢與樹突相接觸的交界面。對于從同一樹突先后傳入的神經沖動,以及同一時間從不同樹突輸入的神經沖動,神經細胞均可加以綜合處理,處理的結果可使細胞膜電位升高;當膜電位升高到一閥值(約40mV),細胞進入興奮狀態,產生神經沖動,并由軸突輸出神經沖動;當輸入的沖動減小,綜合處理的結果使膜電位下降,當下降到閥值時。細胞進入抑制狀態,此時無神經沖動輸出。“興奮”和“抑制”,神經細胞必呈其一。突觸界面具有脈沖/電位信號轉換功能,即類似于D/A轉換功能。沿軸突和樹突傳遞的是等幅、恒寬、編碼的離散電脈沖信號。細胞中膜電位是連續的模擬量。神經沖動信號的傳導速度在1~150m/s之間,隨纖維的粗細,髓鞘的有無而不同。神經細胞的重要特點是具有學習功能并有遺忘和疲勞效應??傊?,隨著對生物神經元的深入研究,揭示出神經元不是簡單的雙穩邏輯元件而是微型生物信息處理機制和控制機。而神經網絡的基本原理也就是對生物神經元進行盡可能的模擬,當然,以目前的理論水平,制造水平,和應用水平,還與人腦神經網絡的有著很大的差別,它只是對人腦神經網絡有選擇的,單一的,簡化的構造和性能模擬,從而形成了不同功能的,多種類型的,不同層次的神經網絡模型。3.2人工神經元模型人工神經網絡是利用物理器件來模擬生物神經網絡的某些結構和功能。圖3-2是最典型的人工神經元模型。圖3-2人工神經元模型這個模型是1943年心理學家McCulloch和科學家W.Pitts在分析總結神經元基本特性的基礎上首先提出的M-P模型,它是大多數神經網絡模型的基礎。代表神經元i與神經元j之間的連接強度(模擬生物神經元之間突觸連接強度),稱之為連接權;代表神經元i的活躍值,即神經元狀態;代表神經元j的輸出,即是神經元i的一個輸入;代表神經元的闡值。函數f表達了神經元的輸入輸出特性。在M-P模型中,f定義為階跳函數:人工神經網絡是一個并行與分布式的信息處理網絡結構,該網絡結構一般由許多個神經元組成,每個神經元由一個單一的輸出,它可以連接到許多其他的神經元,其輸出有多個連接通路,每個連接通路對應一個連接權系數。嚴格來說,神經網絡是一個具有如下性質的有向圖。對于每個結點有一個狀態變量;結點i到結點j有一個連接權系數;對于每個結點有一個閾值;對于每個結點定義一個變換函數,最常見的情形為。圖3-3表示了兩個典型的神經網絡結構,做為前饋網絡,右為反饋網絡。圖3-3典型的神經元網絡結構3.3神經網絡的特點由于人工神經網絡是基于生理神經網絡的自適應非線性動態系統,因此它具有獨特的功能和特點(1)可以充分逼近任意復雜的非線性關系;(2)所有定量和定性的信息的保存為等勢分布,儲存在網絡內的各神經元上,具有很強的“魯棒性”和“容錯性”;(3)并行分布處理使得運用計算機和特定的硬件,快速進行大量的運算成為可能;(4)可學習和自適應未知的或不確定的系統;(5)能夠同時處理定量和定性的知識。3.4神經網絡的分類目前人工神經網絡的模型已經有50多種,為了研究方便,從不同角度對它進行分類:1)按網絡結構分類:分為前饋型和反饋型網絡;2)按網絡的性質分類:分為連續性、離散性、確定性和隨機性網絡;3)按網絡學習方式分類:分為有導師和無導師(包括自組織學習)學習;4)按突觸連接的性質分類:分為一階線性關聯和高階非線性關聯網絡。4卷積神經網絡卷積神經網絡是人工神經網絡的一種已成為當前語音分析和圖像識別領域的研究熱點,它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入是多維圖像時表現的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。卷積神經網絡本身可采用不同的神經元和學習規則的組合形式。其中一種方法是采用M-P神經元和BP學習規則的組合,常用于郵政編碼識別中。還有一種是先歸一化卷積神經網絡,然后神經元計算出用輸入信號將權值和歸一化處理后的值,再單獨訓練每個隱層得到權值,最后獲勝的神經元輸出活性,這個方法在處理二值數字圖像時比較可行,但沒有在大數據庫中得到驗證。第三種方法綜合前兩種方法的優勢,即采用McCulloch-Pitts神經元代替復雜的基于神經認知機的神經元。在該方法中,網絡的隱層和神經認知機一樣,是一層一層訓練的,但是回避了耗時的誤差反向傳播算法。這種神經網絡被稱為改進的神經認知機。隨后神經認知機和改進的神經認知機作為卷積神經網絡的例子,廣泛用于各種識別任務中,比如大數據庫的人臉識別和數字識別。下面詳細介紹卷積神經網絡的原理、網絡結構及訓練算法。4.1卷積神經網絡結構卷積神經網絡是一個多層的神經網絡,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。網絡中包含一些簡單元和復雜元,分別記為S-元和C-元。S-元聚合在一起組成S-面,S-面聚合在一起組成S-層,用Us表示。C-元、C-面和C-層(Us)之間存在類似的關系。網絡的任一中間級由S-層與C-層串接而成,而輸入級只含一層,它直接接受二維視覺模式,樣本特征提取步驟已嵌入到卷積神經網絡模型的互聯結構中。一般地,Us為特征提取層,每個神經元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來;Uc是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射為一個平面,平面上所有神經元的權值相等。特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡的激活函數,使得特征映射具有位移不變性。此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數的個數,降低了網絡參數選擇的復雜度。卷積神經網絡中的每一個特征提取層(S-層)都緊跟著一個用來求局部平均與二次提取的計算層(C-層),這種特有的兩次特征提取結構使網絡在識別時對輸入樣本有較高的畸變容忍能力。網絡中神經元的輸出連接值符合“最大值檢出假說”,即在某一小區域內存在的一個神經元集合中,只有輸出最大的神經元才強化輸出連接值。所以若神經元近旁存在有輸出比其更強的神經元時,其輸出連接值將不被強化。根據上述假說,就限定了只有一個神經元會發生強化。卷積神經網絡的種元就是某S-面上最大輸出的S-元,它不僅可以使其自身強化,而且還控制了鄰近元的強化結果。因而,所有的S-元漸漸提取了幾乎所有位置上相同的特征。在卷積神經網絡早期研究中占主導的無監督學習中,訓練一種模式時需花費相當長的時間去自動搜索一層上所有元中具有最大輸出的種元,而現在的有監督學習方式中,訓練模式同它們的種元皆由教師設定。

將原始圖像直接輸入到輸入層(Uc1),原始圖像的大小決定了輸入向量的尺寸,神經元提取圖像的局部特征,因此每個神經元都與前一層的局部感受野相連。文中使用了4層網絡結構,隱層由S-層和C-層組成。每層均包含多個平面,輸入層直接映射到Us2層包含的多個平面上。每層中各平面的神經元提取圖像中特定區域的局部特征,如邊緣特征,方向特征等,在訓練時不斷修正S-層神經元的權值。同一平面上的神經元權值相同,這樣可以有相同程度的位移、旋轉不變性。S-層中每個神經元局部輸入窗口的大小均為5x5,由于同一個平面上的神經元共享一個權值向量,所以從一個平面到下一個平面的映射可以看作是作卷積運算,S-層可看作是模糊濾波器,起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數遞增,這樣可用于檢測更多的特征信息。圖4-1卷積神經網絡結構圖4.2神經元模型在卷積神經網絡中,只有S-元間的輸入連接是可變的,而其他元的輸入連接是固定的。用Usl(kl,n)表示第l級,第kl個S-面上,一個S-元的輸出,用Ucl(kl,n)表示在該級第kl個C-面上一個C-元的輸出。其中,n是一個二維坐標,代表輸入層中神經元的感受野所在位置,在第一級,感受野的面積較小,隨后隨著l的增大而增加。(4.1)式(4.1)中al(v,kl-1,k)和bl(k)分別表示興奮性輸入和抑制性輸入的連接系數;rl(k)控制特征提取的選擇性,其值越大,對噪音和特征畸變的容錯性越差,它是一常量,它控制著位于每一S-層處的單個抑制子平面中每個神經元的輸入:rl(k)的值越大,與抑制性成比例的興奮性就得越大,以便能產生一個非零輸出,換句話說就是相當好的匹配才一能激活神經元,然而因為rl(k)還需乘以φ(),所以rl值越大就能產生越大的輸出,相反,小的rl(k)值允許不太匹配的神經元興奮,但它只能產生一個比較小的輸出;φ(x)為非線性函數。v是一個矢量,表示處于n感受野中的前層神經元n的相對位置,Al確定S神經元要提取特征的大小,代表n的感受野。所以式中對v的求和也就包含了指定區域當中所有的神經元;外面對于勺kl-1的求和,也就包含了前一級的所有子平面,因此在分子中的求和項有時也被稱作興奮項,實際上為乘積的和,輸入到n的神經元的輸出都乘上它們相應的權值然后再輸出到nc。(4.2)式(4.2)表示的是指定某級(第l級)、某層(S-層)、某面(第kl個S-面)、某元(向量為n處)的一個輸出。對于一個S-元的作用函數可分為兩部分,即興奮性作用函數和抑制性作用函數。興奮性作用使得膜電位上升,而抑制性作用起分流作用。興奮性作用為:(4.3)S-元與其前一級C-層的所有C-面均有連接,所連接的C-元個數由該S-級的參數感受野Al唯一確定。網絡中另一個重要的神經元是假設存在的抑制性神經元V-元Uvl(n),它位于S-面上滿足以下三個條件:環元的抑制作用影響整個網絡的運作;C-元與V-元間存在著固定的連接;V-元的輸出事先設為多個C-元輸出的平均值??梢杂盟鼇肀硎揪W絡的抑制性作用,發送一個抑制信號給Usl(kl,n)神經元,從與Usl(kl,n)類似的元接收它的輸入連接值,并輸出:(4.4)權cl(v)是位于V—元感受野中的v處的神經元相連的權值,不需要訓練這些值,但它們應隨著│v│的增加而單調減小。因此,選擇式4.5的歸一化權值。(4.5)式4.5中的歸一化常量C由式4.6給出,其中:r(v)是從v處到感受野中心的歸一化距離:(4.6)C神經元的輸出由式4.7給出:(4.7)上式中ψ(x)為:(4.8)式中β為一常量。kl是第l級中的S子平面的數量。Dl是C—元的感受野。因此,它和特征的大小相對應。dl(v)是固定興奮連接權的權值,它是│v│的單調遞減函數。如果第kl個S神經元子平面從第kl-1子平面處收到信號,那么jl(kl,kl-1)的值為,1否則為0。最后,S_層的Vs神經元的輸出為(4.9)圖4-2為卷積神經網絡中不同神經元之間的連接關系圖,從圖中可以很清楚地看出各種不同神經元之間的連接關系。圖4-2卷積神經網絡中不同神經元間的連接4.3卷積網絡的訓練過程神經網絡用于模式識別的主流是有指導學習網絡,無指導學習網絡更多的是用于聚類分析。對于有指導的模式識別,由于任一樣本的類別是已知的,樣本在空間的分布不再是依據其自然分布傾向來劃分,而是要根據同類樣本在空間的分布及不同類樣本之間的分離程度找一種適當的空間劃分方法,或者找到一個分類邊界,使得不同類樣本分別位于不同的區域內。這就需要一個長時間且復雜的學習過程,不斷調整用以劃分樣本空間的分類邊界的位置,使盡可能少的樣本被劃分到非同類區域中。由于本文主要是檢測圖像中的人臉,所以可將樣本空間分成兩類:樣本空間和非樣本空間,因而本文所使用的學習網絡也是有指導的學習網絡。卷積網絡在本質上是一種輸入到輸出的映射,它能夠學習大量的輸入與輸出之間的映射關系,而不需要任何輸入和輸出之間的精確的數學表達式,只要用已知的模式對卷積網絡加以訓練,網絡就具有輸入輸出對之間的映射能力。卷積網絡執行的是有導師訓練,所以其樣本集是由形如:(輸入向量,理想輸出向量)的向量對構成的。所有這些向量對,都應該是來源于網絡即將模擬的系統的實際“運行”結果。它們可以是從實際運行系統中采集來的。在開始訓練前,所有的權都應該用一些不同的小隨機數進行初始化?!靶‰S機數”用來保證網絡不會因權值過大而進入飽和狀態,從而導致訓練失?。弧安煌庇脕肀WC網絡可以正常地學習。實際上,如果用相同的數去初始化權矩陣,則網絡無能力學習。訓練算法主要包括4步,這4步被分為兩個階段:第一階段,向前傳播階段:①從樣本集中取一個樣本(X,Yp),將X輸入網絡;②計算相應的實際輸出Op。在此階段,信息從輸入層經過逐級的變換,傳送到輸出層。這個過程也是網絡在完成訓練后正常運行時執行的過程。在此過程中,網絡執行的是由式(4.7)計算:Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))第二階段,向后傳播階段①計算實際輸出Op與相應的理想輸出Yp的差;②按極小化誤差的方法調整權矩陣。這兩個階段的工作一般應受到精度要求的控制,在這里,用式(4.8)計算Ep。作為網絡關于第p個樣本的誤差測度。而將網絡關于整個樣本集的誤差測度定義為:E=∑Ep。(4.8)如前所述,之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的。因為在開始調整神經元的連接權時,只能求出輸出層的誤差,而其他層的誤差要通過此誤差反向逐層后推才能得到。有時候也稱之為誤差傳播階段。為了更清楚地說明本文所使用的卷積神經網絡的訓練過程,首先假設輸入層、中間層和輸出層的單元數分別是N、L和M。X=(x0,x1,…,xN)是加到網絡的輸入矢量,H=(h0,h1,…,hL)是中間層輸出矢量,Y=(y0,y1,…,yM)是網絡的實際輸出矢量,并且用D=(d0,d1,…,dM)來表示訓練組中各模式的目標輸出矢量輸出單元i到隱單元j的權值是Vij,而隱單元j到輸出單元k的權值是Wjk。另外用θk和φj來分別表示輸出單元和隱含單元的閾值。于是,中間層各單元的輸出為式(4.9):(4.9)而輸出層各單元的輸出是式(4.10):(4.10)其中f(*)是激勵函數采用S型函數式(4.11):(4.11)在上述條件下,網絡的訓練過程如下:1)選定訓練組。從樣本集中分別隨機地選取300個樣本作為訓練組。2)將各權值Vij,Wjk和閾值φj,θk置成小的接近于0的隨機值,并初始化精度控制參數ε和學習率α。3)從訓練組中取一個輸入模式X加到網絡,并給定它的目標輸出矢量D。4)利用式(4.9)計算出一個中間層輸出矢量H,再用式(4.10)計算出網絡的實際輸出矢Y。5)將輸出矢量中的元素yk與目標矢量中的元素dk進行比較,計算出M個輸出誤差項式(4.12):(4.12)對中間層的隱單元也計算出L個誤差項式(4.13):(4.13)6)依次計算出各權值的調整量式(2.14)和式(2.15):(4.14)(4.15)和閾值的調整量式(4.16)和(4.17):(4.16)(4.17)7)調整權值式(4.18)和式(4.19):(4.18)(4.19)調整閾值式(4.20)和(4.21):(4.20)(4.21)8)當k每經歷1至M后,判斷指標是否滿足精度要求:E≤ε,其中E是總誤差函數,且。如果不滿足,就返回(3),繼續迭代。如果滿足就進入下一步。9)訓練結束,將權值和閾值保存在文件中。這時可以認為各個權值已經達穩定,分類器形成。再一次進行訓練時,直接從文件導出權值和閾值進行訓練,不需要進行初始化。5.深度學習的發展與應用5.1深度學習發展機器學習的發展歷程可以大致分為2個階段:淺層學習和深度學習直到近些年,大多數機器學習的方法都是利用淺層結構來處理數據,這些結構模型最多只有1層或者2層非線性特征轉換層.典型的淺層結構有:高斯混合模型(GMMs)、支持向量機(SVM)、邏輯回歸等等.在這些淺層模型中,最為成功的就是SVM模型,SVM使用一個淺層線性模式分離模型,當不同類別的數據向量在低維空間中無法劃分時,SVM會將它們通過核函數映射到高維空間中并尋找分類最優超平而.到目前為止,淺層結構己經被證實能夠高效地解決一些在簡單情況下或者給予多重限制條件下的問題,但是當處理更多復雜的真實世界的問題時,比如涉及到自然信號的人類語音、自然聲音、自然語言和自然圖像以及視覺場景時他們的模型效果和表達能力就會受到限制,無法滿足要求。早在1974年PaulWerhos提出了反向傳播(backpropagation,BP)算法,解決了由簡單的祌經網絡模型推廣到復雜的祌經網絡模型中線性不可分的問題,但反向傳播算法在祌經網絡的層數增加的時候參數優化的效果無法傳遞到前層,容易使得模型最后陷入局部最優解,也比較容易過擬合。在很長一段時間里,研究者們不知道在有著多層全連接的祌經網絡上怎樣高效學習特征的深度層次結構。2006年,Hinton提出了深度置信網絡(deepbe-liefnetwork,DBN),這個網絡可以看作是由多個受限玻爾茲曼機(restrictedboltzmannmachines,RBM)荇加而成.從結構上來說,深度置信網絡與傳統的多層感知機區別不大,但是在有監督學習訓練前需要先無監督學習訓練,然后將學到的參數作為有監督學習的初始值.正是這種學習方法的變革使得現在的深度結構能夠解決以往的BP不能解決的問題。隨后深度結構的其他算法模型被不斷地提出,并在很多數據集上刷新了之前的一些最好的記錄,例如2013年WanLi等提出的dropconnect規范網絡,其模型在數據集CIFAR-10上的錯誤率為9.32%,低于此前最好的結果9.55%,并在SVHN上獲得了1.94%的錯誤率,低于此前最好的結果2.8%等等。5.2深度學習的應用深度學習從2006年開始在語音識別計算機視覺圖像識別自然語言處理和信息檢索上面都取得了較好效果,在不同的數據集以及工業應用上都表現出遠超以往淺層學習所能達到的最好的效果。5.2.1深度學習在語音識別領域研究現狀長期以來,語音識別系統大多是采用混合高斯模型(GMM)來描述每個建模單元的統計概率模型。由于這種模型估計簡單,方便使用大規模數據對其訓練,該模型有較好的區分度訓練算法保證了該模型能夠被很好的訓練。在很長時間內占據了語音識別應用領域主導性地位。但是這種混合高斯模型實質上是一種淺層學習網絡建模,特征的狀態空間分布不能夠被充分描述。而且,使用混合高斯模型建模方式數據的特征維數通常只有幾十維,這使得特征之間的相關性不能被充分描述。最后混合高斯模型建模實質上是一種似然概率建模方式,即使一些模式分類之間的區分性能夠通過區分度訓練模擬得到,但是效果有限。在過去幾十年中,語音識別領域的研究者們都把精力用在基于HMM-GMM的系統,而忽略了原始語音數據內部原有的結構特征。深度神經網絡DNN在2010年開始被引入處理語音識別問題,因為DNN對數據之間的相關性有較大的容忍度,使得當GMM被DNN替換時,效果明顯有了飛躍。2012年,微軟公司一個基于深度學習的語音視步頁檢索系統(Microsoftaudiovideoindexingservice,MAVIS)成功問世,將單詞錯誤率降低了30%(從27.4%到18.5%)。2014年IBM的沃森研宄中心的T.N.Sainath的工作結果顯示DNN比以往過去的GMM-HMM模型有8%?15%的提升,而CNN相比于一般DNN來說能對數據間強烈的相關性有更強的適應力,同時足夠深的網絡還有對數據的平移不變性的特性。5.2.2深度學習在計算機視覺領域研究現狀深度學習在計算機視覺上的成功應用,主要體現在對象識別和人臉識別領域上。過去很長一段時間,機器視覺中的對象識別一直依賴于人工設計的特征,例如尺度不變特征轉換(scaleinvariantfeaturetransform,SIFT)剛和方向梯度直方圖(histogramoforientedgradients,HOG),然而像SIFT和HOG這樣的特征只能抓取低等級的邊界信息。針對以往小規模樣本所無法表現的真實環境中更復雜的信息,2010年人們引入了更大的數據集,例如ImageNet數據集中有著15百萬的標記高分辨率圖像和超過2萬2千個類別.A.Krizhevsky等在2012年通過訓練一個大的深度祌經網絡來對ImageNetLSVRC-2010中包含著1000個不同類別的1.2百萬個高分辨率圖像進行分類。在測試數據中,他們在top-1和top-5上的錯誤率是37.5%和17.0%,刷新了這個數據集的最好記錄。5.2.3深度學習在自然語言處理領域研究現狀自然語言處理(naturallanguageprocessing,NLP)意在將人類語言轉換到能夠容易地被計算機操作的表征的過程。大多數的研宄者將這些問題分離式考慮,例如詞性標注、分塊、命名實體識別、語義角色標注、語言模型和語義相關詞等,而沒有注重到整體性,使得自然語言處理領域中的進展不是很樂觀。具體來說現有的系統有3個缺陷:①它們都是淺層結構,而且分類器通常是線性的;②對于一個效果好的線性分類器來說,它們必須事先用許多人工特征來預處理;③從幾個分離的任務中進行串聯特征以至于誤差會在傳播過程中增大。2008年R.Collobert等通過將一個普通的深度神經網絡結構用于NLP,在“學習一個語言模式”和“對語義角色標簽”任務上通過將重點關注到語義角色標簽的問題上進行了沒有人工設計特征參與的訓練,其錯誤率為14.3%的結果刷新了最好記錄。5.2.4深度學習在圖像識別領域研究現狀對于圖像的處理是深度學習算法最早嘗試應用的領域。早在1989年,加拿大多倫多大學教授YannLeCun就和他的同事們一起提出了卷積神經網絡(ConvolutionalNeuralNetworks)。卷積神經網絡也稱為CNN,它是一種包含卷積層的深度神經網絡模型。通常一個卷積神經網絡架構包含兩個可以通過訓練產生的非線性卷積層,兩個固定的子采樣層和一個全連接層,隱藏層的數量一般至少在5個以上。CNN的架構設計是受到生物學家Hubel和Wiesel的動物視覺模型啟發而發明的,尤其是模擬動物視覺皮層VI層和V2層中簡單細胞(SimpleCell)和復雜細胞(C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論