




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree for the Master of EngineeringResearch on Facial Emotion RecognitionUsing Deep LearningCandidate: Chen WenfengMajor: Software EngineeringSupervisor: Prof. Shen GangHuazhong University of Science & TechnologyWuhan 430074,
2、P.R.ChinaDecember, 2017華技大 學(xué)摘要人臉表情包含豐富的情感信息,是人類情緒表達最重要的方式之一。人臉表情識別即通過計算機識別人臉的各種表情,進而分析表情所代表的情緒、意圖等。人臉表情識別可以用于刑偵測謊、服務(wù)、輔助診斷、人機交互等方面。長期以來,人臉表情識別一直是計算機視覺和人工智能研究的重要領(lǐng)域。近年來,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類各方面有效統(tǒng)計數(shù)據(jù)集急劇增加,計算機硬件性能飛速提升,為深度學(xué)習(xí)領(lǐng)域帶來了新一輪的發(fā)展與。深度學(xué)習(xí)與傳統(tǒng)手工提取特征方法(SIFT、HOG、GLOH、SURF 等)不同,通過深度學(xué)習(xí)的方法可以得到學(xué)習(xí)能力更強、泛化能力更佳的數(shù)據(jù)特征。本文通過
3、采用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Convolutional Neural Network,)對人臉面部表情特征進行訓(xùn)練學(xué)習(xí),并人臉檢測與表情識別過程中所遇到的人臉光照強度不同,人臉位置偏移,部分表情間差異細微,多表情分類等復(fù)雜問題,提出并設(shè)計了以下兩種改進方案:首先,為了解決復(fù)雜多人臉檢測中常見的半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下的人臉問題,設(shè)計了一種并聯(lián)PNet 卷積層的改進型多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks,MT);其次,為增強輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眉毛,眼睛,
4、鼻子,嘴巴)進行提取,并對其進行灰度增強處理后為偽彩色,并設(shè)計了一種基于輪廓增強的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinforcement Neural Network,CRNN)用以解決人臉表情特征不明顯問題。經(jīng)過實驗結(jié)果表明,上述所提出的改進方案的確有助于提高人臉檢測準確率,提高人臉表情識別效果,并在公開的人臉數(shù)據(jù)集 wider face、CK+中進行檢測與表情識別實驗均取得較高的正確率。:表情識別深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)神經(jīng)網(wǎng)絡(luò)I華技大學(xué)AbstractFacial expression contains rich emotional information, which is one
5、of the most important ways of human emotion expression. Facial expression recognition means recognizing all kinds of facial expressions by computer, and then analyzing the emotions and intentions. It can be used in criminal detection, lie detection, service monitoring, auxiliary diagnosis, human-mac
6、hine interaction and so on. Facial expression recognition has been an important field of computer vision and artificial intelligence for a long time. In recent years, with the rapid development of Internet, the effective statistics datasets in all aspects of human society have increased dramatically
7、, and the performance of computer hardware has increased rapidly, which has brought a new round of development and breakthrough for the field of deep learning.Deep learning is different from traditional manual feature extraction methods (SIFT, HOG, GLOH, SURF and others). Through deep learning, we c
8、an get data features with stronger learning and generalization ability. By using the structure of convolutional neural network in deep learning for facial expression feature training and learning, in view of the complex problems of human face recognition, such as different illumination intensity, di
9、splacement of face position, partial difference between expression and multi expression classification, two improved schemes are proposed and designed:(1) In order to locate the face more accurately, the traditional location method based on the face Haar feature classifier is abandoned, we try to us
10、e Multi-Task Cascaded Convolutional Networks to solve the occlusion, half side, skew, weak light environment face location problem. (2) In order to enhance the input information of facial expression and facial expression and improve the expression of core feature, we extract facial contour, and the
11、gray enhancement processing maps for the pseudo color, and designed a Convolutional Neural Network based on Contour Reinforcement is used to solve the problem of facial features is not obvious.The experimental results show that the proposed improvement scheme does help to improve the accuracy of fac
12、e detection, the effect of facial expression recognition, andachieve higher accuracy in public face database wider face and CK+.Key words:Facial expression recognitionDeep LearningCRNNMTII華技大 學(xué)目錄摘要IAbstractII11.11.21.3緒論研究背景及應(yīng)用前景(1)國內(nèi)外研究現(xiàn)狀(3)主要工作內(nèi)容(9)22.12.22.32.4相關(guān)技術(shù)分析人工神經(jīng)網(wǎng)絡(luò)(11)) . (14)卷積神經(jīng)網(wǎng)絡(luò)(多任務(wù)級聯(lián)
13、卷積神經(jīng)網(wǎng)絡(luò)(MT) . (17)本章小結(jié)(18)33.13.23.33.4表情識別算法設(shè)計人臉檢測模塊設(shè)計(19)表情識別模塊設(shè)計(27)人臉表情識別系統(tǒng)實現(xiàn)(42)本章小結(jié)(43)44.14.24.3實驗結(jié)果與數(shù)據(jù)分析人臉檢測結(jié)果分析(44)表情識別結(jié)果分析(48)本章小節(jié)(52)III華技大學(xué)5總結(jié)與展望5.1全文總結(jié)(53)5.2展望(53)致 謝(55)參考文獻(56)IV華技 大 學(xué)1緒論1.1研究背景及應(yīng)用前景人臉表情是人類交流的一種重要表達方式,是人類情緒的重要特征。通過對人臉表情,可以獲取其內(nèi)心活動、動作意圖、情感趨勢等重要信息。在日常生活中,人們能通過不同的表情,準確而又細
14、微地表達當(dāng)前的內(nèi)心情感和對外界事物的態(tài)度,面部表情不僅是反映人類內(nèi)心情感變化的重要,還是人類相互交流中不可或缺的紐帶。早在 19 世紀人們就已經(jīng)對面部表情特征展開研究,著名生物學(xué)家 Darwin 指出現(xiàn)代人類表情是人類祖先面部動作的遺跡,這些人類表情動作最初具有適應(yīng)意義1。研究者們在生物學(xué)和心理學(xué)上對表情的分類與細化做了大量的工作,產(chǎn)生了多種不同的表情分類及表征方法。其國心理學(xué)家 P.Ekman 所進行的基本情緒模型研究影響最為深遠,他所提出的采用運動單元(Action Unit,AU)描述人類情緒的面部表情運動編碼系統(tǒng)(Face Action Coding System,F(xiàn)ACS)也為近 4
15、0 年的情緒理論研究提供了穩(wěn)定的理論模型,而且對計算機視覺尤其是人類表情識別領(lǐng)域起到了積大的推動作用2。FACS 不僅描述了人臉表情的不同特征,更重要的是為人類面部表情的劃分提供了精準的定義。FACS 包含有 46 個基本的 AU,其中包括眉毛、眼睛、鼻子、嘴、下巴等面部基本面生理結(jié)構(gòu)。每一個基本的 AU 所能表征的情緒特征有限,但是通過對不同的 AU 進行組合,可以表征出人類幾乎所有的表情模型。FACS 理論的提出為計算機視覺中人臉表情劃分與定義提供了一個重要的標準,更成為人類表情研究進程中的里程碑。人臉表情識別的重要目的之一,就是希望能讓計算機能對人臉進行準確的表情分類,并結(jié)合其他數(shù)據(jù)對表
16、情背后的內(nèi)心活動、心理情緒進行綜合分析,為人類提供有效的決策數(shù)據(jù)與反饋。不僅如此,人臉表情識別技術(shù)在以下領(lǐng)域也有著廣泛的應(yīng)用情景:(1)服務(wù)行業(yè)1華技大學(xué)服務(wù)態(tài)度的優(yōu)質(zhì)程度直接影響著公司的口碑及營收,尤其是面對面服務(wù)行業(yè),如柜臺、教育、公共交通等領(lǐng)域,而服務(wù)者的面部表情直接反映了其對客戶的服務(wù)態(tài)度。微笑是服務(wù)行業(yè)工作者的基本素養(yǎng),2017 年 1 月福建省臺州市機場高速首次推出了“微笑識別器”,其可以通過分析嘴唇曲線,眉毛角度,眼神等對服務(wù)的微笑進行打分,然后將打分數(shù)據(jù)上傳云端作為服務(wù)指標。目前此類正逐步應(yīng)用于服務(wù)行業(yè)的各領(lǐng)域,以提高服務(wù)的服務(wù)質(zhì)量。(2)刑偵測謊心理學(xué)的研究表明人在撒謊時,其
17、內(nèi)心世界是復(fù)雜與掙扎的,人的表情會不自覺地發(fā)生細微的變化以掩飾其內(nèi)心的緊張感。在之前很受歡迎的美劇Lie to me中,Ekman 教授通過識別人的表情來一個人是否在說謊。雖然目前尚未出現(xiàn)較為成基于表情的測謊儀器,但是表情作為人內(nèi)心心里活動的重要表征,目前已經(jīng)成為學(xué)術(shù)界研究的重要領(lǐng)域。表情識別用于刑偵測謊,將極大提高的偵破效率,營造更佳安全的氛圍。(3)人機交互目前較為常用的人機交互點擊,觸摸,語音等,然而目前這些傳統(tǒng)的交互為單方面輸入,根據(jù)輸入信息進行相應(yīng)反饋,無法根據(jù)操作者當(dāng)前表情進行有性的結(jié)果反饋。采用表情識別技術(shù)可以操作者當(dāng)前的異常表情,采取必要的緊急措施,降低事故風(fēng)險。例如,通過對汽
18、車駕駛員的面部定時進行特征采樣并分析其表情特征,對異常的面部表情信息(疲勞,困倦等)進行云端告警并通知第平臺或交通部門采取相應(yīng)措施,避免交通意外。(4)個性化推薦推薦系統(tǒng)是目前投放中最為的技術(shù)之一,通過對用戶畫像,綜合用戶歷史數(shù)據(jù)信息,用戶當(dāng)前可能的商品并予以推薦展示。但是,人處在不同的情緒中所希望接受的推薦信息是不同的,例如,在流行的音樂 app 音樂中,其所推薦的音樂是根據(jù)用戶歷史數(shù)據(jù)及用戶畫像等其他信息進行所得,然而人在不同的心情下所希望聽到的音樂具有極大的差異性。通過對用戶當(dāng)前表情的分析,得到用戶當(dāng)前的心境,結(jié)合傳統(tǒng)推薦系統(tǒng)篩選出符合用戶當(dāng)前心境的歌曲,2華技大學(xué)將極大增強用戶體驗,提
19、高用戶黏度。1.2國內(nèi)外研究現(xiàn)狀隨著大數(shù)據(jù)及人工智能的發(fā)展,獲取的信息以促進人類達到更高的智能化,已經(jīng)成為學(xué)術(shù)界及商業(yè)領(lǐng)域追求的目標。人臉表情作為人類重要的生理信息有著廣泛的應(yīng)用前景與極高的商業(yè)價值,因此,人臉表情識別問題一直是計算機視覺及整個人工智能領(lǐng)域研究的熱點問題。目前表情識別在國內(nèi)迅速發(fā)展,各種新興公司及研究機構(gòu)乘著人工智能的浪潮如雨后春筍般不斷涌現(xiàn),其中具有代表性的有如下公司及研究機構(gòu):(1)Face+(曠視科技)Face+是一家以人工智能為的高新技術(shù)公司,其擁有行業(yè)領(lǐng)先的硬件技術(shù)、軟件算法、解決方案3。Face+人臉識別技術(shù)在 2017 年被MIT 科技評論評定為2017 世界十大
20、前沿科技。以下為使用曠視科技提供的開放平臺所得到的表情識別結(jié)果:圖 1-1Face+ 開放平臺表情識別結(jié)果(2)騰訊優(yōu)圖作為Tencent 頂級的人工智能研發(fā)團隊,該團隊專注于圖像處理、模優(yōu)圖式識別、深度學(xué)習(xí)。優(yōu)圖在人臉檢測、五官、人臉識別、表情識別、圖像理解等領(lǐng)域都有著深厚的積累和技術(shù)底蘊,其科研能力與技術(shù)實際落地水平也一直處于行業(yè)最前列4。以下為使用騰訊優(yōu)圖情識別結(jié)果:提供的開放平臺所得到的表3華技 大學(xué)圖 1-2Face+ 開放平臺表情識別結(jié)果(3)Tuputech(科技)Tuputech 是國內(nèi)頂尖的專注于計算機視覺和深度學(xué)習(xí)領(lǐng)域的創(chuàng)新型人工智能公司,致力于引領(lǐng)人工智能的科研與技術(shù)落地
21、5。Tuputech 在智能鑒黃、證件識別、檢測、人臉識別、表情識別、圖像理解等方面都有著的科研與深厚的技術(shù)積累。以下為使用科技的開放平臺所得到的表情識別結(jié)果:圖 1-3Tuputech 表情識別效果圖同時人臉識別技術(shù)也一直是國外研究機構(gòu)追逐的熱點,其中在國外具有代表性的公司及研究機構(gòu)如下:(1)Microsoft Azure微軟作為最早從事人臉識別研究,并最早推出人類識別應(yīng)用的頂尖 IT 公司之一,其在人工智能領(lǐng)域所取得的性成就也是世界公認。以下為調(diào)用其開放接4華技 大學(xué)口所得到的表情識別結(jié)果圖:圖 1-4Microsoft Azure 表情識別結(jié)果圖(2)IMOTIONSIMOTIONS
22、公司作為國外最早從事表情識別研究的機構(gòu)之一,從 2005 開始持續(xù)在人臉識別、視線跟蹤、人臉表情分析等領(lǐng)域?qū)υ蟹桨缸龀鲂碌母倪M,其在流中對人臉表情持續(xù)監(jiān)測的技術(shù)目前處于業(yè)界前列。以下為其在流中對人臉表情持續(xù)性監(jiān)測的效果圖:圖 1-5IMOTIONS流中表情識別效果圖通過對國內(nèi)外頂尖研究機構(gòu)及商業(yè)團體目前在表情識別領(lǐng)域的最新進展與測試結(jié)果的研究可以得出:目前在計算機視覺領(lǐng)域,人臉識別仍然是各大商業(yè)團體追逐最為焦灼的熱土,表情識別作為人臉識別領(lǐng)域更為次的探究,仍有較大提升空間與研究價值。1.2.1人臉基本表情定義人臉表情識別(Facial Expression Recognition,F(xiàn)ER)技
23、術(shù)通常由人臉檢測、人臉5華技大學(xué)區(qū)域提取、表情特征提取、表情分類四個關(guān)鍵部分組成,各組成部分分別對圖像中的人臉進行檢測與特征提取及最終的分類。著名心理學(xué)家P.Ekman 和 Friesen歸納總結(jié)了高興 Happy、悲傷 Sad、驚訝 Surprise、平靜 Nature、憤怒 Angry、厭惡Disgust 等幾種常見人類表情特征6,并在此基礎(chǔ)上系統(tǒng)地建立了覆蓋人類所有基本情緒的人臉表情圖像庫。人類常見表情的研究與人臉表情圖像庫的建立,為此后人類對人臉表情識別的研究與發(fā)展奠定了基本的理論基礎(chǔ)與 準則7。人類常見基本表情的確定,成為了后續(xù)人類表情識別相關(guān)研究的基礎(chǔ),也為推動人類表情識別相關(guān)技術(shù)
24、的發(fā)展與技術(shù)的實際落地做出了巨大的貢獻。1.2.2人臉運動編碼系統(tǒng)(FACS)美國心理學(xué)家 P.Ekman 和 Friesen 于 1978 年提出了著名的人臉運動編碼系統(tǒng)(Facial Action Coding System, FACS)用于描述人類面部表情和研究人類的認知行為,將整個面部結(jié)構(gòu)劃分為 46 個運動單元(Action Unit,AU),并對其所表征的相關(guān)表情進行了大量的歸納統(tǒng)計與深入研究8-10。研究還對其中每一個運動單元的表息與具體特征做了詳盡的分析與統(tǒng)計,如運動單元 1,常見人臉面部特征為眉間上揚、眼距增加,通常表示此人當(dāng)前可能處于驚訝、恐懼或者悲傷的心情狀態(tài),對每個基本
25、運動單元表情特征的研究與統(tǒng)計成為了人臉運動編碼系統(tǒng)的基礎(chǔ)。人臉運動編碼系統(tǒng)于 2002 年推出了更新的AU 劃分方式,新的基本運動單元劃分方式在原有系統(tǒng)方式基礎(chǔ)之上,進行了小部分增加和修改,然而 46 個基本運動單元的劃分是目前計算機視覺人臉表情識別領(lǐng)域的權(quán)威參考準則與劃分標準,目前各大研究機構(gòu)及商業(yè)公司均在數(shù)據(jù)集上進行著人臉方面的各項研究及技術(shù)落地。如表1-1 人臉運動編碼系統(tǒng)常見運動單元中所整理,該表中列出了部分基本運動單元在人臉面部中的具體形態(tài)與所對應(yīng)的常見情緒種類,雖然人臉運動編碼系統(tǒng)僅定義了46 種人臉基本的運動單元,但是通過不同人臉基本運動單元的組合,基本可以塑造出人臉面部所有的面
26、部特征與表情種類,此種運動單元的劃分方式表現(xiàn)了人臉運動編碼系統(tǒng)所具有的靈活的組合性能與極強完備性,46 種人臉基本的運動單元的組合了本文后續(xù)表情研究的基礎(chǔ),也為其他與人臉表情相關(guān)的研究提供了重要的理論依據(jù)與參考標準。6華技大學(xué)表 1-1FACS 常見運動單元(AU)正是因為 FACS 中AU 所具有的靈活性與適配性,F(xiàn)ACS 成為了人臉表情識別領(lǐng)域不同表情劃分與評判的理論基礎(chǔ)與評判準則11,為推動計算機學(xué)習(xí)識別人類情緒做出了劃的意義,同時也為計算機視覺領(lǐng)域關(guān)于表情的研究奠定了堅實的基礎(chǔ)。1.2.3表情識別方法概述人臉表情識別通常由(1)人臉識別;(2)人臉圖像獲取;(3)人臉圖像預(yù)處理;(4)
27、表情特征提取;(5)分類器設(shè)計;(6)表情分類識別,這幾個基本流程所組成12。首先,計算機通過攝像頭對人臉進行采樣識別,進行準確后獲取人臉圖片,接著將得到的人臉圖片進行預(yù)處理。最后,對預(yù)處理后的人臉圖像進行表7AU/常見情緒運動特征/ 面部圖像面部表現(xiàn)AU/常見情緒運動特征/ 面部圖像面部表現(xiàn)1(驚訝、恐懼、悲傷)1. 眉毛上揚2. 眼距增加2/(驚訝、恐懼)1. 眉外側(cè)上升2. 額外側(cè)收縮4/(恐懼、憤怒)1. 降眉間肌2. 眉毛下壓9/(憤怒、厭惡)1. 皺起鼻肌2. 眉外側(cè)降低12/(愉快、假笑)1. 嘴角上揚2. 臉部堆積20/(恐懼、焦慮)1. 唇角外拉2. 鼻孔擴張23(憤怒、不滿
28、、焦慮)1. 收緊雙唇2. 嘴唇前突26/(驚訝、恐懼)1. 下巴降低2. 雙唇華技大學(xué)情特征提取,并通過設(shè)計好的人臉表情分類器對圖片進行表情分類識別。圖 1-6傳統(tǒng)人臉識別的主要流程常用的表情特征提取方法有:(1)主動形狀模型(Active Shape M, ASM)根據(jù) FACS 的基本運動單元劃分準則,可以發(fā)現(xiàn)各表情之間具有相對應(yīng)的面部生理和運動特征,因此,我們可以通過對這些表征人臉表情的面部進行幾提取。主動形狀模型(ASM)通過對訓(xùn)練集中標定的人臉特征點進行學(xué)何特征習(xí),然后再通過搜索最佳匹配點對人臉特征點進行13-15。在人臉標定中以人臉特征點的坐標依次串聯(lián)組成一個類似人臉形狀的表征&
29、#119883;",這里𝑋"即為人臉的表征。,𝑋 =𝑥 ,𝑦 ,𝑥 ,𝑦 ,𝑥,𝑦(1.1)""%"%"'"'"()*')"()*')圖 1-7人臉常見關(guān)鍵特征點標定圖8華技大學(xué)(2)光流法(Optical Flow, OF)光流的概念是 Gibson 在 1950 年首次提出來的。光流法是通過觀察運動物體在成像平面上像素點運動的速度分布,利用相鄰
30、幀間存在的相應(yīng)關(guān)系,計算出運動物體法16-19。光流中包含了相鄰幀之間人臉對象的運動信息,根據(jù)這些運信息的動信息可以確定人臉運動類別。由于光流法所提取的是運動物體間相鄰幀的信息,因此,在人臉表情的動態(tài)分析中被廣泛使用。(3)紋理特征提取法紋理特征雖然是一種全局特征,但不能完全反映出對應(yīng)物體的本質(zhì)屬性,所以次的圖像內(nèi)容20,21。但是對于人臉表情的形狀,在很大程度上能表征人的表情,僅僅依靠紋理特征無法獲得目標物體更識別而言,人臉面部肌肉的不同變化所這種變化通過人臉表面輪廓的舒張可以在圖像中顯著的表現(xiàn)出來,通過提取這些人臉表面的紋理特征可以對人臉表情進行識別。1.3主要工作內(nèi)容(1)研究如何改進人
31、臉表情識別問題中人臉位置標定的問題在傳統(tǒng)基于人臉特征所進行的人臉識別中遇到半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下無法準確人臉的問題,設(shè)計了一種并聯(lián)PNet 卷積層的改進型多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks, MT人臉位置標定精度,為后續(xù)表情識別提供了準確的人臉數(shù)據(jù)。(2)研究如何改進人臉表情識別中特征提取的問題)提高為了增強輸入人臉表情圖片所包含信息,提高表情特征提取效果,將人臉輪廓(含臉部輪廓,眼睛,鼻子,嘴巴)進行提取,并對其進行灰度增強處理后為偽彩色,并設(shè)計了一種基于輪廓增強的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinf
32、orcement Neural Network, CRNN)用以解決上述問題。(3)在公開的人臉數(shù)據(jù)集 wider face、CK+中對上述改進方案進行了實驗測試與數(shù)據(jù)分析,證明了其在人臉表情識別方面比傳統(tǒng)的人臉特征提取方案的確具有更高的效率與更好的準確率。主要分為五個章節(jié),每個章節(jié)所包含的內(nèi)容以及各個章節(jié)之間的關(guān)系如下:9華技大學(xué)第一章緒論部分。概括性的介紹了人臉表情識別的研究背景、研究意義、應(yīng)用前景。并介紹了人臉表情的基本定義、人臉運動編碼系統(tǒng)、傳統(tǒng)人臉識別方法以及國內(nèi)外人臉表情識別研究的最新趨勢與進展。第二章相關(guān)技術(shù)分析。介紹了深度學(xué)習(xí)相關(guān)的基本原理與卷積神經(jīng)網(wǎng)絡(luò)的基本工作方式,并對人工
33、神經(jīng)網(wǎng)絡(luò)及卷積神經(jīng)網(wǎng)絡(luò)中的基本結(jié)構(gòu)與要素做了簡要的說明與闡述,接著簡要介紹了實際應(yīng)用中人臉檢測網(wǎng)絡(luò)模型 MT學(xué)習(xí)在計算機視覺領(lǐng)域的作用與實際應(yīng)用做了簡要說明。,最后對深度第三章表情識別算法設(shè)計。主要對所設(shè)計的人臉檢測模塊、人臉表情識別模塊進行了詳細闡述,說明了人臉檢測模塊的設(shè)計原理,人臉檢測模塊的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)模型訓(xùn)練過程;同時,對增強輪廓型處理的過程及結(jié)果,進行了原理性闡述與處理前后樣本效果圖對比,然后對新提出的 CRNN 網(wǎng)絡(luò)進行了網(wǎng)絡(luò)結(jié)構(gòu)分析、訓(xùn)練過程闡述及與 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)對比,最后完成并實現(xiàn)了該人臉表情識別系統(tǒng)。第四章實驗結(jié)果與數(shù)據(jù)分析。對上一章節(jié)中所設(shè)計的人臉檢測模塊、人
34、臉表情識別模塊進行檢測,最后通過實驗測試與數(shù)據(jù)分析,證實了所設(shè)計的人臉檢測模塊具有較高檢測準確率的同時,還具有訓(xùn)練效率高,運行速度較快等優(yōu)點,所設(shè)計的人臉表情識別模塊的確有助于提高人臉表情識別的準確率。第五章總結(jié)與展望。總結(jié)性地介紹了整篇的工作成果與最終結(jié)論,并對人臉表情識別中仍需優(yōu)化的問題給予了新的思路與優(yōu)化意見。10華技 大學(xué)2相關(guān)技術(shù)分析深度學(xué)習(xí)(Deep Learning)是學(xué)習(xí)(Machine Learning)的一個分支,它能夠使計算機通過層次概念來學(xué)習(xí)經(jīng)驗和理解世界22。因為計算機能夠從經(jīng)驗中獲取知識,所以不需要人類來形式化地定義計算機需要的所有知識。深度學(xué)習(xí)問題中采用的模型一般
35、比較復(fù)雜,樣本的原始輸入到目標輸出之間的數(shù)據(jù)流通常會經(jīng)過多個線性或非線性的組件。本章將介紹人工神經(jīng)網(wǎng)絡(luò)的定義與基本結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)的定義與結(jié)構(gòu),并將簡要介紹人工神經(jīng)網(wǎng)絡(luò)中的反向算法及卷積神經(jīng)網(wǎng)絡(luò)中各層的層級結(jié)構(gòu)及實現(xiàn)原理。2.1人工神經(jīng)網(wǎng)絡(luò)2006 年,“深度置信網(wǎng)絡(luò)23-25”被發(fā)布在了著名期刊Science上,該概念的提出極大影響了人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。深度置信網(wǎng)絡(luò)通過計算預(yù)處理讓整體的網(wǎng)絡(luò)結(jié)構(gòu)得到一個相對最優(yōu)值,在此最優(yōu)值的基礎(chǔ)上通過微調(diào)技術(shù),來對整個網(wǎng)絡(luò)進行優(yōu)化26。2012 年 Hinton 團隊用 Yann LeCun 所成名的網(wǎng)絡(luò)中所提及的 Fine-turning 技術(shù),打敗了
36、其他傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)及上面深度置信學(xué)習(xí)方法,一舉贏得了ImageNet 的圖片分類項目冠軍,自此深度學(xué)習(xí)迎來了蓬勃的發(fā)展與追逐的熱潮27。圖 2-1人工神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,圖 2-2 展示了生物學(xué)上的神經(jīng)元和人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本11華技大學(xué)的神經(jīng)元,可以看出人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元是生物學(xué)神經(jīng)元的粗略模擬和結(jié)構(gòu)。圖 2-2生物學(xué)與人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元對于圖 2-2 中人工神經(jīng)網(wǎng)絡(luò)神經(jīng)元的輸入輸出關(guān)系,我們可以用如下方程組進行描述:)𝑧 =𝑤" 𝑎" + 𝑏(2.1)(2.2)(模擬生"1
37、't其中𝑎"𝑎:為輸入=g(z)(如圖 2-2 中輸入信號𝑥',𝑥),𝑤'𝑤:為物學(xué)神經(jīng)元突觸),b 是偏置量(圖 2-2 中偏置節(jié)點為+1),a 為經(jīng)過激勵函數(shù) g(z)后的最終輸出。多個神經(jīng)網(wǎng)絡(luò)基本的級聯(lián)了人工神經(jīng)網(wǎng)絡(luò),神經(jīng)元通過從上層到下層串聯(lián)的方式連接,信號在兩級的神經(jīng)元之間傳遞帶上該神經(jīng)元對應(yīng)的。圖2-3 展示了一個簡單的神經(jīng)網(wǎng)絡(luò), 其中包括 Layer 𝐿'輸入層,Layer 𝐿隱藏層和Layer 𝐿
38、;=輸出層。在圖 2-3 所示的人工神經(jīng)網(wǎng)絡(luò)中,Layer 𝐿'中 4 個節(jié)點均稱為“輸入節(jié)點”,Layer𝐿中最下為偏置節(jié)點,只固定輸出不接受任何輸入。如圖 2-3 所示的簡單人工神經(jīng)表示為: (𝑊,𝑏) =網(wǎng)絡(luò)通過人工神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型可以簡單地用數(shù)學(xué)表(𝑊('), 𝑏('), 𝑊(;),𝑏(;) )。因此,當(dāng) l=1 時,a(') = x。在給參數(shù) W,b 的情況下,依次對神經(jīng)網(wǎng)絡(luò)模型中的單個節(jié)點計算后面每一層的輸出值,這一依次對輸
39、入信號進行向前傳遞的過程即為前向。圖 2-3 展示了一組基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中前向的示意圖,各節(jié)點從前依次傳遞傳入信息,輸入信息經(jīng)過各節(jié)點不同處理后傳遞。12華技大學(xué)圖 2-3神經(jīng)網(wǎng)絡(luò)前向示意圖a ;= f(W(')x'W(')x;W(')x=b(') )+(2.3)'''''='a ;= f(W(')x'W(')x;W(')x=b(') )(2.4);'=;a ;= f(W(')x'W(')x;W(')x=b(') )(
40、2.5)='=;=(x) = a= f(W(;)a ; +W(;)a ;W(;)a ;b(;) )=h+(2.6)F,G''''''='a # a # a # h&,(x)分別表示圖 2-3 所示人工神經(jīng)網(wǎng)絡(luò)中第 2 層第 1 個節(jié)"#$點,第 2 層第 2 個節(jié)點,第 2 層 3 個節(jié)點以及最終節(jié)點的輸出信號。將公式 2.6 括和W(;)a ;+ b(;) 定義為參數(shù)W(;)a ;W(;)a ;+號里較長的輸入信號''''.'='z($) l i z (W(-)
41、x,b(-) ),則節(jié)點輸出=+",/-"","可以簡化為a H = f(z(H) ) 。圖 2-4神經(jīng)網(wǎng)絡(luò)反向示意圖13華技大學(xué)梯度下降(Gradient Descent)即通過求得函數(shù)當(dāng)前點所對應(yīng)的梯度值,沿著梯度的反方向前進一定的步長得到新的點,然后在此點的基礎(chǔ)上依次迭代搜索可以得到該函數(shù)的局部最小值28。由圖 2-4 不難發(fā)現(xiàn),輸出層節(jié)點e 的前置節(jié)點為隱層節(jié)點c 和d,因此對于節(jié)點e 的誤差不可能被節(jié)點 c 獨有,而是要服從按勞分配的原則(按權(quán)重 W 分配)。同理輸出層節(jié)點 f 的誤差也需服從按勞分配的原則,而輸出層的節(jié)點 e 分別指向了隱層節(jié)
42、點 c 和 d,因此對于節(jié)點 e 的誤差可以表示為:% ()% ()!"#=&&!+&(!()()+#()()+-(2.7)%&& %(&%&( %(% ()% () &&&(!"#"$!+#+$% () % ()% () % ()&&(&()&() (2.8)!%(&%(% () % ()% () % ()&&(&&(2.2卷積神經(jīng)網(wǎng)絡(luò)()卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)中的神經(jīng)元除了關(guān)注自身特征外
43、還能與周圍神經(jīng)元協(xié)同處理,尤其是在計算機視覺與圖像處理領(lǐng)域有著出色的表現(xiàn)29,30。2.2.1網(wǎng)絡(luò)結(jié)構(gòu)一個卷積神經(jīng)網(wǎng)絡(luò)通常由若干卷積層(Convolution Layer)、(PoolingLayer)、全連接(Dense Layer)組合而成。其常用組合模型為:輸入層(Input Layer)>卷積層(Convolution Layer) >(Pooling Layer) >卷積層(ConvolutionLayer)>(Pooling Layer)>.>全連接(Dense Layer),即 N 個Convolution Layer 疊加,然后接上一個 Po
44、oling Layer,重復(fù)此卷積子結(jié)構(gòu) M 次,最后接入 K 個 Dense Layer。一個通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以用以下形式所表示:(1)Input Layer(輸入層)(2)Conv 卷積 >Relu 激勵 N>Pooling M(隱藏層)14華技大學(xué)(3)Dense>Relu K(激活層)(4)Dense Layer(全連接層)圖2-5 是展示了一個典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中N=1,M=2,K=1,即該基本卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中包含了一個卷積層接一個,然后重復(fù)該結(jié)構(gòu)兩次最后接一個全連接層。圖 2-5典型卷積神經(jīng)網(wǎng)絡(luò)()網(wǎng)絡(luò)結(jié)構(gòu)從圖 2-5 中可以發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)
45、構(gòu)和 Full Connection 的層級結(jié)構(gòu)有較大差異。Full Connection 中每層的神經(jīng)元以一維的形式排列,層與層之間全部連接,各節(jié)點與下一層中的所有節(jié)點均有;中每層的神經(jīng)元是以三維的形式排列,整體一個長方體的形狀,其中包含了寬度、高度和深度。2.2.2卷積層卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)計算機視覺中圖像的卷積區(qū)別在于,傳統(tǒng)計算機視覺中用于計算的卷積核是已知的,如常用的邊緣檢測算子、Gaussian Blur 等,將這些已知的卷積核與輸入圖像進行卷積運算。Deep Learning 卷積神經(jīng)網(wǎng)絡(luò)中的卷積核是未知的,通過 Deep Learning 訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型,其本質(zhì)就是不斷學(xué)習(xí)訓(xùn)
46、練得到符合實際需要的卷積核。卷積核的本質(zhì)就是特征提取器,也稱之為過濾器Filter,卷積核通過對圖像中特征的提取歸納總結(jié)出一定的規(guī)律,自我學(xué)習(xí)與訓(xùn)練,最終收斂到一組符合用戶預(yù)期的數(shù)值上31。圖 2-6 給出了使用一組有關(guān)顏色的卷積核對左側(cè)圖片進行一層卷積運算后得到右側(cè)圖片的效果圖,表明了卷積核的本質(zhì)的確是對圖像特征進行過濾與提取。15華技 大學(xué)圖 2-6單層卷積運算前后圖像對比效果圖2.2.3的本質(zhì)就是對輸入圖像做下采樣處理,常用的圖像下采樣方式有:Mean pooling(均值采樣)、Max pooling(最大值采樣)、Overlapping (重疊采樣)、L2 pooling(均方采樣)
47、、Local Contrast Normalization(歸一化采樣)、Stochasticpooling(隨即采樣)、Def-pooling(形變約束采樣)等。圖 2-7最大值采樣()過程其中最為常用的圖像下采樣方式就是最大值采樣,如圖 2-7 展示了對輸入圖像進行最大值采樣的過程。圖中左側(cè)輸入矩陣左上角 22 的子矩陣中最大值為 6,右上角 22 的子矩陣中最大值為8,左下角22 的子矩陣中最大值為3,右下角22 的子矩陣中最大值為4,所以得到圖 2-7 中右側(cè)部分的(最大采樣)結(jié)果為:6 8 3 4。通過處理,減少了數(shù)據(jù)量,降低了數(shù)據(jù)的計算難度,但是同時也會帶來一定精度傷的損失。16華
48、技大學(xué)2.3多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MT)MT是 2016 年由先進技術(shù)喬宇教授組所提出的一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型,該級聯(lián)神經(jīng)網(wǎng)絡(luò)分為 3 個網(wǎng)絡(luò)層級模塊,Proposal Net(PNet),Refine Net(RNet),Output Net(ONet)。在該級聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中:(1)PNet 子神經(jīng)網(wǎng)絡(luò)模塊通過對原圖進行 Resize 處理,得到關(guān)于原圖的圖像金字塔,然后以全連接的方式對圖像進行特征提取,矩形框的滑動得到候選的人臉圖像區(qū)域塊(矩形塊),然后通過非最大抑制(NMS)合并對 IOU 較高的候選區(qū)域進行合并,對圖片中所有的候選區(qū)域做粗略的篩選與修正。第一階段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作
49、用基本可以概括為圖片為人臉或是臉的判定。圖 2-8PNet 層網(wǎng)路結(jié)構(gòu)圖(2)RNet 子神經(jīng)網(wǎng)絡(luò)模塊的作用是對經(jīng) PNet 層后剩下的所有窗口進行更進一步的篩選與甄別,也是通過矩形框圖的滑動和最大抑制的方法,RNet 子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般和 PNet 結(jié)構(gòu)相似,對 PNet 層輸出的帶矩形窗口的圖像做 Resize 操作后作為RNet 層網(wǎng)絡(luò)模塊的輸入。第二階段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作用基本可以概括為人臉候選區(qū)域的合并與修正。圖 2-9RNet 層網(wǎng)路結(jié)構(gòu)圖(3)ONet 子神經(jīng)網(wǎng)絡(luò)模塊的作用與 RNet 相似,ONet 不僅對通過 RNet 模塊后17華技大學(xué)的圖像中的窗口進行篩選,再通過人臉的
50、5 個關(guān)鍵特征點對圖像中的窗口做了進一步的篩選,最終得到人臉輸出結(jié)果。第三個階段段的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作用基本可以概括為 5 個關(guān)鍵點的與人臉區(qū)域的修正。圖 2-10ONet 層網(wǎng)路結(jié)構(gòu)圖2.4本章小結(jié)本章第一部分從人工神經(jīng)網(wǎng)絡(luò)的講起,介紹了人工神經(jīng)網(wǎng)絡(luò)的、人工神經(jīng)網(wǎng)絡(luò)的架構(gòu)模型和基本原理,并詳細介紹了其中的前向算法和反向算法,并對其中解決了困擾人工神經(jīng)網(wǎng)絡(luò)線性不可分問題的 BP 算法進行了原理闡述,最后介紹了人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中誤差更新的原理;本章第二部分詳細介紹了在圖像領(lǐng)域有影響的卷積神經(jīng)網(wǎng)絡(luò),分別從其網(wǎng)絡(luò)結(jié)構(gòu)、卷積層、三個方面展開,詳細介紹了卷積神經(jīng)網(wǎng)絡(luò)中各層的原理與作用;本章第三部分簡要
51、介紹了中所涉及到的 MT人臉檢測算法,MT的基本網(wǎng)絡(luò)結(jié)構(gòu)及MT的三個主要的網(wǎng)絡(luò)模塊,接著對三個重要絡(luò)模塊的具體結(jié)構(gòu)及各網(wǎng)絡(luò)模塊的作用進行了簡要的說明。本章從人工神經(jīng)網(wǎng)絡(luò)的提出到深度學(xué)習(xí)的,再到反向算法的原理,最后是實際應(yīng)用中人臉檢測網(wǎng)絡(luò)模型 MT論基礎(chǔ)和其在圖像處理領(lǐng)域的實際應(yīng)用。,比較清晰地闡述了深度學(xué)習(xí)的相關(guān)理18華技大學(xué)3表情識別算法設(shè)計自上世紀 50 年代人工神經(jīng)網(wǎng)絡(luò)模型被提出起,人臉檢測一直是計算機視覺領(lǐng)域研究的熱土,無數(shù)科研在此投入了大量的時間與精力。一方面是因為研究對人類自身生理特征的好奇,更重要的一方面是人臉檢測是表情識別、人臉識別、檢測、等一系列更次人臉研究的基礎(chǔ)。在傳統(tǒng)基于
52、類似人臉Haar 特征所進行的人臉識別中遇到半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境下無法準確人臉的問題,本文設(shè)計了一種并聯(lián)PNet 卷積層的改進型多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks, MT)。在此人臉檢測技術(shù)的基礎(chǔ)上,由人類視覺系統(tǒng)具有亮度差異性、色彩敏感性這一特點出發(fā),本文提出了對樣本進行增強輪廓型處理可能提高人臉識別準確率的猜想,并在此猜想上設(shè)計了一種基于輪廓增強的卷積神經(jīng)網(wǎng)絡(luò)(Contour Reinforcement Neural Network ,CRNN)。3.1人臉檢測模塊設(shè)計傳統(tǒng)基于 Haar 特征的人臉檢測
53、,采用矩形塊或其他圖形塊對人臉區(qū)域進行篩選,構(gòu)建多層級聯(lián)的逐層篩選結(jié)構(gòu),多個弱分類器級聯(lián)然后接強分類器構(gòu)建一層篩選結(jié)構(gòu),然后多個這樣的層級篩選結(jié)構(gòu)級聯(lián)了整個檢測系統(tǒng)。該種篩選結(jié)構(gòu)對人臉特征進行由弱到強的逐級篩選,具有訓(xùn)練方法簡單,層級結(jié)構(gòu)明確等優(yōu)點。然而由于其粗略的矩形塊篩選方法,圖片中的半遮擋、側(cè)面、歪斜、弱光等惡劣環(huán)境的人臉特征時,由于人臉特征不明確,殘缺的人臉很難通過所設(shè)計的多層分類網(wǎng)絡(luò),從而出現(xiàn)人臉圖片無法被檢測的狀況。上述傳統(tǒng)人臉檢測方法中的問題,本文將改進型的多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法用于系統(tǒng)的人臉檢測部分,多組不同任務(wù)的級聯(lián),解決了傳統(tǒng)人臉檢測中,訓(xùn)練時間長、惡劣環(huán)境下識別準確率
54、低的問題。3.1.1并聯(lián)型 MT通過對單個的卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,目前我們已經(jīng)可以對大數(shù)據(jù)集下的單19華技大學(xué)張圖片做簡單的分類,同時可以對單張圖片中的多種物體進行一定準確度的物體識別。由于目前的硬件計算能力與訓(xùn)練策略的限制,目前研究者在訓(xùn)練足夠次的卷積神經(jīng)網(wǎng)絡(luò)方面還有一定的,無法在單個卷積神經(jīng)網(wǎng)絡(luò)模型中完成多樣性特征的提取。圖 3-1級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖既然目前的技術(shù)及硬件條件下無法繼續(xù)增加單個卷積模塊的深度,研究者提出了將多個淺層的神經(jīng)網(wǎng)絡(luò)進行級聯(lián)的方案,單個淺層卷積網(wǎng)絡(luò)模塊的級聯(lián),可以使得單個模塊的參數(shù)與過濾條件盡量少,每個卷積模塊的所需訓(xùn)練的參數(shù)量相比單個卷積神經(jīng)網(wǎng)絡(luò)模塊而言有了很大的降低,而且level 越高的卷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畜產(chǎn)品加工與畜產(chǎn)品質(zhì)量安全保障考核試卷
- 紙容器新型材料開發(fā)與應(yīng)用考核試卷
- 紙制品行業(yè)供應(yīng)鏈管理創(chuàng)新與實踐考核試卷
- 液壓系統(tǒng)在高海拔地區(qū)的適應(yīng)性考核試卷
- 生態(tài)農(nóng)業(yè)與綠色食品經(jīng)濟考核試卷
- 油料作物種植園農(nóng)業(yè)信息化建設(shè)考核試卷
- 生態(tài)補償機制考核試卷
- 石棉在油氣加工中的應(yīng)用考核試卷
- 玻璃制品可靠性測試考核試卷
- 玉米加工過程中的智能檢測與故障排除考核試卷
- 中醫(yī)理療技術(shù)
- 醫(yī)保服務(wù)協(xié)議培訓(xùn)
- 婦科護理人文關(guān)懷課件
- 《汽車專業(yè)英語》2024年課程標準(含課程思政設(shè)計)
- 小學(xué)數(shù)學(xué)二年級第二學(xué)期口算計算共3031道題
- 專題04 水和溶液(解析版)
- 網(wǎng)絡(luò)安全知識基礎(chǔ)培訓(xùn)課件
- 宿舍課件教學(xué)課件
- 電磁輻射危害與預(yù)防課件
- 律師聘用合同證書協(xié)議書
- 電子技術(shù)試卷期末試卷2
評論
0/150
提交評論