



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、FaceNet2018 年 01 月 04 日 11:38:42 TchaikovskyBear 閱讀數:4215本文來源于山人七的博客,在其基礎上做了一定修改便于閱讀原文:近年來,人臉識別技術取得了飛速的進展,但是人臉驗證和識別在自然條件中應用仍然存在。本文中,作者開發了一個新的人臉識別系統:FaceNet,可以直接將人臉圖像到歐幾里得空間,空間距離的長度代表了人臉圖像的相似性。只要該空間生成,人臉識別,驗證和聚類等任務就可以輕松完成。文章的方法是基于深度卷積神經網絡。FaceNet 在 LFW數據集上,準確率為 0.9963,在Faces DB 數據集上,準確率為 0.9512。1,前言F
2、aceNet 是一個通用的系統,可以用于人臉驗證(是否是同一人?),識別(這個人是誰?)和聚類(尋找類似的人?)。FaceNet 采用的方法是通過卷積神經網絡學習將圖像到歐幾里得空間。空間距離直接和圖片相似度相關:同一個人的不同圖像在空間距離很小,不同人的圖像在空間中有較大的距離。只要該確定下來,相關的人臉識別任務就變得很簡單。當前存在的基于深度神經網絡的人臉識別模型使用了分類層(classification layer):中間層為人臉圖像的向量,然后以分類層作為輸出層。這類方法的弊端是不直接和效率低。與當前方法不同,FaceNet 直接使用基于 triplets 的 LMNN(最大邊界近鄰分
3、類)的 loss函數訓練神經網絡,網絡直接輸出為 128 維度的向量空間。我們選取的 triplets(三聯子)包含兩個匹配臉部縮略圖和一個非匹配的臉部縮略圖,loss 函數目標是通過距離邊界區分正負類,如圖 1-1 所示。圖 1-1 模型結構臉部縮略圖為緊密裁剪的臉部區域,沒有使用 2d,3d 對齊以及放大轉換等預處理。本文中,作者探索了兩類深度卷積神經網絡。第一類為 Zeiler&Fergus 研究中使用的神經網絡,我們在網絡后面加了多個 1*1*d 卷積層;第二類為 Inception 網絡。模型結構的末端使用 triplet loss 來直接分類。triplet loss 的啟
4、發是傳統 loss 函數趨向于將有一類特征的人臉圖像到同一個空間。而 triplet loss 嘗試將一個的人臉圖像和其它人臉圖像。下文包含以下內容:· 三聯子(triplets)loss· triplets 篩選方法· 模型結構描述· 實驗結果· 評論2,三聯子(triplets)loss模型的目的是將人臉圖像X embedding 入d 維度的歐幾里得空間。在該向量空間內,我們希望保證單個的圖像和該的其它圖像距離近,與其它的圖像距離遠。loss 函數目標是通過距離邊界區分正負類:(1)變換一下,得到損失函數:圖 2-1 triplet lo
5、ss 示意圖其中,為 positive/negtive 的邊界。3, triplets 篩選triplets 的選擇對模型的收斂非常重要。如公式 1 所示,對于,我們我們需要選擇同一的不同圖片,使;同時,還需要選擇不同的圖片,使得。在實際訓練中,所有訓練樣本來計算 argmin 和 argmax 是不現實的,還會由于錯誤標簽圖像導致訓練收斂。實際訓練中,有兩種方法來進行篩選:一,每隔 n 步,計算子集的 argmin 和 argmax。二,生成 triplets,即在每個 mini-batch 中進行篩選 positive/negative 樣本。本文中,我們采用生成 triplets 的方法
6、。我們選擇了大樣本的 mini-batch(1800 樣本/batch)來增加每個 batch 的樣本數量。每個 mini-batch 中,我們對單個選擇 40 張人臉圖片作為正樣本,隨機篩選其它人臉圖片作為負樣本。負樣本選擇不當也可能導致訓練過早進入局部最小。為了避免,我們采用如下公式來幫助篩選負樣本:4, 深度卷積神經網絡采用 adagrad 優化器,使用隨機梯度下降法訓練模型。在 cpu 集群上訓練了1000-2000 小時。邊界值設定為 0.2。總共實驗了兩類模型:· 第一種是 Zeiler&Fergus 架構,22 層,140M 參數,1.6billionFLOPS
7、(FLOPS 是計算量?)。稱之為 NN1。· 第二種是Net 式的 Inception 模型。模型參數是第一個的 20 分之一,FLOPS 是第一個的五分之一。· 基于 Inception 模型,減小模型大小,形成兩個小模型。· NNS1:26M 參數,220M FLOPS。· NNS2:4.3M 參數,20M FLOPS。· NN3 與 NN4 和 NN2 結構一樣,但輸入變小了。· NN2 原始輸入:224×224· NN3 輸入:160×160· NN4 輸入:96×965,
8、實驗結果作者采用了約 8million 個的將近 100million-200million 張人臉縮略圖。人臉縮略圖通過臉部檢測器緊密裁剪生成。最后,在四類數據集上評價零 FaceNet:· hold-out 測試集:從訓練集中分出 100million 圖像作為測試集。· 個人:總共包括 12k 個人。· 學術數據集:我們采用了 LFW 數據集和Faces DB。5.1 計算量與準確率權衡在測試中,隨著神經網絡深度增加,計算量增加,準確率也增加,如表 5-1 和圖 5-1 所示。表 5-1 深度神經網絡結構與 VAL圖 5-1計算量(FLOPS)與準確率關系5
9、.2模型結構對 loss 的影響作者了不同模型對結果的影響,如圖 5-2 所示。圖 5-2 網絡結構對 VAL 的影響5.3 圖像質量對結果的影響模型對圖像質量(像素值)不敏感,即使 80*80 像素的圖片生成的結果也可以接受,如表5-2 所示。表 5-2 圖像質量(像素值)對結果的影響5.4 Embedding 維度對結果的影響作者測試了不同的 embedding 維度,結果如表 5-3 所示,發現 128 維度是最為合適的。表 5-3 不同輸出維度對結果的影響5.5 訓練數據量對結果的影響隨著訓練數據量的增加,準確率也隨之增加,如表 5-4 所示。表 5-4 訓練數據量與 VAL5.6 評
10、價結果FaceNet 在 LFW 數據集上取得了 99.63%0.09 的準確率;在Faces DB 數據集上獲得了 95.12%0.39 的結果。在個人的數據集上,對單個進行embeding 后聚類測試,結果如圖 5-3 所示。圖 5-3對單個的不同進行聚類的結果6, 評論FaceNet 是的工作,工作量非常大,結果也很好。FaceNet 是一種直接將人臉圖像 embedding 進入歐幾里得空間的方法。該模型的優點是只需要對圖片進行很少量的處理(只需要裁剪臉部區域,而不需要額外預處理,比如 3d 對齊等),即可作為模型輸入。同時,該模型在數據集上準確率非常高。未來的工作可以有幾個方向:一,分析錯誤的樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年陜西省西安交大附中中考物理三模試卷(含解析)
- 雞澤墻改梁施工方案
- 看臺土方開挖施工方案
- 酒店商鋪招商方案范本
- 鐵路旅客人身損害違約責任課件
- 中華兒童銘課件
- 大學生職業規劃大賽《輪機工程專業》生涯發展展示
- 臨時物流服務合同范本
- 個人職業防護課件
- 版舊房交易合同樣本
- 《無人機安全操作能力評估系統技術規范》
- 變壓器檢修規程范文(2篇)
- 強夯檢測方案
- 2024危重癥患兒管飼喂養護理-中華護理學會團體標準課件
- 生成式人工智能技術知識產權歸屬
- 我們愛運動(課件)冀美版美術二年級下冊
- 《國際物流與供應鏈管理》課程綜述論文:跨境電商供應鏈管理研究的文獻綜述4100字
- 數控車削編程與加工 課件 3.5軸類零件綜合
- 《三福百貨營銷環境PEST、SWOT研究及其營銷策略研究》11000字(論文)
- DB37T 4515-2022 罰沒物品分類與代碼
- 中國傳統文化(西安交通大學)知到智慧樹章節測試課后答案2024年秋西安交通大學
評論
0/150
提交評論