




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、計算機視覺和圖像理解1.導言在社會機器人的新興領域,人類-機器人相互作用通過手勢是一個重要的研究課題。人 類進行交際的手勢中, 指向手勢的互動與機器人特別有趣。 他們開放的直觀指示對象和位置 的可能性, 是特別有用的機器人的命令。 指向手勢也可結合語音識別指定的口頭陳述和位置 參數,還提供了一個明確的輸入語音識別時發生歧義。 這種類型的一個例子的情況是指向手 勢引導機器人到一個特定的對象或使用地點。 機器人必須能夠檢測的指向手勢和估計目標位 置,從而指出,主要的問題出現,有關最近在這一領域的研究視野1 - 4,8。一些最重要的挑戰是相關的實時計算, 得到的精度和運行在困難的雜亂環境可能遮擋,
2、光照和不同的背景。 另一個共同的要求是, 指向手勢必須認識到, 無論規模大小, 大指向手勢是指進行全臂延伸 而小的指向手勢只減少前臂和手的運動 3,4 ?;谶@一事實, 對于大多數應用程序, 它是指目標而不是實際的指向, 這是非常重要的, 我們制定了一個新的方法, 與現有的指向手勢識別的方法, 也考慮到可能指出目標位置的先 驗信息。 假設的指示語的手勢, 最常見的類型例如, 一個涉及食指指向對象的利益和用戶的 目光指向同一目標 5,6 我們制定我們的方法使用單眼設置高精度跟蹤下飛機頭部旋轉,同時識別手指的手勢。這兩種輸入流被組合在一起推導出指向目標使用的配方是基于 Dempster -Shaf
3、er 理論的證據 7。一種區別我們的方法來自使用相機基本的方法, 多數使用 立體聲或多攝像機設置。然而,本文的主要內容在于基于Dempster -Shafer 理論輸入端的組合,讓該方法在一種或兩種輸入數據流丟失的情況下能妥善處理 (例如手指向的來自遮擋 了的可見光);也就是,使用的輸入的信號缺乏,實現了令人印象深刻的結果,這是當代概 率融合方法不可能得到的來源 1,8。此外, 本文所提出的制定的信念被分配到設置尖銳的目 標而不是個人提出的目標。 Dempster 的組合規則有助于這些信念相結合,而不需要將他們 的個人目標的分別觀測指出, 假如沒有明確的建議。 在下面的章節中對相關工作 (第
4、2 節) 和提出的方法(第 3 節)進行了論述。手指的手勢識別的簡要討論在第4 節而人臉姿勢識別在第 5 節進行了闡述。人臉姿態和手指的融合,是本文的重點,在第6 節進行了分析。在模擬環境下的實驗結果及其使用的地面真實數據的結果在第7 節。本文的結論與討論在第 8 節。2 相關的工作手勢識別的研究近年來受到越來越多的關注,也超越了人類-機器人互動的區域,例如 在情感計算和身臨其境的游戲技術。 第一次嘗試解決手勢解讀導致的機械裝置, 直接測量手 或手臂的關節角度和空間位置,所謂的手套設備 9 。隨著計算機視覺技術及快速處理器可用性的最新研究進展, 在基于視覺的非接觸式接口增加了可穿戴設備, 克服
5、阻礙緩解作用的 弊端。最近基于視覺的手勢識別技術作了較全面的介紹 11 而且大部分的努力都集中在手 勢識別 12,6以及手語翻譯 13,14 。/手臂、雙基于視覺手勢的研究指出,有使用立體聲或多攝像機系統的幾種方法,這只手 手、手臂和頭。他們中的大多數估計指向在水平方向上,而其他的一些在水平和垂直方向。 在那些用手或手臂,奇波拉等人。 15 利用立體視覺與主動輪廓跟蹤的位置和指向對機器 人的兩維空間。 Hosoya 等人 16 衍生的肩膀和手臂的深度和立體彩色圖像的三維位置來估 計三維指向。最近, Huetal 17 用合適的 AdaBoost 級聯反應檢測器 18 的手勢檢測和指 向從立體圖
6、像估計的主動外觀模型,然而檢測時間高成本。其他作者的關于人臉的三維位置和指向手使用的信息,以獲得視線和估計的指向。 Jojic 等人。 19 識別指向手勢的基礎上密集的視差圖和辨別從身體的手臂的統計模型和估計的 指向從頭部和手部的極值點。 在 Stiefelhangen 和 Nickel 的工作中 1,2,20 使用神經網絡的 頭部姿態估計和基于 HMM 模型的方法來識別指向手勢。 然而, 他們的方法因延遲識別搜索 三種特征序列檢測的指向手勢。 Kelh 和 Van Gool 21 ,以及 Watanabe 等人。 22 利用 多攝像機系統檢測臉和手。 首先提取人體輪廓, 頭和手的極值點, 解
7、決了三維的對應關系和 推導出的指向。圖像分割的質量有很強的影響該方法的準確度,這在 21 是不定量評估。 后者估計人臉方向八可用相機離散面方向特征類一起使用它的 3D 手的位置指向估計。 最近, Park 和 Lee 4 ,基于立體相機,使用同樣的 2 一個基于 HMM 的方法在兩個階段識別指 向手勢,但在指向手勢的不同定義的。本文考慮的姿態, 但規模第一, 該方法的精度主要取 決于第一階段的 HMM 的狀態數, 因此需要更多的訓練數據和處理時間。 這些方法中的一些 遭受延遲識別,例如 2,17 ,有限的精度評估,例如21,17 和大多數的(除非在這里 4 )不支持手勢規模。不像我們使用一個單
8、一的攝像頭,可以放置在一個移動機器人平臺上面的方法。單相機 系統進行 Kolesnik 和 Kulessa 23 控制使用俯視相機虛擬物體的運動通過 Cernekova 等人。 【24 】基于視頻的交互作用。在 23 架空的相機的就業產生的實驗裝置,明顯偏離一個使 用在當前的工作,因此,沒有進一步的關注 23 。后來的工作主要集中在識別畫面上的是 指用戶的網格單元, 通過梯度向量流 (GVF )檢測指手蛇的。 用戶初始化屏幕區域的邊界, 映射到二維圖像,通過指向左上和右下角的屏幕。 隨后, 通過線性變換計算指向子區域。雖 然報告說這初步的結果是良好的方法, 針對具體應用的視野非常狹窄, 限制在
9、其他環境中的 普遍性的方法。 Richarzetal 。 25 提出了一種神經網絡的體系結構,能夠估計一個參照目 標點上的地板從指出構成, 從而使得用戶能夠通過指向命令移動機器人。 結果表明, 神經網 絡估計是相當敏感的偏離的姿勢是訓練。 在兩個測試對象的情況下, 可接受的結果已經報告 只有當手動的頭檢測中得到應用,而在Viola - Jones方法中18 取代人工檢測導致的整體性能 25 的一個明顯的降解。表 1 總結了上述審查的方法。 正如已經提到的, 大多數這些方法使用兩個或多個攝像機, 可以推導出在指向精度好的結果。 只有多機系統, 如 21 ,可以支持 360°指向手勢檢測
10、。 規模大的指向手勢手勢,指全臂進行擴展和小的指向手勢減少前臂和手的運動,只在Park和 Lee 4 中支持,但只有在 -90 °; 90°的范圍內。本文提出的方法使用單眼相機安裝和支持規模的手勢,以及鈍角的指向手勢超出范圍° 調整到在水平方向的 -90 °; 90°范圍內。同時,指出了提高精度和實施的方法以及在實 時中的操作,照顧了遮擋,光照和動態背景。表格1審查的系統指的方向估計的總結。NC代表的相機數。PA是指向精度,給出了每一個具體的應用和并且N/A表示不支持。RT是實時處理,表中的O是指實時處理,意味著近實時處理并且 N/A表示不支持
11、。SG站規模的姿態,其中 X表示不支持大的和 小的指向手勢,O是指大的和小的指向手勢的支持。 0G是鈍角的姿態,其中X是鈍角的手 勢是不支持的,而O意味著它是支持。方法NCPARTSGOGCipolla 等人1522cmaXXHosoya 等人1620.5 -1mXXHu等人172N/AXXJojic 等人19215cmOXXNickel和Stiefelha nge n2225 °XXKelh 和 vanGool214-8N/AOXOWatanabe 等人2282.14 ° bN/AXXPark 和 Lee427.2°/18.7 ° cOXKoles n
12、ik和Kulessa231N/AOXXCernekova 等人24110cmdOXXRicharz 等人25110 ° eOXOa 在一個40cm的地方b 在-22.5 ° , 22.5 ° 的視角范圍內c 大/小手勢d 在一個2mX1.5m的屏幕上,計算-25 ° , 25 ° 的視角e 45%的案例這項工作的主要新穎之處是以人臉定位的有效融合與公認的手指手勢相結合,要精確地 估計所指的目標。Dempster -Shafer理論上7 是利用制定融合作為一個可能的指向信念的 空間估計問題。即使在情況下,系統無法識別手指手勢或面取向(或沒有),這
13、(缺乏)的信息提供了一個證據,在大多數情況下是足夠的重要的明顯限制可能的個數。這一特征使得Dempster -Shafer組合最適合手頭的任務的理論,從人臉跟蹤和/或手勢識別這樣的錯誤并不少見,在現實世界中的相互作用。3. 目標情況下,提出的方法該目標的情況下,我們的地址是一個機器人在公共空間的操作,如展覽或博物館,與人 類和提供感興趣的信息有關特定點的相互作用(“景點”,例如展品)。具體的景點,用戶可以在目標設定,換句話說,“指出目”。在前面的章節中已經提到的,正是針對的目標是估計在我們的工作中,而不能任意指向可能造成的不受限制的指示語的手勢在用戶的環境。該機器人配備有 2D地圖的環境,此外
14、,知道在這地圖的上的所有景點的位置。定位模塊提供了機器人在地圖上的位姿(2D位置和方向),因此,機器人可以與自己的坐標計算出所有景點的相對位置。人與機器人交互的用戶站在機器人的前面,他/她相對于機器人的位置在地圖上是機器人使用激光測距儀來測定的。所有的人類-機器人之間的互動是通過機器人的對話和行動還有處理(DAM )負責提示用戶輸入,對用戶的響應(語音和手勢)和生產機器人的響應。對話的大部分機器人開始所 以DAM知道期望用戶的手勢和手勢是希望每一次。尤其是指向手勢,機器人只希望這種手勢的相關問題后(例如機器人問用戶,這表現出(即POI )他/她想參觀下)。因此,這是合理的假設,我們知道什么時候
15、期待一個指向手勢 和我們的算法只需要找到(a)時,正是這個指向手勢發生和( b)的POI,用戶代表的是 什么。一個重要的假設是,所有的手勢指向景點。因此,手頭的任務有關的POI,用戶點的精確估計。另一個假設,我們可以很容易地使是當用戶點一個點,這一點必須是“可見”的用 戶和機器人。這里,術語“可見”意味著視線之間的用戶(或機器人)和POI不是由一些障礙物遮擋。換句話說,機器人期望用戶不會點到一個點,一堵墻的后面。然而,用戶還可 以指出一點,后面是機器人或后面的用戶,只要有點和用戶或機器人之間沒有障礙。手勢識別運動檢測 手指檢測X鼠標手勢鼠標手勢基于D-S證據理論的融合指出目標圖1。所提出的估計
16、方法,指出目標框圖圖 1 描繪的是所提出方法的概述。第一步是跟蹤用戶的面部斑點和手。這些都是使用皮 膚顏色的斑點追蹤 29 圖像平面跟蹤。增量貝葉斯分類器 30 是用來檢測軌道分類皮膚色 的斑點,成左右手, 手和臉。然后兩個獨立模塊用于手和臉。 手斑點是美聯儲的手勢識別模 塊,用于識別手指手勢 31 時,面部斑點被饋送到一個最小二乘匹配(LSM )模塊 37 這是用來推導出差動旋轉通過補丁的圖像幀之間的變形。該手勢識別模塊的輸出可以帶三個值: “左邊點”“右邊點”和“看不見” ,如果沒有指向 手勢可以確認。該人臉定位估計模塊的輸出是一個標量變量,如人臉定位計算,或 'NaN'
17、如 果面對的方向不能計算。最后,我們的方法估計的指向手勢(計算提出 POI )通過整合信息的人臉定位與使用 Dempster 規則的組合的手勢識別的信息。4. 手指手勢識別 能夠識別指向手勢的人需要有與機器人交互的位置和姿態信息。因此,我們跟蹤的人的 臉和手的位置,這些都在指點手勢識別的重要特征。我們方法的第一步是檢測輸入圖像中的膚色區域。為了這個目的,我們使用一種類似于 在26,27 里描述的。最初,圖像的前景區域是由一個背景減法算法利用提取28 。然后,前景像素的特點是根據他們的概率來描繪人類的皮膚, 然后組合成固體皮膚顏色的斑點, 使用 滯后閾值和連接的組件標簽。 位置和每個斑點的速度被
18、建模為一個離散時間, 線性動態系統, 利用卡爾曼濾波方程和傳播的像素的假設算法跟蹤29 。該算法根據信息對每個被跟蹤的對象的像素的空間分布 (即它的形狀) 傳播框架使用對象的當前動態幀, 所估計的卡爾曼濾波 器。傳播的像素密度的假設提供了度量, 它是以副觀察皮膚顏色的像素與現有的對象跟蹤的 一種方式,是意識到每個對象的形狀和與它相關聯的不確定性軌跡。它要注意跟蹤結果依賴于背景模型的質量以及照明條件這一點上,這有望作為機器人的 移動變化。 為了這個目的, 機器人將自動調整相機的白平衡速度參數以便該背景模型每次到 達一個新的位置和快門能重置。第二步是進一步區分出斑點的左手,右手和面,以及保持和不斷
19、更新的信念,類似的每 個跟蹤點。 為了這個目的, 我們使用一個增量的概率分類, 如 30 ,使用作為輸入的速度, 方向, 對皮膚色的斑點的位置和輪廓形狀。 該分類器可識別的手和多個面孔的人, 即使在部 分遮擋的情況下,也能夠保持左右手的假設。對于實際的手指識別, 一個重要的方面是一個指向手勢發生的有效時間檢測。根據 6 ,手勢的時空結構可以分為三個階段:準備,舉動和回縮,與此規則的所謂的“'跳動“例外”(對語音的韻律結構相關的手勢) 。“ '準備”和“ '回縮”的特點是快速改變手的位置,而在 “'舉動”,手仍然是, 在一般情況下, 不動。 考慮到的運動的手的軌跡
20、和一系列的相關標準, 在 31 ,我們檢測的 '舉動”階段,即相所指向的姿態發生。為了識別手指手勢手勢組成的 機器人,手勢詞匯集之間,此外,將其分類為“'指向左”和“指向右” '手勢,我們采用一個以規則為基礎的技術 32 、31 。根據該技術,手勢識別是基于數與手執行的手勢,即區 分手指的姿勢, 可見指尖和它們的相對位置相對于手的斑點質心的數量。因此, 它是可以識別的小手指手勢大角度的前腰位置, 在指尖可以在手上斑點的區別, 除了案例的人是直接指 向相機的角度接近 0°,正如圖2所示。5. 面對姿態估計估計的POI,用戶是看在一個非侵入性的方式進行的指向手勢,
21、我們采用的技術,跟蹤用戶的頭的方向。這是通過跟蹤在水平方向繞頭的Y軸面面旋轉實現(第 5.2節)通過一個基于特征的人臉跟蹤方法基于最小二乘匹配(LSM )。5.1.最小二乘法區域或基于模板的方法已在各種情況下包括匹配33 立體開發,視覺運動分析34 ,表面重建35 和36 對象跟蹤。LSM 37 是一個匹配技術能夠有效地模擬的輻射和幾何圖像 塊之間的差異,也看作是一個概括的互相關,因為,在其一般形式,它可以彌補幾何差異旋轉,縮放和剪切,而相關模型的幾何差異只有翻譯和輻射的差異僅由于亮度和對比度的變化。因此,它的精度是有限的,迅速降低,如果幾何模型是違反(旋轉大于20和尺度大于30%的差異),而
22、LSM,其一般形式,可以補償幾何差異旋轉, 縮放和剪切。在我們的語境LSM 用于幀間計算,跟蹤在一個較長的時間跨度,得到用戶的臉部旋轉而進行的指向手勢。圖2。手指手勢識別不同指向目標。它是認識的手在一個大范圍的在前腰位置指向角的 姿態是可行的,除了角接近 0。如左圖。一般的估計模型的制定是基于這樣的假設,有兩個(或更多)的圖像窗口(稱為圖像的 補丁)。這些圖像塊進行離散函數 f (x,y),g( x,y),其中f是g的模板和搜索圖像塊模 板和搜索圖像分別。問題陳述發現模板圖像補丁f(x,y)相應的部分;在搜索圖像 g( x,y)。如果匹配是理想的建立:而真正的誤差矢量 e(x, y)在(2)包
23、括模型誤差在圖像的輻射和幾何的不同所引起的。刃兒加e(A)=g(x+y)該函數的值的位置 g( x,y)必須被確定為匹配。這是通過最小化目標函數的措施,模板的灰度和補丁之間的距離實現。以最小化的目標函數的L2范數的殘差最小二乘估計。在最小二乘法的背景下,方程(2)可以被視為一個非線性觀測方程模型觀測向量f (x,y)與一個函數g(x,y),其在搜索圖像的位置需要估計。假設我們有兩個連續的幀,考慮到 圖像的變形和獲得更好的匹配,圖像形成參數介紹在平移參數。因此,一組變換參數需要估計從(2)和非線性,(2)是通過擴大成泰勒級數和只保留零和階,條款根據線性化(3):fZ -咻刃g% Jo) +鉗腫*
24、 dx +塑滬垃+ dy(3)dpi.通過變換參數A dy j婦顧這參數的數量是由以下因素決定的。估計模型應適應以足夠的參數能夠形成完全的底層 圖像過程模型。參數是非確定性、高參數間的相互關系有影響的估計模型和惡化的比賽質量。在建立一個地區類似的努力,包括Hager和Belhumeur的工作38 ,明確建模的幾何結構和光照低參數模型的變化。在模型的幾何參數包括和輻射校正,例如均衡,在不同的照明條件下的補償之前被應用到最小二乘模板和圖像。假設人臉區域的局部表面補丁是一個平面, 充分逼近,深度變化的面部特征表現出足夠小,仿射變換模型模板或圖像幀n和搜索圖像或圖像幀n + 1之間的幾何差異。 而不是
25、一個共形參數組39 ,我們利用仿射變換在非平面 的頭部轉動的臉補丁跟蹤。仿射參數的適形組相比,在下飛機頭部旋轉的情況下更適合,因為他們可以更好地逼近片變形,在兩個連續的圖像幀,而在面內旋轉形集可滿足的情況下。仿射變換(4)被施加相對于初始位置(xo, yo ;:A = 00 -FOfi -Ao + q3 弘通過區分(4),簡化因式得到(5)8x 0K 8y然后由(3)得到結果(6):f 區 y) 一 e(x,y) =+g皿 + gxdaA +&j0dfl2(6)+ gydbo +gvxodb| +gjo(t 檢結合參數(6)中的參數向量xx1 = (dd(i,dabda2,d%.dfc
26、i,df32)他們在設計一個系數矩陣,和差異向量觀測的f (x,y)- g ( xo,yo)于I,在經典的符號得到的觀測方程(e = e (x; y):(8)該系統的最小二乘解給出了(9):x= (A'PA)(9)其中p是權重矩陣?;叶燃壍娜舾梢庖娚婕霸谀0宓南袼財怠<僭O一個模板尺寸m x n像素,觀測方程的數目是 ng = M N個未知數,nu= 6的數量,設計矩陣的尺寸是 ng nu; P是一個非零元素并且I和ng對角矩陣是一種天然元素矢量。采用加權方案,以減少灰度觀測方程對應的邊界附近的像素接收更小的權重貢獻(0.1 )比其他人(即統一)。該方法需要從幀到幀的變化是小的,考慮到物
27、體的速度和所獲得的圖像序列幀速率,以 收斂的解決方案。在我們的系統中攝像機工作在30 - 40幀,從而使我們能夠處理快速的頭部運動。在高幀速率的提高性能的改進,我們經營的頭部定位估計算法在低分辨率水平(即 半圖像大?。?。由于尺寸模板減小,觀測方程的數目減少,導致更快的實現。52估計頭方向考慮到人體頭部的三維空間中的剛體,頭部方向可以通過分析面部補丁的變換(頭的前 部)由于人臉旋轉相當于頭部轉動。更具體地說,頭部的旋轉可以計算平面旋轉頭部附近的 離面旋轉軸,垂直方向的頭部周圍的 X軸和水平方向繞頭的 Y軸平面旋轉(見圖3)。后者, 這對應于一個平面的旋轉面向指向,主要變形的面部補丁X位移和X-級
28、。導出上述面旋轉采用 LSM初始化模板補丁,在被檢測的BLOB橢圓中心在圖像幀 n和假設的人臉正面姿態準備階段發生。在實踐中的臉的正面視圖的初始位置可以導出了通過現 有的人臉檢測器為18 。模板是在n+1的基礎上估計的仿射參數和匹配的下一幀圖像的圖 像幀更新。有關質量,用于評估匹配結果的迭代次數的標準(假設快速收斂應達到),在每一次迭代參數的大小的變化和參數的大小。同時,在參數值的變化(大小和符號)在每一次迭代得到的解的穩定性觀察。(a)(6圖3. ( a)旋轉軸的頭在三維空間和(b)離面面貼片繞 Y軸的頭。該轉換參數提供新的斑塊形狀和重心解收斂后。模板的初始位置和最終匹配位置之間的轉動是由差
29、動旋轉角度的累積匹配每個連續的模板和補丁導出計算。在圖4中,px表示而且”補片寬度和p'x是“'變量”彌補寬度在兩個連續的圖像幀 (圖4的中間和右邊的圖像)。 在一個平面繞Y軸旋轉的發生,面部補丁移到新的位置和變形補丁 p'x < px其中x規模較小。XI, x'是最小和最大的 x坐標的圖像而且補丁,假設相對于攝像機的臉的正面視圖,這樣 px =( x1 - X1)。同樣,X2 , x 2是最小和最x的圖像坐標的變量”的補丁,這樣p'x =( X2- X2 )。計算旋轉角度,假設頭近似球體,我們利用球面坐標系(R ; ? ;X),其中R是球的半徑,
30、?是從水平面角(垂直角)和入是方位角(水平角)。它的垂直投影映射方程,即地圖投影,對應于一個球體或球時直接從一定的距離與觀眾對齊平行于地球的z軸正方向軸的外觀,是由變換方程x = sin(A 一=k'cos| - sin(l)一 sin(l) cos(p cos(z 一 幾)(10)其中(o i;入°)是用在垂直的透視投影和起源和p投影中心坐標的透視點的球半徑的單位的距離=(P-)/(P-CQSC)(11)和cost = sln ” cos© ” cos© * cos(A - >.0)(12)我們計算水平角入參考入° = °。與$
31、 = °并且參考o i = °。因此由(io)得到X = /fSRl(z)(13)從卩X位置水平旋轉入h計算根據(14)和(15),其中卩x位置對應于在初始化貼片的中 心坐標(H)垃=arcsin (字氣(15)圖5說明了時間匹配結果與 LSM,人臉的跟蹤平面的水平旋轉。(a)2)圖5通過最小二乘法從相機不同距離的人臉定位的推導。6.獲取指向的證據假設在圖6中描述的設置。用戶(在圖表的中心)和機器人站在一個場景中含有N個可見(由機器人和用戶)感興趣的Pi, P2,Pn (在這個特定的例子里 n = 8 )周圍的用戶和機器人。我們認為我們知道用戶點的N個景點(如對話框經理提供
32、此信息)但我們不知道這正是這一點。每個 POI可能構成的指向。設X是普遍的:這是包含所有可見的興趣點的集合,也被稱為識別框架(16)(16)X = (Pi屮丹發電機組2x是集,包括的所有子集 X,包括空集$和整個集合 X的幕集元素可以被用來 代表的指向命題。每一個命題包含該命題成立的景點, 它分配一個質量(信念量)的功能是: 2xf0,1稱為一個基本信念分配,它有兩個屬性:*質量(大量的信念)的空集合為零:= 0(17)*根據功率所有成員群眾集總計達共1:工皿的)=1(18)在手頭的任務,用戶提出了他的手,指向一個展覽pi,1 < i w n同時轉動他/她的臉看展覽的方向,在3節中描述。
33、因此,兩個來源的信息存在: 從手指手勢和信息的人臉定位信息。 每兩個來源的信息有一個獨立的基本信念分配。讓mf表示從人臉姿態估計和 mh的信念代表從手指向的信念。結合這兩個來源的信息,我們利用Dempster組合規則的證據。它是要注意這一點,建議制定允許我們指定的群眾,包含多個景點的命題。例如,讓我們假設的手勢識別器識別出用戶點向左但不能鑒別性用戶是否點出P2 , P3和P4。DemsterShaffer理論允許我們指定一個信念(例如,mh)的命題"用戶指向一個的 P2, P3或P4”;然后這個信仰沒有同樣的“斷裂”這一信念的每個的P2, P3和P4;我們將不得不做如果我們工作的概率
34、(例如我們會分配一個概率的0.33每一個P2; P3, P4,;這是一個假設,超出我們的觀察)。根據Dempster組合規則,接頭質量 mf; h可計算為正交和(交換性和結合性)的兩個 群眾,如下:呵 h(0)=O(19)呵譏人1) = Mf 們力 mf(A2)mb(A3)(20)其中K是一個歸一化系數是用來評估兩個大規模集之間的沖突的數量,給出如下的:K = 1 一 ” 凹(沖2)皿/1(內)(21)方程(20 )提供了一種用于每個 POI A 1結合的信念質量作為所有證據mf功能(A2)和mh (A3)同意在A1 , A2和A3。是普遍設置x為A1 = A A A3亞群。具有較大的組合質量
35、的 POI作為一指出用戶。它是在這一點上說明,這項工作背后的假設用戶同時看和指向同一個具有消除沖突證據的情況下,根據 Zadeh的鑒定40 對Dempster規則的組合,可能導致(20)產生反直覺 的結果。在接下來的兩部分,我們將闡述mh和mf的實際計算。6.1.信念質量mh計算手指向手勢識別,我們假設系統知道當一個動作發生而只能如果它在區間M h-min ; $ h-maxU -$ h-max ; - $ h-m?。如果一個“左指向”的手勢是公認的,我們假設用戶是指向一個POI在7 h-max ; - $ h-min ( P 6或P7在圖6的示例)。同樣,如果一個“右指向”手勢是公認的, 我
36、們假設用戶是指向一個POI在$ h-min ; $ h-max? ( P 3或P4 )。如果沒有公認的手勢,我們假設用戶指出,除了這兩個時間點(“中間指向”)有信念質量mh-o = mh ( Pi, P2, P5,P 8 )。為“中心指向”的情況下,在圖6的例子,用戶可能已經指出,任何Pi P2 P5和P 8 ;。 根據公認的手指手勢(“左指向”,“右指向”)或事實的手勢是“隱形”,不同信仰的群眾分配給左邊的展品,展品在權利和展品在前面和后面的用戶為其中的一個無法識別指向手勢。在圖6的例子,這些信仰群眾的定義如下:mh-L=m h(P6, P7)mh-R=m h(P3, P4)mh-c=m h
37、(Pi, P2, P5, P8)得到m h-L +m h-R +m h-C = 1指定集對應的“左指向”,“右指向”和“中間指向”的方向和定義群眾mh-L; mh-R和mh-C因此,我們使用特定的定義值$h-min和$ h-max。這些值被作為$ h-min=140。,和$ H-max=40。大致對應于角超過這一限額的手指手勢不可識別的計算。設G是由用戶執行的實際的姿態,讓Go是手勢識別(或沒有)的系統。G值在HG = “左指向”,“右指向” “中間指向” 和Go的值在Ho = “左指向”,“右指向”,“無信號” 。給群眾mh-L,mh-R和mh-C,我們計算的概率P (G = “左指向”丨G
38、o), P(G = “右指向”丨 Go )和 P ( G = “中間指向”丨Go ),分別采用 Bayess 規則計算:P(GGO) = P(G0C)P)= ft)P(G = h)在上述方程PeGT計算可見景點數量屬于 G除以可見景點總數的可能。Pe去JGT得到脫線和對應的時間指點手勢的百分比是去給實際的姿態是G的實際值計算在我們的實驗總結在表2中的混淆矩陣。6.2信仰的mf計算質量人臉定位,我們認為它只能在-$ f-max , $ f-max范圍內。如果用戶是在尋找一個 POI奠定 了在這個范圍內則面臨方向可以被計算使用的算法在第5.2節中描述的,此外,這些信息可以用來識別目標表現出我有信仰
39、,mf ( pi)。如果面對的方向不能計算,我們假設一個信仰mf-o = mf(P1,P2,P8),臉看著外面-f-max,-$ f-max?。因為 mf是一個基本信念分配,我 們確保下列等式。N呵_( +工 m”R) = 1(23)ic=1同樣的手指手勢,把群眾的mf,我們使用的條件概率為用戶查看每個POI Pi的感知人臉定位$ O,計算:(24)HR)在任何先驗信息的缺失,P(Pi)分配給所有我平等的價值觀的可能性,P (0 O | Pi)根據Pi與尊重用戶的相對角的計算。 確切的值被發現通過插值數據離線,存儲為一個混淆矩陣(圖7 )。7.實驗結果7.1.地面真實數據指向結果的定量評價是困
40、難的崇拜因為缺乏地面真理的可靠。為了克服這個困難,我們進行了定量評價,通過設置一系列涉及用戶在腳本的情況下進行的實驗。根據該方案,用戶站在預定義的方向在機器人和點前(指定景點)用他的手和臉。該景點是定義在0°± 180°范圍在10°的角距離。每一個指向手勢,該系統識別人臉的定位和它將手勢為左或右指向手勢。人臉定位樣本識別結果如圖8所示。圖7的混淆矩陣是絕對(左、右)估計頭方向的預定的頭的方向,范圍在0° 土 180。百分比均來自7000個圖像幀序列圖像??梢院苋菀椎乜吹剑撍惴▽崿F了較高的成功率,對于小角度(用戶看起來在方向接近相機的方向),降
41、低大角度(用戶看起來離相機)。該算法能夠保持顯著的成功率(50%以上)即使角度可達 120°,只有面部補 丁的一小部分是可見的。手指向手勢一直被公認為指向的方向正確的范圍內30 °, 130 ° 和 -130 ° , -30 ° ?表2手指向手勢混淆矩陣GOG左指向中間指向右指向左指向0.900.050.00隱形0.100.900.10右指向0.000.050.90Intended orieniaiion (in deg)10 20 30 JO 50 60 70 BO 90 100 110 120 1 30 140 150160 170 180
42、(Bap 壬)colp-llawQ |30坊 一罰Lu102030405060708090100110120130140150NaN0 ° ± 180。范圖7。混淆矩陣編碼感知臉部方向(行)為每個預定的人臉定位(列)在圍?;|含有數據的左和右指向(a)圖8.指出使用的地面真實數據的方向估計。(b)2)2)72模擬環境顯然,一個標識指出景點而不是指向方向算法的性能取決于環境和泊松分布的結構內。對不同環境的安排下,所提出的方法的性能,我們在三個不同的模擬環境下進行了一系列的 實驗,在圖中描繪的圖 9和10。的第一環境,如圖 9所示(a),由一個單一的矩形的房間 位于城墻四景點。
43、第二環境,如圖9所示(b),類似于第一個,但是包含八個景點而不是四。最后,最后的環境,如圖10所示,有五個房間通過一個走廊連接在一起。在房間里,共有八個展品,但他們被安排在一個沒有超過三個展覽同時可見的兩個機器人和用戶,任何用戶的機器人裝置。運行的模擬實驗,我們隨機抽取了大量的人力-安排機器人在這些環境(1000 )。每個裝置包括一個隨機選擇的點,由用戶和機器人的可見光和被假定為指出的用戶。圖10描述了兩個這樣的安排。在第一排有三個可見的景點( P3; P4和P 7,標有綠色)和用戶點 P4。 第二裝置包括兩個明顯的興趣點( P5和P 6,帶有綠色的顏色),P5為指出的用戶。在仿真實驗以及模擬
44、的人臉定位和手指的手勢識別模塊的輸出。模塊的輸出被假定是不 完善的,模擬分別在表 2和圖7描述的混淆矩陣顯示的分布。結果如表3所示??側藬档陌才牛∟ )的每個環境是1000。在絕大多數情況下,融合算法返回一個結果。的情況下,有關于提出POI歧義(例如,有一個以上的點在圖6中定義的角區外),該算法返回多個結果的質量。返回的結果相同,最大的平均數量,質量是指控 為資產凈值nav。行標記為“ Corm”提供的次數,正確的結果是在返回的結果,即使在最大 的質量結果的數目是一個以上的。行標記為“'Cors ”提供的數字為例,該算法返回一個單一的,正確的結果。最后,行標記的“錯誤”對應的情況下,該
45、算法不能提供正確的POI©©© ©2)2)圖9。兩個仿真環境,用于評估所提出的算法的性能2)00 00©°)(b)圖10。兩個不同的,在模擬環境中的機器人配置的用戶,一個房間數。機器人的位置描述使用一個綠色矩形。 用戶描述使用一個綠色圓圈的線段表示指向。對于每個配置可見景點都涂上綠顏色。(對參考圖中的傳奇色彩,讀者可以參考這篇文章。網絡版的解釋)表3所提出的三種環境的方法得到的仿真結果在圖9和10中描繪實驗A實驗B實驗C(圖 9a)(圖 9b)(圖 10)N100010001000nav1.061.251.13Corm996 (99.
46、6% )970 (97.0% )997 (99.7% )Cors961 ( 96.1% )819 ( 81.9% )927 (92.7% )虛假的4 (0.4% )30(3.0%)3(0.3%)值得注意的是,在這一點上,上面有許多的安排對應于機器人是不能夠認識到無論是手指向不面對方向的情況下(例如,當用戶點展示在他/她)。在這些情況下,投入不足是由本身的證據一塊,這是正確地利用我們的算法來限制可能的解的個數。可以從表3的結果很容易看到,這對環境是在圖中描繪的是成功的。9A和10在景點的空間安排和環境的拓撲結構(墻,門,等)有助于區分不同的可能的解決方案之間的。表4顯示了相同的配置時,一個單一的
47、信息來源是唯一可用的結果:要么臉或手指向的方向。Vh對應數量的情況下,提出POI是在h-min , © h-max或在-© h-max , - © h-min , 即,在一個范圍,指向手勢識別(見圖 6)。Ch對應的正確分類的結果,是否在范圍的指向手勢 識別可分類的唯一獲得的信息。 是,我們有一個正確的分類如果姿勢正確識別假設用來推導 得到的結果(識別率根據表2所示的百分比假設),此外,一個單一的POI指區域內存在的。 同樣,Vf對應數量的情況下,出 POI在-© f-max , © f-max 和Cf對應的正確分類的結果,將是 如果我們使用一
48、個分類器可實現如圖7所示的結果。通過比較從表3和表4的結果,一個到達的結論,該方法明顯優于“'單一的證據”分類描述以上。在所有三個環境中,該算法成功地結合了信息流的證據,實現的識別率,已經不 能由任何兩個信息流單獨獲得的。表4仿真結果獲得只通過使用一個單一的信息來源。實驗A (圖9a)實驗B (圖9b)實驗C(圖10)Vh550(55.00%)558(55.80%)535(53.50%)Ch245(24.50%)47(4.70%)336( 33.60%)Vf731 ( 73.10%)730 ( 73.00%)796( 79.60%)Cf722 ( 72.20%)703( 70.30%)
49、776( 77.60%)圖11。這兩個環境中使用真實條件下所提出的系統評價。景點編號與有界。灰色區域在 圖片表明,實驗發生的地區。7.3真實的環境進一步的測試系統的性能,實際情況我們已經設置兩人-機器人互動的實驗。第一個實 驗發生在一個走廊結構(圖11 (a),包含28個景點,分配給每一個門通往一個不同的房間。第二個實驗發生在一個大的公共結構(圖11 (b),也在我們的大樓。在這種情況下,興趣點被分配到門導致的復雜,不同部位的電梯,自助餐廳,以及各種海報在門廳的墻壁。 在第二個實驗圖像,如圖12所示,表明由于光照變化和不同的背景環境的困難。(a)(b)(c)圖12.在實驗過程中,從第二環境圖像
50、這兩個實驗涉及自主導航,機器人與人類用戶的互動。人類是在距離從機器人兩米,所以他/她的手指很容易辨認,并用他的頭和手指的一個預定?內德目標點(景點)。機器人的使用,所提出的方法來識別指出目標。 如果針對目標模糊有(如算法返回同質量的多個結果) 機器人隨機挑選的一個可能的目標。 機器人移動到目標和人的筆記采摘機器人是否正確地識 別目標或不。該程序是一個多次反復的結果總結在表5。正確的認識是指一個單一的結果正確、正確選擇包括單結果與隨機選擇的正確。第一環境第二環境圖 11 (a)圖 11 (b)測試數量140150正確選擇122125正確認識105109正確率87.1483.33選擇可以很容易地觀
51、察到的模擬結果相當于得到的模擬環境。此外,該系統能夠實時操作,在傳統的電腦位于機器人 30 fps 。在這一幀速率的斑點跟蹤, 手勢識別, 頭方向估計和融合 的發生。8.結論 在本文中,我們提出了信息融合的手指手勢和使用者的頭部姿勢估計的一種新方法提出 的目標。 所提出的方法能夠考慮到可能指向的目標, 降低了問題的決定是指目標而不是計算 實際指向的位置的先驗知識,實現性能出奇的好。不像其他大多數當代的方法,我們的方法與單目視覺系統,我們已經證明了它的能力, 甚至達到顯著的識別率的兩個或兩個輸入流失蹤。 對審查的單眼方法 25,23,24 的直接比較 是不合理的問題,因為他們的地址指向不同的變種
52、,不同的實驗設置和假設。所提出的方法在一個大的各種人類-機器人互動的情況下是很容易適用。今后的工作將 涉及其增強融合更多的信息來源,如手臂的姿勢,身體的方向和先驗概率的POI 的選擇。此外, 除了擴大相互作用的情況下, 同時處理多個用戶, 其提取物對垂直指向額外的信息感 興趣致謝部分支持 這項工 作是 由歐 洲委員 會合同 號 FP7 -248258 下(一毫 米的項 目)和 FP7 -270435 (杰姆斯項目) 。工具書類 1 R. Stiefelhagen, C. Fuegen, P . Gieselmann, H. Holzapfel, K. Nickel, A. Waibelr ,
53、自然人-機器人交互使用語音和手勢,凝視,在處理。IEEE / RSJ國際會議的智能機器人與系統,仙臺,日本, 2004 。2 K. Nickel, R. Stiefelhagen ,手勢指向人的-交互的機器人視覺識別,圖像視覺計算。25 (2007 ) 1875 - 1884 , http:/dx.doi.Org/10.1016/j.imavis.2005.12.020。 3 C. -B. Park, M. -C. Roh, S. -W. Lee ,實時性動作識別三維空間中移動的指指點點, 在:觸發第八屆 IEEE 國際會議。我們面對性動作。自動識別, 2008 (FG 08), 2008 年
54、, 1-6 頁。 DOI :10.1109 / afgr.2008.4813448 4 C.-B. Park, S. -W. Lee ,實時三維指向手勢識別的移動機器人的級聯 HMM 和粒子濾波,圖像視覺計算。 29 (1) (2011 ) 51 - 63。DOI : 10.1016/j.imavis.2010.08.006。 5 A. Yarbus ,眼球運動和視覺,科學出版社,紐約, 1967。 6 V. Pavlovic, R. Sharma, T. Huang ,人機交互的視覺的手勢解釋:一個回顧, IEEE 跨。模式分析。機器。智能。19 ( 7) (1997 ) 677 - 695
55、。 7 G. Shafer ,證據的數學理論,普林斯頓大學出版社, 1976。 8 B. Burger, I. Ferrane, F. Lerasle, G. Infantes ,雙手手勢識別與融合的語音命令機器人,自主機器人。西一 32 (1 ) (2012 ) 129 - 147。 9 D. Quam ,手勢識別,數據手套,在處理。 IEEE 航空電子學會議錄,卷 2,代頓, 哦,美國,1990,頁 755 - 760 , DOI: 10.1109/naecon.1990.112862。 10 D. Sturman, D. Zeltzer ,手套式輸入一個調查, IEEE 計算機。 graph.appl.14 (1994)30 - 39, /10.1109/38.250916 11 S. Mitra, T. Acharya, ,手勢識別:一項調查, IEEE 跨。 系統。人機 C 部分:應用。Rev。37 (3) (2007 ) 311 - 324 , /10.1109/tsmcc.2007.893280。 12 Y. Wu, T. Huang, Human hand mod
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 私人房屋驗收合同協議
- 私人服裝店合同或者協議
- 直升機租賃合同協議
- 研發類項目合同協議
- 租售門面房合同協議
- 盒飯訂餐協議合同書范本
- 直播平臺轉讓合同協議
- 碼頭管樁裝卸合同協議
- 砸墻鏟地坪合同協議
- 石膏粉供貨合同協議
- 耳穴貼壓治療腰痛
- 《保護板培訓教材》課件
- 2024年江西省職業院校技能大賽(中職組)研學旅行賽項考試題庫(含答案)
- 綠色醫療器械設計
- 證明自己贍養老人的范文
- 2025年涉密人員保密知識學習考試題及答案
- 2024-2030年中國個人形象包裝及設計服務行業競爭狀況及投資戰略研究報告
- 用電協議書范文雙方簡單一致
- 蘇教版數學六年級下冊期中考試試卷及答案
- DB11T 2155-2023 建設工程消防驗收現場檢查評定規程
- 生日宴會祝福快閃演示模板
評論
0/150
提交評論