




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多模態數據融合與檢索技術
多模態數據融合主要內容3.3多模態融合前沿方法3.2多模態融合傳統方法3.1多模態數據融合介紹3.4多模態融合發展方向3.1多模態數據融合介紹3.1.3數據集介紹3.1.2國內外現狀3.1.1多模態數據融合背景及意義3.1.4性能評判準則3.1.1多模態數據融合背景及意義多模態數據融合:模型在完成分析和識別任務時處理不同形式的數據的過程。多模態數據的融合可以為模型決策提供更多的信息,從而提高了決策總體結果的準確率,目的是建立能夠處理和關聯來自多種模態信息的模型。
3.1.1多模態數據融合背景及意義多模態數據檢索應用實例:情感分析智能推薦語音識別多模態融合3.1多模態數據融合介紹3.1.3數據集介紹3.1.2國內外現狀3.1.1多模態數據融合背景及意義3.1.4性能評判準則3.1.2國內外現狀國際方面:卡內基梅隆大學MultiComp實驗室提出了建模多模態數據中的潛在動態的概率圖形模型,處理多個視圖之間的時間同步的條件隨機場模型等方法,并為多模態數據開發了新的深度神經網絡表示。麻省理工學院Sentic團隊為多模態情感分析提出了張量融合網絡、上下文層次融合網絡、模糊常識推理等先進算法。微軟AI團隊提出了大規模多模態訓練模型,包括圖像-文本的通用圖像文字標識模型(UNITER)和視頻-文本的HERO模型。國內方面:安徽大學湯進教授對光學與熱紅外兩種圖像的數據融合進行了大量研究,構建了一個大規模的多模態視頻基準數據集。3.1多模態數據融合介紹3.1.3數據集介紹3.1.2國內外現狀3.1.1多模態數據融合背景及意義3.1.4性能評判準則3.1.3數據集介紹MVSA數據集MVSA數據集是一個多視圖情緒分析數據集,包含20392組從推特中收集的帶有人工注釋的圖文對樣本。3.1.3數據集介紹PinterestMultimodal數據集PinterestMultimodal數據集是通過抓取Pinterest上的公開可用數據,構建的4000多萬張圖像的數據集,并且每幅圖像平均與12個描述句子相關聯。3.1.3數據集介紹MELD數據集MELD數據集是一個對話情感識別的多模態數據集。其包含文本、音頻和視頻模態。MELD數據集有1400多個對話和13000個話語。對話中的每句話都被標記為七種情緒中的任何一種——憤怒、厭惡、悲傷、喜悅、中立、驚訝和恐懼。3.1.3數據集介紹UTD-MHAD數據集UTD-MHAD數據集是由四種模態數據共861個數據序列構成,主要應用于人體動作識別的數據集。這四種模態數據包括:RGB視頻、深度視頻、骨骼位置照片和可穿戴慣性傳感器的慣性信號。3.1.3數據集介紹BerkeleyMHAD數據集一個用于人體動作識別的數據集,數據集中的數據由12個RGB攝像頭、2個微軟Kinect攝像頭采集完成。該數據集由12個參與者通過5次重復執行的11個人類動作的659個數據序列組成。Montalbano手勢數據集意大利姿態數據集,每一位參與者在相機面前都會在說著意大利語的同時展示手勢。這些手勢共包括20組,由27位參與者完成。SYSU-MM01數據集該數據集主要包括RGB圖像和紅外圖像兩種模態。這些圖像主要是在在室內和室外環境中,從四個RGB相機和兩個紅外相機采集得到的。該數據集已劃分成訓練集和測試集,其中訓練集包含395人的圖像,其中RGB圖像22258張,紅外圖像11909張。而測試集共有96人,有3803張紅外圖像用于查詢。3.1.3數據集介紹多模態檢索數據集信息總結數據集模態樣本數MVSA圖像+文本(異構)20392PinterestMultimodal圖像+文本(異構)10MMELD圖像+文本+聲音(異構)1400UTD-MHADRGB+深度+骨片模型+慣性信號(異構)861BerkeleyMHADRGB視頻+深度視頻(異源)659MontalbanoRGB+深度+用戶掩圖+骨骼模型(異源)13858SYSU-MM01RGB圖像+紅外圖像(異源)3034203.1多模態數據融合介紹3.1.3數據集介紹3.1.2國內外現狀3.1.1多模態數據融合背景及意義3.1.4性能評判準則3.1.4性能評價準則精準率與召回率在數據集樣本中通常會含有正樣本與負樣本,模型將會對輸入的樣本進行判定,即判定輸入的樣本屬于正樣本或者負樣本。精準率(precision)表示判定為正的樣本中有多少樣本是真正的正樣本,召回率(recall)表示樣本中的正樣本有多少被判定正確。真正例率(TruePositiveRate,TPR)和假正例率(FalsePositiveRate,FPR)的計算公式如下:3.1.4性能評價準則點擊率點擊率(HitRatio,HR)是在典型的基于隱反饋的top-N推薦任務中常用的評測指標。HR@N用來度量測試集中的正例是否出現在top-N推薦列表里。計算公式如下:規范化折扣累計增益規范化折扣累計增益(NormalizedDiscountedCumulativeGain,NDCG)同樣是在典型的基于隱反饋的top-N推薦任務中常用的評測指標。比起HR@N,NDCG@N還考慮了測試集中的正例在top-N推薦列表中的位置,其中N是一個超參數。具體的計算方式為:主要內容3.3多模態融合前沿方法3.2多模態融合傳統方法3.1多模態數據融合介紹3.4多模態融合發展方向3.2多模態融合傳統方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規則的融合方法3.2.1基于規則的融合方法線性加權融合線性加權融合是一種最簡單、應用最廣泛的融合方法。在該方法中,從不同的模態中得到的信息是通過線性的方式進行組合的。這些信息可以是底層視頻特征(如視頻幀中的顏色和運動線索),也可以是高層語義級決策(如某些事件的發生)。一般而言,線性加權融合要經歷兩個步驟:分數標準化和分數加權。分數標準化最簡單的歸一化技術是Min-max標準化。Min-max標準化最適合于匹配器輸出的分數的邊界——即最大值和最小值已知的情況。假設一組匹配分數為,則正則化分數的計算公式為:當從給定的匹配分數集估計最小值和最大值時,這種方法不是魯棒的,因為該方法對用于估計的數據中的異常值高度敏感。當不同匹配器的分數在對數尺度上時,可以應用小數定標標準化方法,3.2.1基于規則的融合方法線性加權融合最常用的分數標準化技術是z值標準化,它是用給定數據的算術平均值和標準偏差計算的。如果事先知道匹配器的平均分值和分值的變化情況,則該方案可以取得較好的效果。如果沒有任何關于匹配算法性質的先驗知識,那么就需要從一組給定的匹配分數中估計分數的平均值和標準差。Tanh預測器正則化方法[29]是由Hampel等人引入的,其兼具魯棒性和高效性,公式如下:式中和分別是Hampel估計器給出的真實分數分布的平均值和標準差估計。3.2.1基于規則的融合方法線性加權融合分數加權對分數進行標準化之后,便可對分數進行加權,完成線性融合。線性融合的一般方法可以這樣描述:表示從第個媒體源(如音頻、視頻等)獲得的特征向量或從第個分類器獲得的決策。同時,讓表示為第個媒體源或第個分類器的標準化權重。這些向量(假設它們具有相同的維數)通過使用求和或求積的方式進行組合,并由分類器使用以提供高級決策。與其他方法相比,這種方法的計算成本較低。然而,一個融合系統需要確定和調整權重,以最優地融合方式來完成一項任務。3.2.1基于規則的融合方法線性加權融合方法舉例Neti等人研究如何將視覺線索和音頻信號組合起來,用于提升自動機器識別的效果。他們從音頻特征(如音素)和視覺特征(如發音嘴型)中獲得說話人識別和語音事件檢測的單獨決策。然后采用線性加權和的策略來融合這些單獨的決策。3.2.1基于規則的融合方法線性加權融合方法舉例Lucey等人提出了隨機二次分類器用于對口語單詞的識別。該隨機二次分類器使用了線性加權的融合策略。下圖為該隨機二次分類器的判決過程。首先單詞識別器模塊分別對音頻和視頻數據進行處理,得到他們分別的判決值,然后再根據音頻數據的判決值以及視頻數據的判決值的對數概率對單詞進行二次判決。3.2.1基于規則的融合方法線性加權融合方法舉例Foresti和Snidaro設計了一種用于視頻監控的分布式傳感器網絡(DistributedSensorNetwork,DSN),其能夠管理不同種類的傳感器(如光學、紅外、雷達等),以便在晝夜和不同天氣條件下(如霧、雨等)運行。為了達到此目的,在此分布式傳感器網絡中使用了上文介紹的線性加權和的方法來融合物體的軌跡信息。3.2.1基于規則的融合方法線性加權融合方法舉例多數投票多數投票是加權組合的一種特殊情況,其所有分類器的權重都是相等的。在基于多數投票的融合中,最終的決策是大多數分類器達成相同或相似的決策。特別的,對于二分類任務,分類器的數量必須是奇數且大于兩個的。自定義規則與上述使用標準統計規則的方法不同,Pfleger等人提出了一種基于生成規則的決策級融合方法,用于集成來自手寫字母和語音模態的輸入。在這種方法中,每一種輸入模態都可以用其使用的上下文解釋,這些上下文是根據先前識別的屬于同一用戶的輸入事件和對話狀態來確定的。生成規則包含三類規則:同步規則、多模態事件解釋規則和單模解釋規則,它們共同發揮作用以促進融合過程。3.2多模態融合傳統方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規則的融合方法3.2.2基于分類的融合方法此類方法包括一系列分類技術,這些技術已用于將多模態觀測的結果分類為一種預定義的類。這類方法有支持向量機、貝葉斯推理、D-S理論、動態貝葉斯網絡和最大熵模型等。支持向量機支持向量機(SupportVectorMachine,SVM)是一個功能強大并且全面的機器學習模型,它能夠執行線性或非線性分類、回歸等任務。具體來說,在多媒體領域,支持向量機被用于包括特征分類、概念分類、人臉檢測、文本分類、模態融合等不同任務。從多模態融合的角度,支持向量機用于解決模式分類問題。本節將首先從線性支持向量機和非線性支持向量機角度介紹支持向量機的核心概念,然后再介紹基于支持向量機的多模態數據融合方案。3.2.2基于分類的融合方法線性支持向量機下圖為三種線性分類器示例。其中藍色菱形塊代表A類數據,橙色方形塊代表B類數據,可以看出A類數據和B類數據是線性可分離的。圖中的兩條黑色實線和一條黑色虛線展示了三種可能的線性分類器的決策邊界。兩條黑色實線所代表的線性支持向量機分類器可以正確地將A、B兩類數據區分開來,只是它們的決策邊界與實例過于接近,當有新的實例出現出,可能會出現分類錯誤。黑色虛線代表的線性分類器沒有對A、B兩類數據進行正確地分類。3.2.2基于分類的融合方法線性支持向量機相比之下,下圖黑色實線所代表的線性支持向量機分類器不僅將A、B兩類數據分開,而且盡可能遠離最近的訓練實例。線性支持向量機分類器可以視為在類別之間擬合可能的最寬的街道(平行的虛線所示)。因此這也被稱為大間隔分類(largemarginclassification)。決策邊界是完全由街道邊緣的實例所決定的,這些實例被稱為支持向量。3.2.2基于分類的融合方法線性支持向量機如果嚴格地讓所有實例都不在街道上,并且位于正確的一邊,這就是硬間隔分類。硬間隔分類主要存在兩個問題:首先,它只在數據是線性可分離的時候才有效;其次,它對異常值非常敏感,如下圖中的異常數據將導致線性分類器找不到硬間隔。3.2.2基于分類的融合方法線性支持向量機下圖為硬間隔分類的決策邊界示意圖。異常值將導致該硬間隔分類器無法很好地泛化。要避免這些問題,最好使用更靈活的模型。目標是盡可能在保持街道寬闊和限制間隔違例(即位于街道之上,甚至在錯誤的一邊的實例)之間找到良好的平衡,這就是軟間隔分類。3.2.2基于分類的融合方法非線性支持向量機之前的討論是基于樣本實例是線性可分的這樣的假設的,但現實中,原始的樣本空間也許并不存在一個能正確劃分兩類樣本實例的平面。如下圖一維原始樣本空間所示,此原始樣本空間只有一個特征,此樣本空間中的A、B兩類數據不是線性可分的。3.2.2基于分類的融合方法非線性支持向量機對于這種問題,可通過添加更多特征的方式,將原始樣本空間映射到更高維的空間,使得在這個空間中樣本實例是可分的,如下圖二維樣本空間示意圖所示,添加了第二個特征,并令,在此高維的樣本空間中,A、B兩類樣本實例便可完全線性分離(在圖中被黑色虛線所代表的分類器所分離)。3.2.2基于分類的融合方法非線性支持向量機Adams等人采用了一種后期融合的方法,利用視頻、音頻和文本三種模態來檢測視頻中的語義概念(例如天空、火煙等)。該方案利用所有概念分類器的得分,構造一個向量作為語義特征傳遞給支持向量機進行分類。支持向量機在對音頻、視頻和文本得分進行分類之前,將所有概念分類器的得分合并到一個高維向量中。3.2.2基于分類的融合方法非線性支持向量機Ayache等人提出了一種核融合方案來使用視頻和文本等模態信息對多媒體資源進行語義索引。該方案可以根據不同的模態特征選擇不同的核函數,例如文本模態可以使用字符串核或詞序列核來進行分類;其次,使用融合函數合并單模態核,以創建多模態核;最后,通過學習和分類步驟輸出一個分類分數。3.2.2基于分類的融合方法非線性支持向量機在圖像分類領域,Zhu等人提出了一種基于支持向量機的多模態融合框架,用于對空間坐標內嵌入文本的圖像進行分類。該融合框架聚合過程遵循兩個步驟:一,采用詞袋模型對低層視覺特征進行分析來對給定圖像進行分類。同時,文本檢測器利用文本的顏色、大小、位置、邊緣密度、亮度、對比度等特征發現圖像中存在的文本行。二,使用成對的支持向量機分類器將視覺特征和文本特征融合在一起。3.2.2基于分類的融合方法貝葉斯推斷貝葉斯推斷方法根據概率論的規則對多模態信息進行組合,其既可以應用于早期融合,也可以應用于晚期融合。該方法的基本原理是組合從多種模態得到的觀測或從不同分類器得到的決策,然后推導出一個觀測或決策的聯合概率的推論。若要融合從種不同的模態獲得特征向量或決策(),假設這些模態是統計獨立的,那么基于融合特征向量或融合決策的假設的聯合概率可計算為:
用于正則化后驗概率估計
。對所有可能的假設計算后驗概率。根據最大后驗概率估計,估計的假設取最大概率的值,即:貝葉斯推斷方法具有多種優點:第一,基于新的觀察結果,它可以逐步計算出假設成立的概率。第二,它允許任何關于假設的可能性的先驗知識在推理過程中被利用。新的觀測或決策用于更新先驗概率,以計算假設的后驗概率。第三,在缺乏經驗數據的情況下,這種方法允許對先驗假設使用主觀的概率估計。3.2.2基于分類的融合方法貝葉斯推斷Atrey等人在中期融合層次都采用了貝葉斯推斷融合方法。下圖為該貝葉斯推斷融合方法工作流程示意圖。3.2.2基于分類的融合方法貝葉斯推斷在早期融合層面,Pitsikalis等采用貝葉斯推斷方法對視覺特征和聽覺特征向量進行組合。音頻特征向量包括13個靜態梅爾頻率倒譜系數及其衍生物,視覺特征向量由6個形狀和12個紋理特征拼接而成。基于組合特征,計算語音段的聯合概率。在后期融合層面,Meyer等人融合了從語音和視覺模態獲得的決策。其方法共分為三個步驟:步驟一、從語音中提取梅爾頻率倒譜系數特征,從說話人的臉部提取嘴唇輪廓特征;步驟二、利用隱馬爾可夫模型分類器分別對這兩種特征進行概率分類,得到單獨的決策;步驟三、使用貝葉斯推斷方法融合這些概率估計值來估計語音數字的聯合概率。Xu和Chua也使用貝葉斯推斷融合方法來整合運動視頻中檢測到的偏移和非偏移事件的概率決策。通過融合視聽特征、文本線索和領域知識以及使用隱馬爾可夫模型分類器來檢測這些事件。在這項工作中,作者已經表明貝葉斯推斷的準確性與基于規則的方案相當。3.2.2基于分類的融合方法D-S理論雖然貝葉斯推斷融合方法允許不確定性建模(通常采用高斯分布),但一些研究人員更傾向于使用Dempster-Shafer證據推理法(簡稱D-S理論),因為它使用置信值和似真值來表示證據及其對應的不確定性。此外,D-S理論方法對貝葉斯理論進行了推廣,放寬了貝葉斯推斷方法對假設相互排斥的限制,從而能夠為假設的并集分配證據。D-S推理系統是基于“識別框架”的基本概念,該框架包含著一個具有所有可能的相互排斥的假設的集合。每個假設是由可信度(belief)和似真度(plausibility)所確定的。3.2.2基于分類的融合方法D-S理論可信度是指一個假設被檢測為真時的置信下限,其約為所有支持假設的證據的總和;而似真度則表示該假設可能為真可能性的上限,即去掉所有反對假設的證據的剩余的部分。每一個假設都會被分配一個概率,即基本可信數,基本可信數反映了對于假設本身(而不去管它的任何真子集與前因后果)的可信度大小。關于假設的判決是由可信度和似真度所限定的置信區間來衡量的。當存在多個獨立模態時,利用D-S理論規則可以對它們進行融合。準確地說,假設的基本可信數基于兩個模態和,可以由下面公式進行計算。式中和分別為模態和的基本可信數。3.2.2基于分類的融合方法D-S理論舉例Bendjebbour等人提出利用D-S理論融合雷達圖像中有云和無云兩個區域的基本可信數。他們在特征層和決策層兩個層次上進行融合。在特征層,以像素強度作為特征,計算并融合基于兩個傳感器像素的基本可信數;在決策層,利用隱馬爾可夫模型分類器得到的關于一個像素的決策作為基本可信數,然后對隱馬爾可夫模型輸出進行組合。Mena和Malpica使用了D-S理論融合方法對彩色圖像進行分割,用于從地面、航空或衛星圖像中提取信息。他們從單個像素、成對的像素、一組像素中提取同一幅圖像的信息,然后利用D-S證據融合策略對基于位置分析的證據進行融合。Guironnet等人從TREC視頻數據中提取顏色或紋理等低層特征描述符,并使用支持向量機分類器根據每個描述符識別預定義的概念(如“海灘”或“道路”)。支持向量機分類器輸出采用D-S融合方法進行集成,稱之為可轉移信度模型(transferablebeliefmodel)。在生物特征學領域,Reddy將D-S理論用于融合手勢傳感器和腦計算接口傳感器兩個傳感器的輸出。融合結果表明,D-S融合方法有助于解決傳感器的模糊問題。3.2.2基于分類的融合方法動態貝葉斯網絡貝葉斯推斷可以擴展成網絡結構(或稱為圖結構),圖結構中的節點表示不同類型的隨機變量(觀察值或狀態),如音頻和視頻;邊表示它們的概率相關性。下圖為靜態貝葉斯網絡示例,用貝葉斯網絡描述了一個講話者檢測問題。“講話者”節點的值由“涼亭”節點的值及三個中間節點“可見的”,“正面的”和“講話”的值確定,而這些中間節點的值又是由度量節點“皮膚”、“紋理”、“臉”和“聲音”所推測出來的。靜態貝葉斯網絡示例中顯示了節點之間的依賴關系。然而,該網絡是靜態的,這意味著這個例子只是描述了某一特定時刻的狀態。3.2.2基于分類的融合方法動態貝葉斯網絡當貝葉斯網絡加入時間維度時,其工作方式轉變為動態貝葉斯網絡(DynamicBayesianNetwork,DBN)。3.2.2基于分類的融合方法動態貝葉斯網絡隱馬爾可夫模型用來描述一個含有隱含未知參數的馬爾可夫過程。其難點是從可觀察的參數中確定該過程的隱含參數,然后利用這些參數來作進一步的分析。下圖所示為隱馬爾可夫模型的狀態遷移過程。其中表示在時刻的隱藏變量,是觀察者無法得知的變量。而表示在時刻觀測的結果。如果假設觀測到的結果為,即。隱藏條件為,即,則馬爾可夫模型的概率為:,可見馬爾可夫模型將該時間點前后的信息都納入考量。3.2.2基于分類的融合方法動態貝葉斯網絡舉例Nefian等人使用了耦合隱馬爾可夫模型(CoupledHiddenMarkovModel,CHMM),它是隱馬爾可夫模型的泛化。耦合隱馬爾可夫模型允許主干節點進行交互,同時擁有自己的觀察結果。耦合隱馬爾可夫模型適用于需要集成兩個或多個流的多模態場景。在這項工作中,作者對音頻特征(梅爾頻率倒譜系數)和視覺特征(嘴唇區域的2D離散余弦變換系數)的狀態異步建模,同時保持它們時間的相關性。該方法可用于語音識別。Bengio在特征級別提出了異步隱馬爾可夫模型(AsynchronousHMM,AHMM)。異步隱馬爾可夫模型是隱馬爾可夫模型的一種變體,用于處理異步數據流。對描述同一事件的異步序列、語音流和視頻(形狀和強度特征)流的聯合概率分布進行建模。Fisher等提出了一種無參數方法來學習音頻和視頻特征的聯合分布。他們為了最大化映射隨機變量之間的互信息,而估計了低維子空間上的線性投影。該方法被應用于音頻、視頻定位。Wu等人在ACM國際會議上提出了一項使用影響圖方法(貝葉斯網絡的一種形式)來表示圖像的語義的多模態融合框架。此多模態融合框架將上下文信息(位置、時間和相機參數)、內容信息(整體和感知局部特征)與面向領域的語義本體(由有向無環圖表示)融合在一起。3.2.2基于分類的融合方法最大熵模型在一般情況下,最大熵模型是一種統計分類器,它遵循信息理論的方法,根據它所具有的信息內容預測其屬于某個特定類的觀測的概率。最大熵模型假設分類模型是一個條件概率分布,為特征,為輸出。假設滿足所有約束條件的模型集合為:定義在條件概率分布上的條件熵為:最大熵模型的目標就是求得使最大的時候對應的。通過求最大似然估計可以求得最大熵模型的解。3.2.2基于分類的融合方法最大熵模型舉例Magalhaes等人將這種基于最大熵模型的融合方法用于多媒體語義索引。在這項工作中,他們將基于文本和基于圖像的特征融合起來進行查詢關鍵字的檢索。具體而言,他們將文本和圖像特征映射到最優特征子空間,然后為每一個查詢關鍵字提出了一個最大熵模型:為了估計最大熵模型,權重是唯一需要通過在整個數據集上最小化上述模型的對數似然值來計算的變量:因為其采用高斯函數來減小過擬合效果,因此對數似然函數的形式為:3.2.2基于分類的融合方法基于分類的融合方法優缺點對比本節主要介紹了基于分類的融合方法,主要包括支持向量機、貝葉斯推斷、D-S理論、動態貝葉斯網絡和最大熵模型。每種方法都有其優勢與劣勢,研究者應該根據實際的場景來酌情使用,以提高模型的效果。基于概率原理的貝葉斯推斷融合方法提供了對新觀測的簡單集成和先驗信息的使用。但是,它們不適合處理相互排斥的假設。此外,由于缺乏合適的先驗信息,導致該方法的融合結果不準確。另一方面,D-S理論融合方法善于處理相互排斥的假設。但是,這種方法很難處理大量的假設組合。D-S理論融合方法已用于語音識別、運動視頻分析和事件檢測等任務。動態貝葉斯網絡被廣泛應用于處理時間序列數據。動態貝葉斯網絡是使用時間數據的貝葉斯推斷的變形。動態貝葉斯網絡方法以其不同的形式(如隱馬爾可夫模型)已成功地應用于語音識別、說話人識別與跟蹤、視頻鏡頭分類等多媒體分析任務。然而,在這種方法中,往往很難確定正確的動態貝葉斯網絡狀態。在各種基于分類的傳統的融合方法中,支持向量機和動態貝葉斯網絡得到了研究人員的廣泛應用。支持向量機因其改進的分類性能而受到青睞,而動態貝葉斯網絡被發現更適合建模時態數據。3.2多模態融合傳統方法3.2.3基于估計的融合方法3.2.2基于分類的融合方法3.2.1基于規則的融合方法3.2.3基于估計的融合方法卡爾曼濾波卡爾曼濾波(Kalmanfilter,KF)允許對動態的數據進行實時處理,并從具有一定統計意義的融合數據中得到系統的狀態估計。為了使該濾波器運行,假設一個帶有高斯噪聲的線性動態系統模型,狀態空間方程如下:基于上述狀態空間模型,卡爾曼濾波器不需要保存觀測歷史,只依賴于前一時間戳的狀態估計數據。卡爾曼濾波器的使用僅限于線性系統模型,不適用于具有非線性特性的系統。對于非線性系統模型,通常使用卡爾曼濾波器的一種變體,即擴展卡爾曼濾波器(ExtendedKalmanFilter,EKF)。3.2.3基于估計的融合方法卡爾曼濾波卡爾曼濾波器和擴展卡爾曼濾波器也已經成功地用于目標的源定位和跟蹤。下圖為卡爾曼濾波器融合過程示意圖,其展現了使用該卡爾曼濾波器進行單目標定位和跟蹤的融合過程。在本地處理器部分使用基本卡爾曼濾波器處理視頻傳感器傳入的數據,使用擴展卡爾曼濾波器處理音頻傳感器傳入的數據(基于音頻位置的估計是非線性估計的)。然后在融合中心內融合音頻和視頻估計的輸出。3.2.3基于估計的融合方法粒子濾波粒子濾波是一套復雜的基于仿真的方法,常用于估計非線性和非高斯狀態空間模型的狀態分布。這些方法也被稱為順序蒙特卡羅(SequentialMonteCarlo,SMC)方法。在這種方法中,粒子代表了狀態變量的隨機樣本,其中每個粒子都有一個相關的權值。粒子濾波算法包括預測和更新步驟:預測步驟根據每個粒子的動力學來傳播,而更新步驟根據最新的感知信息來重估一個粒子的重量。雖然卡爾曼濾波器、擴展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優的,但當獲取足夠多的樣本時,粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優估計。3.2.3基于估計的融合方法粒子濾波舉例Vermaak等人使用粒子濾波器來估計基于音頻和視頻的觀察結果的預測。在其所提出的系統中使用了一個攝像頭和一對麥克風,并根據存儲的視聽序列進行了測試。視聽特征的融合發生在特征層面,這意味著來自兩種模態特征的單個粒子坐標被合并來跟蹤說話者。Perez等人采用粒子濾波方法融合二維物體形狀信息和音頻信息,用于說話人的追蹤。與Vermaak等人的工作不同的是,后者使用了重要性粒子濾波的概念,其中音頻信息專門用于生成一個重要性函數,來影響基于音頻的觀察似然的計算。雖然卡爾曼濾波器、擴展卡爾曼濾波器或逆卡爾曼濾波器僅對線性高斯過程是最優的,但當獲取足夠多的樣本時,粒子濾波方法可以為非線性非高斯過程提供貝葉斯最優估計。主要內容3.3多模態融合前沿方法3.2多模態融合傳統方法3.1多模態數據融合介紹3.4多模態融合發展方向3.3多模態檢索前沿方法3.3.3基于圖神經網絡的融合方法3.3.2基于深度學習的融合方法3.3.1基于池化的融合方法3.3.1基于池化的融合方法三部分組成:第一部分為模態嵌入子網絡,其對于語言、視覺和聲音模態有不同的設計;第二部分是張量融合層(TensorFusionLayer,TFL),是為了解決不同模態之間交互的問題而設計的;第三部分是情緒推理子網絡,其承接張量融合層的輸出,并進行情感推理。(1)張量融合網絡方法3.3.1基于池化的融合方法該融合方法可以認為是張量融合網絡方法的等價升級版,其利用低秩權值張量分解提高多模態融合的效率并且不影響多模態融合的性能。首先低秩多模態融合方法通過將單模態輸入分別傳遞到三個子嵌入網絡中,得到單模態表示向量。然后低秩多模態融合方法通過與特定模態因子進行低秩多模態融合輸出多模態表示向量。(2)低秩多模態融合方法3.3.1基于池化的融合方法進一步地,通過堆疊多項式張量池化塊搭建了層次多項式融合網絡。一個多項式張量池化塊在一個“接收窗口”上運行,該“接收窗口”覆蓋了所有八個時間點和三種模態的特征。這樣,多項式張量池化塊就可以捕獲窗口內總共二十四個混合特征之間的高階非線性交互作用。多項式張量池化塊與一個小的“接收窗口”相關聯,它自然地表現出局部相關性。(3)多項式張量池化方法3.3.1基于池化的融合方法通過對權重張量施加低秩控制,多模態低秩雙線性池化(MultimodalLow-rankBilinearPooling,MLB)方法將雙線性池的三維權值張量分解為三個二維權值矩陣。多個多模態因子分解雙線性池化模型可以級聯來建模輸入特性之間的高階交互,這被稱為多模態因數化高階池化(Multi-modalFactorizedHigh-orderPooling,MFH)方法。Ben-Younes等人提出的MUTAN是一種基于多模態張量的Tucker分解的方法,其使用Tucker分解將原始的三維權重張量算子分解為低維核心張量和MLB使用的三個二維權量矩陣。近期提出的BLOCK方法使用了一個基于塊的超對角陣的融合框架,其利用塊項分解來計算雙線性池化。BLOCK將MUTAN泛化為多個MUTAN模型的總和,為模態之間的交互提供更豐富的建模。(4)其他基于池化的融合方法3.3多模態檢索前沿方法3.3.3基于圖神經網絡的融合方法3.3.2基于深度學習的融合方法3.3.1基于池化的融合方法3.3.2基于深度學習的融合方法判別模型直接對輸入數據X到輸出數據Y之間的映射關系進行建模,模型參數是通過最小化一些提前設計好的目標損失函數學習而來。這類模型比較適合一些多模態學習任務,比如多模態數據分類任務,推薦系統,視覺問答(VisualQuestionAnswer,VQA),人類行為識別任務等。多層感知機也叫作前饋神經網絡,是典型的深度學習模型。神經網絡的基本組成單元是神經元,下圖為單神經元結構示例。(1)多層感知機介紹3.3.2基于深度學習的融合方法常用的激活函數有用于高斯輸出分布的線性激活函數,用于伯努利輸出分布的Sigmoid型函數,用于多變量伯努利輸出分布的softmax函數,整流線性單元ReLU函數及一系列變體等。(1)多層感知機介紹3.3.2基于深度學習的融合方法隨著隱層數量的增多,該類模型可被稱為多層感知機。當引入非線性的隱含層后,理論上只要網絡結構足夠深(隱藏層數目足夠多)或網絡結構足夠寬(隱藏層的節點足夠多),通過多層非線性變換多層感知機就可以擬合任意函數。圖中每一層網絡的輸入都為上一層網絡的輸出,這意味著網絡中不存在反饋,信號總是向前傳播。(1)多層感知機介紹3.3.2基于深度學習的融合方法卷積神經網絡對于圖像數據的平移、縮放、傾斜或者其它一些形式的變形具有良好的容錯能力。卷積神經網絡結構具有局部連接和權值共享的特點。前一層的每個神經元只與后一層特定范圍內的神經元存在連接。每個神經元只對局部感知,然后將局部的信息傳到下一層綜合起來就得到了全局的信息,使得連接具有稀疏性,這樣將大大節約空間存儲和訓練所需時間。權值共享:理論證明,圖像的各部分統計特性之間具有相似性和連續性,所以對于一幅圖像上的不同位置,可以采用同樣的濾波器學習完成一幅圖像的一次特征映射,反映到結構設計上體現為同一層中某些神經元之間共享連接權重。(2)卷積神經網絡介紹3.3.2基于深度學習的融合方法卷積神經網絡結構上增加了特有的卷積層和池化層,數據信號在網絡中的前向傳播和殘差反向傳播也與多層感知機有所區別。(2)卷積神經網絡介紹3.3.2基于深度學習的融合方法卷積神經網絡深的各輸入元素之間是相互獨立的,輸入與輸出也是獨立的。希望從數據中挖掘到上下文之間的關系從而更好的實現預測,遞歸神經網絡針對序列模式設計的特殊結構可以利用輸入數據的上下文的信息,使其廣泛應用于文本生成、機器翻譯、語音識別等領域。遞歸神經網絡通過隱藏層信號在不同時間步之間的傳遞使得模型可以基于前面的信息學習后面的特征。(3)遞歸神經網絡及長短期記憶單元網絡介紹3.3.2基于深度學習的融合方法長短期記憶(Longshort-termmemory,LSTM)單元用于克服典型RNN不能學習雙向的上下文、不能“記憶”長期信息等缺陷。能夠解決長序列訓練過程中的梯度消失和梯度爆炸問題,在更長的序列中有更好的表現。主要由遺忘門、輸入門和輸出門三部分組成,均采用sigmoid函數。(3)遞歸神經網絡及長短期記憶單元網絡介紹3.3.2基于深度學習的融合方法多模態卷積神經網絡m-CNN為了充分捕捉語義關聯,在端到端架構中設計了單詞等級、詞組等級和句子等級三種等級的融合策略。單詞等級和詞組等級的融合是指將句子中的部分單詞或詞組與圖像的部分區域相融合。句子等級的融合則指整個句子和圖像的整體相融合。設計了三個子網絡,分別是:圖像子網絡、匹配子網絡和評估子網絡。(4)基于判別模型的多模態數據融合方案3.3.2基于深度學習的融合方法模態數據的興趣相關產品相似模型(MultimodalInterest-RelatedItemSimilaritymodel,MultimodalIRIS將用戶與產品的交互信息以及產品的圖像數據與文本數據相融合,用于產品的推薦。MultimodalIRIS模型由三個模塊組成,即多模態特征學習模塊、興趣相關網絡(Interest-RelatedNetwork,IRN)和產品相似度推薦模塊。(4)基于判別模型的多模態數據融合方案3.3.2基于深度學習的融合方法編碼器是基于生成模型中常見的一種模型。通常意義的自編碼器原理很簡單,包括一個編碼器和解碼器,數學上都表現為輸入信號的變換運算。編碼器經變換運算將輸入信號編碼成信號,而解碼器將經編碼的轉換成輸出信號。自編碼器區別于多層感知器的最重要的一點是采用無監督學習方式,訓練時輸入即輸出,不需要額外的標簽。輸入層到隱含層為編碼器,它可以從高維輸入空間變換到低維隱含空間,即學習到數據的隱含表示。隱含層到輸出層為解碼器,利用學習到的隱含特征重構輸出逼近原始輸入數據。(5)基于生成模型的多模態數據融合方法3.3.2基于深度學習的融合方法典型的自編碼器結構,輸入層的通過編碼器的編碼過程得到隱藏層的低維向量,再通過解碼器重構輸出逼近輸入的。(5)基于生成模型的多模態數據融合方法3.3.2基于深度學習的融合方法兩模態深度自編碼器首先從音頻輸入和視頻輸入中分別得到音頻表示向量和視頻表示向量,然后經過編碼融合得到共享表示向量,最后經過解碼器得到音頻重建向量和視頻重建向量。(5)基于生成模型的多模態數據融合方法3.3.2基于深度學習的融合方法注意力機制允許模型將注意力集中在特征圖的特定區域或特征序列的特定時間點上。通過該機制,不僅僅可以提高性能,而且可以提高特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安徽藝術職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年安徽廣播影視職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 2025年安徽交通職業技術學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年天津廣播影視職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 混凝土工安全操作規程
- 編程課程體系介紹
- 兒童勞動教育家務闖關簡單家務三步法我是勞動小能手課件
- 廣東省廣州市教研室2025年高三畢業班第六次質量檢查生物試題含解析
- 人教版數學六年級下冊第一單元測試卷含答案
- 山東工程職業技術大學《學術英語(聽說)》2023-2024學年第二學期期末試卷
- 深入貫徹學習2025年中央八項規定精神教育測試題及答案
- 沖壓工理論知識試題(附答案)
- 全媒體運營中的用戶畫像構建試題及答案
- 2025年第三屆天揚杯建筑業財稅知識競賽題庫附答案(601-700題)
- 華北電力大學丁肇豪:多主體數據中心算力-電力跨域協同優化
- 顱內出血護理操作
- 2024-2025學年下學期初中歷史八年級第二單元A卷
- 剪映電腦版課件
- 2025基礎教育改革綱要
- 2025-2030年中國LPG行業市場運行現狀及發展前景分析報告
- 2022-2023學年第二期高一中職數學期中考試模擬測試題
評論
0/150
提交評論