《圖文跨模態匹配問題研究的國內外文獻綜述》6000字_第1頁
《圖文跨模態匹配問題研究的國內外文獻綜述》6000字_第2頁
《圖文跨模態匹配問題研究的國內外文獻綜述》6000字_第3頁
《圖文跨模態匹配問題研究的國內外文獻綜述》6000字_第4頁
《圖文跨模態匹配問題研究的國內外文獻綜述》6000字_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

圖文跨模態匹配問題研究的國內外文獻綜述跨模態檢索實際上是系統對某種模態查詢詞與其他模態數據進行語義相似性比較,然后使用K近鄰算法獲取與查詢詞最相似的K個數據作為檢索結果返回給用戶的過程,其關鍵在于多種模態數據間的相似性比較。對于單模態檢索而言,一般只需將單模態數據映射到一個特征空間,然后便可基于對應的特征進行相似性比較。然而對于跨模態檢索,各模態數據分別服從不同的概率分布,因此具有各自獨立的特征空間,不同模態數據在特征空間的表現形式迥異,因此很難直接對不同模態數據的特征進行相似性比較,這樣的情況被稱為模態間的異構性。為了實現跨模態檢索,國內外研究人員針對不同模態間的異構性做了大量研究。目前,主流的跨模態檢索方法主要基于公共語義空間來度量多模態數據間的相似性,具體來說,就是將不同模態數據通過某種方式映射到一個公共語義空間來提取它們的語義特征,使得不同模態數據具有大致相同的特征表示形式,以消除模態間的異構性,進而對這些數據進行相似性度量。近年來,國內外研究人員從多個方面著手對跨模態檢索展開了研究,提出的方法可根據研究角度的不同被劃分為不同類別。從數據特征的表示方面看,現存的跨模態檢索方法可被劃分為基于實值(RealValue)的跨模態檢索和基于哈希(Hashing)的跨模態檢索。兩個方向的不同之處在于最終的數據表征形式不同,實值跨模態檢索方法將數據映射為實值特征(向量),而哈希跨模態檢索方法則將數據映射為二值(0或1)特征(向量)。與哈希跨模態方法比較,實值跨模態檢索方法的優點在于其特征能夠保留更多原始數據的語義信息,進而使跨模態檢索擁有更高的準確率;而在哈希跨模態檢索方法中,由于二值特征取值范圍受限較大,會不可避免地丟失較多語義信息,但在特征存儲方面,其能夠顯著降低對系統存儲資源的消耗,并且在相似度比較方面擁有更快的計算速度,對于超大規模的跨模態檢索而言,其優點顯而易見。接著,從數據特征的提取方面看,這些方法又被歸類為傳統方法或者基于深度學習的方法。在早期的跨模態檢索研究工作中,人們通常只考慮通過線性映射將不同模態的數據投影到公共語義空間,得到數據的線性特征,被稱為傳統方法。相較于線性映射,深度神經網絡可以學習到數據的非線性映射。而隨著數據規模日益擴大以及多模態數據間關聯愈發復雜,使用線性映射已經很難去捕獲數據中蘊含的豐富語義信息。所以近些年來研究人員基于深度學習對跨模態進行了大量研究,取得了巨大成果,通過利用神經網絡強大的數據表征能力,大幅提升了跨模態檢索模型的性能。最后,從數據集的使用方面看,本文根據是否使用類別標簽信息將有關研究方法大致劃分為無類別標簽方法和有類別標簽方法。在無類別標簽方法中,有些方法只利用給定數據及其共生數據來構建跨模態檢索模型,還有一些方法則會進一步使用共生數據之外的其他數據,利用多模態數據間的語義關聯性組建相似數據對或者不相似數據對,使其成為監督信號來提升模型性能。而有類別標簽方法通常會利用多模態數據對應的類別標簽信息,以使模型具備更強大的判別力。為簡單起見,在下面的敘述中將有類別標簽方法簡稱為有標簽方法,無類別標簽方法簡稱為無標簽方法。1.1哈希跨模態檢索方法哈希跨模態方法的目標是將不同模態的數據映射到公共漢明空間,生成數據的二值語義特征,使模型在一定程度保留與原始數據語義關聯的基礎上,獲得更快的數據檢索速度。針對這一方向,研究人員們開展了大量工作,他們提出的方法也可以被分為兩大類,一類為傳統哈希跨模態檢索方法,一類被稱作基于深度學習的哈希跨模態檢索方法。在此基礎上,每一類哈希方法亦可被分為無標簽方法與有標簽方法。在傳統哈希方法中,研究人員通常利用線性映射矩陣將數據映射到公共漢明空間。在無標簽方法中,研究人員致力于通過最大化共生多模態樣本對之間統計信息的相關性來消弭不同模態數據間的異構性。例如,Liu等人[1]提出了相似性融合哈希方法,該方法將多模態數據間基于圖的融合相似性映射到了共同漢明空間;Ding等人[2]提出一種基于矩陣分解的跨模態哈希方法,通過帶有潛在因素模型的矩陣分解,將相似樣本對映射為相同的哈希碼。在有標簽方法中,人們通過利用數據中數據集中的標簽信息,使多模態數據能夠被映射到一個更具判別力的漢明空間,以進一步增強相似樣本對之間的相關性。例如,Lin等人[3]使用了多模態數據間的語義關聯性作為監督信號來指導對漢明空間進行建模;Li等人[4]使用了一種基于排序的哈希函數將多模態數據映射到共同漢明空間。在基于深度學習的無標簽方法中,Zhang等人[5]提出了一種基于生成對抗的跨模態哈希方法,該方法通過生成對抗網絡來捕獲數據中潛在的流形結構信息,并以此對共同漢明空間進行建模;Wu等人[6]提出了一種基于潛在因子模型的無監督跨模態哈希方法,該方法將圖拉普拉斯約束作為一個損失項來指導整個網絡的訓練,顯式地約束生成的哈希碼保留原數據之間的語義關聯;Su等人[7]提出了一種深度聯合語義重建哈希方法,該方法一方面巧妙地整合了不同模態數據間的相關性,使得模型能夠捕獲樣本間的語義關聯,同時在模型中以樣本生成的哈希碼去重建數據間的相關性,使得樣本哈希碼能夠保留更豐富的語義信息;Li等人[8]基于CycleGAN的思想設計了兩個無縫銜接的環狀網絡,分為內環和外環,外環負責學習具有判別力的實值特征,內環則用于生成更加可靠的二值特征。在有標簽方法中,為充分利用數據集中存在的語義標簽信息,Jiang和Li等人[9]使用一種負的對數損失來使自己的模型能夠學習到跨模態數據間的相似性;Hu等人[10]提出了一種分離式變分哈希網絡,該網絡首先利用數據集中的語義標簽生成標簽哈希碼,然后以標簽哈希碼來指導各模態分屬編碼網絡的學習,與其他方法中各模態編碼網絡需要進行共同訓練相比,此方法中各模態編碼網絡可獨立進行訓練。1.2實值跨模態檢索方法實值跨模態檢索方法的目標是將不同模態的數據映射到一個公共的實值空間,生成數據的實值語義特征,使其盡可能保留與原始數據相關的語義信息,進而具備強大的可判別性以提高數據的檢索準確率。在過去的幾年里,研究人員對實值跨模態檢索做了深入探索,涌現出眾多研究成果,這些成果總的來說可以被分為兩大類,一類被稱作傳統實值跨模態檢索方法,另一類被稱為基于深度學習的實值跨模態檢索方法。在此分類基礎上每一類又被分為無標簽方法和有標簽方法。對于傳統實值方法,無論對類別標簽利用與否,研究人員通常使用線性映射或者單層非線性映射將數據映射到公共實值空間。典型相關分析(CanonicalCorrelationAnalysis)[11,12]是一個經典統計學方法,該方法通過最大化共生數據對間的相關性來構建公共語義空間,是典型的無標簽方法。除此之外,Li等人[13]利用最小化共生數據對基于公共空間的F-范數來對數據相關性進行建模,該方法同樣為無標簽方法。在有標簽方法中,Mignon和Jurie等人[14]提出了一種基于度量學習的跨模態檢索方法,其在訓練時通過最大化相似數據對間的相似度以及最小化不相似數據對間的相似度來監督公共語義空間的形成;Zhai等人[15]提出了一種多視角度量學習方法,該方法包含兩個步驟,首先通過探索數據的全局一致性來構建共享特征空間,接著采用正則化局部回歸方法來建立輸入空間和共享特征空間之間的映射。通過深度神經網絡可以學習數據的非線性映射,使得特征能夠在實值語義空間中保留更豐富的語義信息。在無標簽學習方面,Ngiam等人[16]使用玻爾茲曼機來學習多模態數據的共同語義空間,并設計了一個雙峰深度自編碼器,用以使特征盡可能地保留對應原始數據的語義信息以及學習跨模態數據間的語義關聯。也有人嘗試將深度神經網絡與典型相關分析相結合以學習數據的非線性映射,發展出了深度典型相關分析方法,Yan和Mikolajczyk等人[17]于2015年將此方法用在了跨模態檢索中,提出了一種無標簽的圖像文本匹配算法。另外,受困難負樣本挖掘(HardNegativeMining)的啟發,Faghri等人[18]在對圖像句子匹配模型進行訓練時,將困難負樣本添加到三元組損失中,使得模型最終的檢索性能得到了顯著提升。為了獲得更有效的數據特征,Guo等人[19]采用互信息思想來增強數據與對應特征之間的語義相關性,同時他們認為各模態數據本身往往存在一些冗余信息,這些信息對于我們理解數據本身的語義沒有任何幫助,因此基于解耦的思想將這些冗余信息進行剔除,以獲得更具判別力的數據特征。Gu等人[20]不滿足于只提取數據的全局特征,他們設計了一種生成模型用以同時捕獲數據的全局特征及其局部特征,使得跨模態匹配更加精確。Song等人[21]提出將同一樣本映射為K個不同的特征來提高跨模態檢索性能。然而,K的取值需要被精心挑選,取值太小性能提升不明顯,取值過大則會增大降低檢索速度。Sarafianos等人[22]認為當前的跨模態研究工作主要面臨兩個挑戰,一是如何消除模態間的異構性進而有效度量不同模態特征間的相似度,二是如何處理文本數據本身自帶的表達多樣性,而以前的大多數工作主要在解決第一個問題而忽略了文本數據的復雜性,因此他們在自己的跨模態檢索模型中引入了BERT語言模型,通過該模型來提取更有效的文本特征。除此之外,一些方法致力于通過探索圖像和文本的細粒度關聯來提升檢索準確率。Karpathy等人[23]首次提出通過學習圖像子區域和文本中每個單詞之間的相互關系來進行跨模態檢索。Huang等人[24]使用一種可選擇的LSTM來探索圖像和文本的細粒度關聯。同樣地,Nam等人[25]則提出一種對偶注意力網絡來達成這一目的。然而這些方法需要通過多個步驟來對整個圖像和文本的特征進行對齊,缺乏可解釋性。Lee等人[26]進一步提出探索圖像的顯著性區域(如各種物體、天空和草地等)與對應文本單詞的相互關聯。但是其忽略了所有圖像自身子區域之間的關系以及文本自身各單詞之間的關系。而在有標簽學習方面,近些年的研究成果同樣斐然。早期,Wang等人[27]在分析了圖像和文本數據的特點后,為它們各自設計了不同的卷積神經網絡用以將原始數據映射為語義特征,特別地,該方法證明了卷積神經網絡除了適用于圖像特征的提取,也能有效地提取文本特征。接下來,BokunWang等人[28]提出了一種基于對抗學習的跨模態檢索方法,為了使不同模態的數據映射到共同的語義空間,該方法引入生成對抗網絡,一方面使判別器盡可能區分出特征對應的原始數據類型,另一方面,無論生成器的輸入數據是哪種類型,都使其產生的特征逼近于同一分布,這兩方面在相互作用過程中便可逐漸形成從多模態數據到公共語義空間的映射。Wu等人[29]也引入生成對抗網絡來實現相同目標,但與前者相比,其在使模型學到模態一致性特征(SharedRepresentation)的同時,進一步學習數據在各自模態所處空間內的特征(Modlaity-SpecificRepresentation),通過將兩種特征拼接作為數據的最終表示來進行相似性度量。此外,Hu等人[30]則提出一種類間策略來保證模型能夠學習到更具判別力的特征。為了得到更有效的公共語義空間以及使處于共同語義空間的特征更具有判別力,Zhen等人[31]一邊采用共享權重策略來消除不同模態特征間的差異性,一邊使用線性分類器來約束數據特征的生成以使特征保留原始數據的類別信息,增強特征的可辨識度。另外,根據檢索任務的不同,實值跨模態檢索方法還可被分為圖像句子匹配方法和圖像文本匹配方法。文獻[18-26]均屬于圖像句子匹配方法,而文獻[11-17]和文獻[27-31]則均屬于圖像文本匹配方法。兩類方法主要的不同點在于對句子和文本的區分,句子顧名思義指只有一句話的文本描述,而文本則包含一句或者多句文本描述。因為一句話包含的信息較少,所以圖像句子匹配任務一般關注的是圖像具體內容與句子具體內容之間的相似性。而一段文本通常則包含較多信息,所以圖像文本匹配任務則更加傾向于提取圖像和文本中的顯著性語義信息進行相似度比較,比如圖像和文本對應的類別信息。雖然圖像句子匹配任務與圖像文本匹配任務有些微差別,但其基本原理相同,均屬于圖文跨模態檢索范疇。1.3實值跨模態檢索現存問題本文聚焦于基于實值的跨模態檢索方法。正如前面所提到的,目前實現圖文跨模態檢索的通用策略是將圖像和文本數據通過某種方式映射到一個公共語義空間,利用它們在該空間中的特征表示來進行相似性度量。以上實值方法的提出為圖像文本跨模態檢索技術的發展做出了巨大貢獻,然而這些方法均是將給定樣本映射為語義空間中的單個點并得到對應的單點特征。這些方法只考慮了樣本與語義空間中單個點的語義關聯,忽略了其與空間中其他點的關系。對于給定的樣本,其單點特征無法概括樣本所包含語義信息的復雜性。同時,由于樣本與樣本之間往往只存在局部相似性,單點特征在某些情況下無法很好地表現這種局部相似性。即使文獻[23-26]探索了圖像子區域與文本每個單詞的相互關聯,考慮到了樣本之間的局部相似性,但這些方法卻沒有充分考慮樣本本身的語義復雜性。一方面,這些方法所學到的細粒度關聯最后依然會通過某中方式(平均或拼接)被聚合為一個單點特征。另一方面,一些方法還會進一步依賴目標檢測器去提取圖像所包含各物體的特征,進而學習圖像中各物體與對應單詞之間的關聯,但這樣的做法忽略了圖像中存在的高級語義信息,比如圖像中個體的動作信息和個體與個體之間的關系等信息。參考文獻LiuH,JiR,WuY,etal.Cross-modalitybinarycodelearningviafusionsimilarityhashing[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017:7380-7388.DingG,GuoY,ZhouJ.Collectivematrixfactorizationhashingformultimodaldata[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2014:2075-2082.LinZ,DingG,HuM,etal.Semantics-preservinghashingforcross-viewretrieval[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2015:3864-3872.LiK,QiGJ,YeJ,etal.Linearsubspacerankinghashingforcross-modalretrieval[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(9):1825-1838.ZhangJ,PengY,YuanM.Unsupervisedgenerativeadversarialcross-modalhashing[C]//Thirty-SecondAAAIConferenceonArtificialIntelligence.2018.WuG,LinZ,HanJ,etal.UnsupervisedDeepHashingviaBinaryLatentFactorModelsforLarge-scaleCross-modalRetrieval[C]//IJCAI.2018:2854-2860.SuS,ZhongZ,ZhangC.Deepjoint-semanticsreconstructinghashingforlarge-scaleunsupervisedcross-modalretrieval[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2019:3027-3035.LiC,DengC,WangL,etal.Coupledcyclegan:Unsupervisedhashingnetworkforcross-modalretrieval[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2019,33:176-183.JiangQY,LiWJ.Deepcross-modalhashing[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:3232-3240.HuP,WangX,ZhenL,etal.SeparatedVariationalHashingNetworksforCross-ModalRetrieval[C]//Proceedingsofthe27thACMInternationalConferenceonMultimedia.2019:1721-1729.HotellingH.Relationsbetweentwosetsofvari-ates[M]//Breakthroughsinstatistics.Springer,NewYork,NY,1992:162-190.RasiwasiaN,CostaPereiraJ,CovielloE,etal.Anewapproachtocross-modalmultimediaretrieval[C]//Proceedingsofthe18thACMinternationalconferenceonMultimedia.2010:251-260.LiD,DimitrovaN,LiM,etal.Multimediacontentprocessingthroughcross-modalassociation[C]//ProceedingsoftheeleventhACMinternationalconferenceonMultimedia.2003:604-611.MignonA,JurieF.CMML:Anewmetriclearningapproachforcrossmodalmatching[C].2012.ZhaiD,ChangH,ShanS,etal.Multiviewmetriclearningwithglobalconsistencyandlocalsmoothness[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2012,3(3):1-22.NgiamJ,KhoslaA,KimM,etal.Multimodaldeeplearning[C]//ICML.2011.YanF,MikolajczykK.Deepcorrelationformatchingimagesandtext[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2015:3441-3450.FaghriF,FleetDJ,KirosJR,etal.Vse++:Improvingvisual-semanticembeddingswithhardnegatives[J].arXivpreprintarXiv:1707.05612,2017.GuoW,HuangH,KongX,etal.LearningDisentangledRepresentationforCross-ModalRetrievalwithDeepMutualInformationEstimation[C]//Proceedingsofthe27thACMInternationalConferenceonMultimedia.2019:1712-1720.GuJ,CaiJ,JotySR,etal.Look,imagineandmatch:Improvingtextual-visualcross-modalretrievalwithgenerativemodels[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2018:7181-7189.SongY,SoleymaniM.Polysemousvisual-semanticembeddingforcross-modalretrieval[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2019:1979-1988.SarafianosN,XuX,KakadiarisIA.Adversarialrepresentationlearningfortext-to-imagematching[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2019:5814-5824.KarpathyA,Fei-FeiL.Deepvisual-semanticalignmentsforgeneratingimagedescriptions[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2015:3128-3137.HuangY,WangW,WangL.Instance-awareimageandsentencematchingwithselectivemultimodallstm[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2017:2310-2318.NamH,HaJW,KimJ.Dualattentionnetworksformultimodalreasoningandmatching[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:299-307.LeeKH,ChenX,HuaG,etal.Stackedcrossattentionforimage-textmatching[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).2018:201-216.WangJ,HeY,KangC,etal.Image-textcross-modalretrievalviamodality-specificfeaturelearning[C]//Proceedingsofthe5thACMonInternationalConferenceonMultimediaRetrieval.2015:347-354.WangB,YangY,XuX,etal.Adversarialcross-modalretrieval[C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論