【一種自適應鄰域選擇的多視圖聚類算法設計與實現9200字(論文)】_第1頁
【一種自適應鄰域選擇的多視圖聚類算法設計與實現9200字(論文)】_第2頁
【一種自適應鄰域選擇的多視圖聚類算法設計與實現9200字(論文)】_第3頁
【一種自適應鄰域選擇的多視圖聚類算法設計與實現9200字(論文)】_第4頁
【一種自適應鄰域選擇的多視圖聚類算法設計與實現9200字(論文)】_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

頁共27頁緒論課題背景隨著各種電子設備的不斷進化和發展,我們進入了一個大數據時代。人類的生命數據通常是從不同的數據源產生的,或者是從不同的視角來說明的。這種數據被稱為多視圖數據。如何隱藏多視圖數據的各種信息已成為數據挖掘和機械學習領域的熱門研究方向。然而,這些多視點數據通常具有非常復雜的數據結構,它基于諸如k-means聚類算法等物理距離創建了許多聚類算法。由于光譜聚類算法在各種復雜結構數據的聚類中的優異性能,基于光譜聚類的各種多視點聚類算法已經成功地用于多視點聚類領域。然而,基于光譜聚類的常規算法首先分解從相似圖導出的拉普拉斯矩陣,并通過kmeans聚類或光譜旋轉從分解特征向量獲得最終的聚類分配。從集群分配矩陣的解中分離特征分解的這種方法可能導致不正確的集群結果,并且集群結果偏離數據中隱藏的實際信息。此外,由于特征分解的時間復雜性,基于光譜聚類的多視點聚類算法難以處理大規模數據。另外,許多基于光譜聚集的多視圖聚集算法包括多視圖聚合的過程。然而,由于多個視圖數據的復雜結構,可以包括一些噪聲數據,所以這些加權多視圖集群算法的聚集效應可能受到一些噪聲視圖的影響獲得了不充分的聚類結果。另外,由于多視圖數據通常包括多于單個視圖數據的信息,所以它通常具有大規模的數據尺度。已經提出了許多數據采樣算法,以便可以分析這些多視圖數據以減小數據的大小。然而,由于這些采樣方法通常不考慮每個視圖的重要性,所以可以選擇一些噪聲數據作為采樣結果,從而導致數據的不準確結果。課題意義通過評定圖片內容相似度,我們可以進行圖片檢索;通過評定圖片像素相似度,我們可以進行圖片分割;通過評定文本相似度,我們可以進行網頁聚類;通過評定用戶關注人群,喜好,喜好內容,我們可以將社交網絡用戶聚類;通過評定加車,購買的商品和關注的店鋪,我們可以將電商用戶進行聚類,等等本次課題主要研究了解多種多視圖聚類算法及其特點和聚類算法在具體數據集(將評價的標準抽象成數據點的集合)的應用。論文結構本論文正文內容共分為五個部分:1)緒論,主要介紹了本課題的研究背景和意義。2)介紹聚類算法中經典的K-means算法3)介紹自適應鄰域選擇的多視圖聚類算法算法及其組成部分。4)介紹聚類算法的評估指標,可以用來定量表示聚類算法的好壞。5)聚類算法在數據集上的實驗以及實驗數據,通過對比實驗結果,證明了算法的有效性。K-means算法與多視圖聚類算法設計概述本章介紹了經典的K-means聚類算法和多視圖聚類算法。顯示K-means算法和多視點聚類算法的差異。由于K-means算法是無監督聚類算法,易于實現并且效果好,所以被廣泛使用。為了優化有很多算法,為了實現更好的聚類效果,大部分的算法都會優化初始點的選擇。這一章沒怎么覆蓋。我們只引入了最經典和最簡單的K-means算法及其步驟。最佳附近內核聚類算法允許最佳內核陷入附近,但是不嚴格要求最佳內核的選擇區域是可以有效擴展的基礎內核的線性組合。為了簡單有效的聚類,介紹了最優的鄰居核聚類算法。具體實現K-means算法K-means算法是一種迭代求解的聚類分析算法,其大致步驟是先隨機選取K個對象作為初始的聚類標簽中心,然后計算數據中每個對象與各個聚類標簽中心之間的距離,然后把每個沒有標簽的對象分配上距離它最近的聚類標簽中心的標簽。聚類標簽中心以及分配了它們的標簽的對象就代表一個聚類。每分配一次所有標簽,聚類的聚類標簽中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。K-means算法具體步驟可以表示為:選擇初始化的k個聚類標簽中心。對于每個樣本X,將其標記位距離聚類標簽中心最近的類別i更新每個類別的聚類標簽中心點為為隸屬該類別的所有樣本的均值重復上述步驟直到達到終止條件K-means算法在凸數據上表現良好,但容易在非凸數據集陷入局部最優。而譜聚類可以較好的解決這一情況。(同心圓數據:)s圖2.1,K-means算法處理同心圓數據多視圖聚類算法多視圖聚類的兩個重要原理是互補原理和一致原理。補充原理:該原理規定多個視圖應用于更全面和更準確地描述數據對象。在多視圖數據的上下文中,每個視圖足以完成特定的知識發現任務。然而,不同視圖通常包括互補信息。例如,在圖像處理的領域中,各圖像由BP、SIFT、HOG等不同類型的特征來記述。LBP具有強大的紋理功能。掛鉤在對邊緣信息敏感的同時,對照明、噪音和旋轉有很強的抵抗力。因此,需要使用這些互補信息來描述這些數據對象,并向內部集群提供更深的洞察力。協議原理:本原則旨在最大限度地實現多個不同觀點的一致性。樣式訓練基于多視角共識,提出了協調訓練算法。這種類型的方法的目的是在所有觀點上最大化協議,盡可能達成廣泛的協議。使用交互訓練算法,可以通過使用事先的信息或學習知識來改善不同視圖的一致性。協調訓練的成功取決于三種假設(1)充分性:各視圖足以完成學習任務。(2)兼容性:目的函數引出同一時間。(3)條件獨立性:兩個視圖的高概率特征相同的預測:所有視圖提供學習標簽:有條件獨立。然而,實際上,難以滿足有條件的獨立假設。多視圖集群使用不同視圖之間的一致性和互補性來實現如上所述的更好的集群質量。另一個概念是屬于多任務學習領域的多任務集群。這將一起執行多個相關任務,并使用這些任務之間的關系來提高單個視圖的數據的聚集性能。通過繼承MVC和多任務集群的特性,多任務多視圖集群將每個視圖數據處理成一個或多個任務,如以下圖所示。近年來,這個受到了一些注意。主要課題是在各視圖中找到任務內(任務內)集群模型的方法,以及使用任務間任務(任務間)的多任務和多視圖的關系進行傳送的方法。自適應鄰域選擇的多視圖聚類算法概述許多應用程序諸如自然語言處理、生物學信息識別等,都需要處理高階原始數據。經典的k平均聚類常常是不好的。sc成功地處理了高階原始數據。sc非常依賴于表示低維結構的仿射矩陣s的多樣性和選擇。對于一些在低維空間中具有明顯和多樣結構的高維數據,sc比k平均值好。但是,所有的高維數據都不是這樣的。另外,仿射矩陣s的構建不能清楚地反映數據的局部幾何結構。由于這些原因,SC在聚類性能上可能比K-means差。因此,介紹關于處理高階原數據的意見。因此,我們提出將這種線性歸一化添加到聚類框架,即光譜嵌入聚類(sec)中。基于圖表理論的經典光譜聚類算法具有良好的性能,但是聚類結果對構建類似矩陣非常敏感。從另一個新的觀點解決了聚類問題,通過分配自適應最佳附近的基于局部連接學習的類似矩陣來產生。主要假設是具有較小距離的數據點具有較大鄰居概率。更重要的是,由學習相似矩陣產生的拉普拉斯矩陣受到秩的限制以實現理想的鄰域分配,結果數據中的連接分量與集群的數量完全相同。為了獲得最佳的聚類結果,同時學習數據類似度矩陣和聚類結構。也就是說,自適應附近聚集是高階數據聚集算法,是重要和困難的工作。pca是映射自適應附近的聚類。目標是尋找C連接組件的最佳部分空間。對SEANC的詳細導出進行說明。為了處理打破許多假設的高維或稀疏數據,我們使用線性組合低維表示(SEC)。為了獲得更好的聚類效應,使用自適應相鄰聚類(can)作為sec獲得的數據。與以前的方法不同,我們使用這個表達來處理數據本身和集群類型的低維表示,并替換原始數據。為了解決問題,使用兩步自適應鄰域選擇多視點聚集算法。算法的具體過程譜嵌入聚類(SEC)定義數據矩陣。為了簡單起見,假設數據集中化了。也就是說,定義不同類別之間的映射矩陣和類別內的映射矩陣作為整體映射矩陣為: (3.1) (3.2) (3.3)其中G是加權聚類分配矩陣: (3.4)其中,其中是的聚類分配向量。易證::對于聚類分配矩陣Y,以下定理是我們提出SEC框架的基礎:定理1:如果。那么真正的聚類分配矩陣可以被一個低維的線性映射所代表。即,如果存在那么。定理1的條件往往可以被高維和小樣本問題所滿足,這通常是許多實際應用的情況。許多聚類方式可以被簡化為最小化以下目標函數: (3.5)在SC中,最優化問題可以看做最優化以下目標函數: 其中是歸一化的拉普拉斯矩陣。根據定理1真正的聚類分配矩陣Y可以完全嵌入在高維數據的一個線性映射中。通過先前對Y的線性特征和把線性正則化加入到SC方式中,提出了SEC框架。特別的,我們最小化以下目標函數: (3.6)其中μ,γg是倆個正則化參數,第二個術語表征了放松的聚類分配矩陣F和數據的低維表示不匹配。定義數據是中心化的,即X1n=0.通過設置目標函數b,W的導數為0。我們有: (3.7)把公式3.7代入公式3.6得: (3.8)其中: (3.9) (3.10)并且是中心矩陣。類似于SC算法,SEC框架的聚類分配矩陣的解可以放寬為的前c小的特征值對應的特征向量。如果光譜旋轉被用來最終的聚類分配矩陣,那么這c個特征向量都要保留。利用局部回歸設計拉普拉斯矩陣:SC的目標函數可以表示為或者,其中L和L*分別代表非規格化拉普拉斯矩陣和規格化拉普拉斯矩陣。然而這些拉普拉斯矩陣對那些沒有明顯的主要結構的數據,沒法捕捉集群的判別信息。回想一下正則化項是由全局回歸所確定的。 (3.11)其中對于每個聚類來說W,b代表全局差異方向,為了在沒有多方面的假設的條件下去表征局部差異信息。對每一部分我們使用一個局部的回歸方程: (3.12)其中,是的k個最近的鄰居并且是F的行的倒置。為了得到3.12的最優解,我們設置目標,的導數為0;我們得到: (3.13)其中是局部中心矩陣。把公式3.13代入公式3.12,公式3.12然后減少到,其中: (3.14)在3.14中,并且類似于的選擇矩陣。注意到也是拉普拉斯矩陣的一部分,可以代表數據的局部差異。此外是建立在局部差異分析,由局部回歸所得到的。因此我們用來取代或者,所以對3.8的總優化變成: (3.15)再一次的,公式3.15的全局最優解可以通過特征值分解得到。的列是的前c大的特征值對應的特征向量。基于,離散值的聚類分配矩陣可以通過K-means或者光譜旋轉得到。SEC的具體算法如下:1,計算出矩陣或者。2,通過特征值分解解8或者15得到。3,基于,由K-means或者光譜旋轉得到離散的聚類分配矩陣Y。自適應鄰居聚類(CAN)對于數據集,對于的鄰居可以定義為與它距離最近的k個點。我們用歐幾里得距離來定量。對于數據點,所有數據點都有的可能性成為它的鄰居。對于越小的有越大的;很自然的我們可以通過以下公式來的到。 (3.16)但是這個公式的解很明顯是最近的點的可能性為1.這不符合我們預期。當我們不考慮距離信息時: (3.17)結合公式3.16與公式3.17: (3.18)公式3.18中γ是一個參數。定義.公式3.18的向量形式可以寫為: (3.19) 由公式3.18我們可以的到所有點的鄰居分配通過以下公式: (3.20)聚類的任務是把數據分為c類,一個比較理想的的鄰居分配是數據的連通分量正好等于c;但是大部分情況下不管γ取多少,公式3.5都達不到理想的鄰居分配,既圖中往往只有一個連通分量。為了達到理想的鄰居分配,公式3.20中的應使對于圖中的連通分量達到c。在鄰居分配中得到的,可以看做是把數據點看做節點的圖的相似矩陣。假設在每個節點分配了函數值,可以得到 (3.21)的行是由f組成的。是拉普拉斯矩陣。是度矩陣,.如果S是非負的,則拉普拉斯矩陣有如下性質:定理:拉普拉斯矩陣的特征值0的個數等于S在圖中連通分量的個數所以如果,則在S中我們已經將數據分為c類。因此將這一約束條件加入公式3.20.得到: (3.22)公式3.22是很難解的。所以從另一個角度去解決它。設是Ls的第i小的特征值,因為Ls是半正定的,所以,當有一個足夠大的λ時,公式3.22于下式是等價的 (3.23)當λ足夠大時,公式3.23中S的最優解S會使變成0,因此公式7中得到滿足。根據KyFan理論,我們可以得到 (3.24)所以公式3.23進一步等價于: (3.25)與公式3.22相比,公式3.25就比較容易解了。當S固定時,公式3.25相當于: (3.26)F的最優解就是由Ls的前c個最小特征值對應得特征向量構成的。當F固定時,公式3.25相當于: (3.27)結合式3.21,我們可以得到: (3.28)又因為對于每一個i,式3.28都是獨立的。我們可以得到: (3.29)定義,并定義 (3.30)(在實際操作中,為了加速處理過程,可以初始化λ=γ,然后如果S的連通分量小于c就增大λ,如果連通分量大于c就減少λ)對于式3.22的解可以用以下步驟來解: 用公式3.20的最優解來初始化SWhile未收斂時do利用拉普拉斯矩陣的前c個最特征向量來更新F;對于每一行,通過3.30更新S的第i行Endwhile在問題7中,γ的選取是很難確定的。對于每個i行,問題7的目標函數等于問題4的目標函數,問題4的拉格朗日函數是: (3.31)是拉格朗日乘數。我們可以得到的最優解為: (3.32)在實踐中,如果我們聚焦于數據的局部性,,我們往往可以獲得更好的結果。因此,建立一個學習的稀疏矩陣S是更好的選擇。而且它還可以減輕后續的計算負擔。不失一般性,設是從小到大排列的。如果最優的只有k個非零元素。根據3.32.我們知道.因此我們有: (3.33)由式3.32并結合。我們有: (3.34)由式3.33,式3.34結合得: (3.35)因此,為了得到問題4的正好有k個非0值最優解si。設: (3.36)γ可以設置為的平均值,即: (3.37)鄰居數k相比γ來說非常容易去調整,因為k是一個整數并且有明確的意義。映射自適應鄰居聚類(PCAN)為了表述的簡潔與方便,本節引用了上節的相關公式,并且公式也不再重新編號,而是延續上節的編號。定義總離散矩陣。其中H被定義為.假設我們學習了一個映射矩陣.我們用限制子空間,使得在子空間上的數據滿足不相關。像問題5一樣我們對每個點分配鄰居數通過解決以下問題: (3.38)與CAN相似的,使鄰居的分配變成自適應的可調整的,使得數據正好有c個連通分量。我們把加到S上。我們同時解決映射矩陣W和聚類問題通過以下問題: (3.39)由3.3節我們可知3.39可以寫為: (3.40)當S固定時,問題25可以看作問題11.最優解F是由的前c個最小特征值對應的特征向量組成的。當F是固定的時。問題25變成: (3.41)在式3.41中,如果S是固定的。就變成了: (3.42)由式3.21,式3.42可以被寫成: (3.43)式3.43中最優解W是由的前m個最小特征值對應的1特征向量組成的。(我們假設X的零空間已被移除,是可逆的)對于問題26.如果W是固定的。參考式3.21,式3.41可以寫為: (3.44)因為對于每個i來說,問題29是相互獨立的。所以對每個i來說我們可以得到: (3.45)定義,,并且定義向量的第j個元素為.然后問題30可以被寫為: (3.46)式3.46是和式3.30一樣的問題,可以得到一個相似的解。我們可以用式3.37來確定γ。問題24的解的算法為: 用問題3的最優解來初始化S。While未收斂do更新拉普拉斯矩陣其中是一個對角矩陣,第i個對角元素是;用Ls的前c個最小的特征值對應的特征向量更新F;用的前m小的特征值對應的特征向量來更新W;對于每個i,用31的解來更新S的i行,其中向量dwi∈Rn*1的第j個元素;Endwhile自適應鄰域選擇的多視圖聚類算法采用循環方式求解所述基于最優鄰居核的聚類優化目標函數,實現聚類。進一步地,所述基于最優鄰居核的聚類優化目標函數具體為:其中,H表示聚類矩陣,為一中間參數,G表示最優鄰居核,y表示核系數向量,,表示第p個核矩陣,m表示總核數,I表示單位矩陣,n表示樣本個數,k表示聚類簇數,表示所有元素都為1的列向量λ、ρ表示正則化參數,表示G和的距離,M表示核間相關性參數矩陣。進一步地,采用三步交替法求解所述基于最優鄰居核的聚類優化目標函數包括三步分別為:i)固定λ和G,優化H;Ii)固定λ和H,優化G;Iii)固定H和G,優化λ進一步地,所述優化H時,將最優鄰居核的聚類優化目標函數轉化為標準核k-均值問題進一步地,所述優化G時,將最優鄰居核的聚類優化目標函數轉化為如下函數:進一步地,所述優化y時,將最優鄰居核的聚類優化日標函數為線性規劃二次約束問題其中,a為一向量,a=[a1,…,am],其元素ap=pTr(GKp)。進一步地,循環過程的終止條件為:其中,分別表示第t、t-1輪迭代的目標函數值,為設定精度。評價指標設計概述引入了各種聚類算法。對于不同的數據集,不同的集群算法具有不同的性能。由于不同的性能,很難直觀地確定不同算法的優點和缺點。此時,需要使用定量算法來評估用于定量和直觀比較的指標。決定聚類的結果。集群通常需要以下集群。①.類內類似性②.類間的類似性聚類指標設計純度(purity)其中,N表示總的樣本個數,W={w1,w2,…,wk}表示聚類簇(cluster)劃分,C={c1,c2,…,cj}表示真實類別(class)劃分》上述過程即給每個[聚類簇]分配一個[類別],且[為這個類別的樣本]在該簇中[出現的次數最多],然后計算所有K個聚類簇的這個次數之和再歸一化為最終值。Purity∈[0,1],越接近1表示聚類結果越好該值無法用于權衡聚類質量與簇個數之間的關系圖4.1數據點聚類效果圖如圖4.1,在中的數目最多為5,在中數目最多為4,在中最多為3,因此:規則化互信息(NMI)即規則化互信息。其中,I表示互信息,H為熵,當取2為底時,單位為,取e為底時單位為。 其中,可以分別看作樣本(document)屬于聚類簇,屬于類別,同時屬于兩者的概率。第二個等價式子則是由概率的極大似然估計推導而來。互信息表示給定類簇信息C的前提條件下,類別信息W的增加量,或者說其不確定度的減少量。直觀地,互信息還可以寫出如下形式:互信息的最小值為0,當類簇相對于類別只是隨機的,也就是說兩者獨立的情況下,W對于C為帶來任何有用的信息。如果得到的W與C的關系越密切,那么I(W;C)值越大,如果W完整重現了C,此時互信息最大:當時,即類簇數和樣本個數相等,也能達到最大值。所以也存在和純度類似的問題,即它并不對簇數目較大的聚類結果進行懲罰,因此也不能在其他條件一樣的情況下,對簇數目越小越好這種期望進行形式化則可以解決上述問題,因為熵會隨著簇的數目的增長而增大。當時,會達到其最大值,此時就能保證的值較低,之所以采用作為分母,是因為它是的緊上界,因此可以保證。熵指的是隨機變量的熵;熵是隨機變量不確定度的度量。定義:設X是一個離散型隨機變量,分布律為,χ為取值空間集合,則隨機變量X的熵H(X)定義為: 熵是數學期望!設離散型隨機變量X,那么X的熵的含義就是X的所有可能的事件的自信息量(即)的期望:所以可概述為: 隨機變量X的熵實際上是X的分布的泛函數,不依賴于X的實際取值,只依賴于X的分布。泛函數:輸入為函數,輸出為實數的函數。!!注:若離散型隨機變量X的概率分布為p(x),則X的熵H(X)通常也記為H(p)。圖4.2基本事實和聚類后的群組如圖4.2,gnd是groundtruth的意思,grps表示聚類后的groups。問題是:計算序列gnd和grps的NMI先計算聯合概率分步P(grap,gnd)grps\gnd1231P(1,1)=5/17P(1,2)=1/17P(1,3)=2/172P(2,1)=1/17P(2,2)=4/17P(2,3)=0/173P(3,1)=0/17P(3,2)=1/17P(3,3)=3/17計算邊際分步:計算熵和互信息計算NMI約等于0.3649聚類精準度(ACC)聚類精確度(Accuracy,ACC)用于比較獲得標簽和數據提供的真實標簽其中,ri,si分別表示數據xi所對應獲得的標簽和真實標簽,n為數據總的個數,δ表示指示函數如下:而式中的map則表示最佳類標的重現分配,才能保證統計的正確。一般的該最佳分配可以通過匈牙利算法(HungarianAlgorithm)實現,從而在多項式時間內求解該任務(標簽)分配問題。算法實現自適應鄰域選擇的多視圖聚類算法的實現與分析為了驗證自適應鄰域選擇的多視圖聚類算法對高階原始數據和稀疏數據的有效性,使用實際數據進行了驗證。由于k平均算法是高度依賴于初始化的聚類算法,所以包括k平均在內的所有算法都執行100次并獲得平均值。我們只用別的方法測試了一次那個。自適應鄰域選擇多視圖聚類算法的四個參數是根據can算法確定的。選擇了四個低維數據集和兩個高維數據集。在COL20數據集中,32×有32個印象。USPS數據集為16×是具有16個圖像尺寸的手寫識別數據集。東、溫、ECOLI、類數據集是UCI機械學習倉庫數據集的一部分。這些數據集的細節在表2中示出。表5.1多視圖數據集的統計DatasetSamplesViewsClustersUCIDigits2000610Reuters600563-sources16936ProKayotic55134算法評價指標CAFPRnmiARISC-bestCAN-bestMLRSSCKMLRSSCMLANPDA94.8090.0590.1689.9389.5688.95表2,數據集的細節DatasetCOIL20USPSYEASTWINEGLASSECOLISample144018541484178219336Class20108368Dimension102425681397表3,聚類精準度(ACC)DatasetCOIL20USPSYEASTWINEGLASSECOLIK-means56.5464.2738.0094.6545.5757.10SC(R)69.4267.5938.1195.4438.2854.08SC(N)70.3068.4336.9994.9938.2653.110PCAN83.3363.8150.0710049.5383.33SEANC85.9771.3651.1589.3253.2785.42表4,規則化互信息(NMI)DatasetCOIL20USPSYEASTWINEGLASSECOLIK-means73.4562.0725.1982.4133.1353.04SC(R)84.0173.9524.9484.3729.1048.96SC(N)84.4273.9723.8884.0228.5849.78PCAN89.1068.9330.5510033.8272.44SEANC92.0478.0529.2168.7134.8270.47在實驗中,使用兩種定量方法評估其效果。五種算法,包括兩種算法、k-means、sc(r)、sc(n)、pcan、seanc。實驗結果在表3中表示ACC的結果。這證明了自適應鄰域選擇多視圖聚類算法框架比其他算法好。與sc(r)相比,該方法平均提高了12.31%。比ecoli數據集上的sc(n)好32.32%。NMI的實驗結果如表4所示。SEANC最適合3個數據集。復活節,生態,我們來了第二個。注意,seanc算法對于高階原始數據具有良好的性能。這種現象表明,作為兩個部分框架的seanc對于高維稀疏數據具有優異的性能,因為光譜嵌入表示和自適應附近聚類。結束語在本文中,我們首先介紹了聚類的概念。我們引入了經典的k平均聚類和sc聚類方法。這是理解聚類算法的基礎。通過這兩種方法,可以得到對聚類的想法和目標的一般理解。對于理解聚類和理解光譜聚類的特性非常有用。聚類算法很多。應該根據目的和困難來理解其他聚類算法。為了更好地應用于現實,我們選擇了處理高階數據的聚類算法。接下來,我們學習可以更好地處理高階數據的SEC框架,并允許算法和pcan算法獲得更好的聚集效果。接下來,我們研究了SEC和CAN提出的自適應鄰域選擇的多視圖聚類算法。自適應鄰域選擇的多視點聚類算法利用線性光譜嵌入表示和自適應鄰域聚類來解決歧管假設問題。該方法不僅可以在光譜嵌入表示中處理高階原始數據,還可以同時學習相似圖和聚類結果。通過對實際世界數據和定量聚類評估指標的實驗表明,適應近距離選擇的多視圖聚類算法表現出良好的性能。該方法未被用于實現特定應用程序。然而,在自然語言處理、生物信息識別、圖像處理等領域應用自適應鄰域選擇的多視圖聚類算法被認為是有意義的工作。參考文獻1.夏冬雪、楊燕.“基于鄰域多核學習的后融合多視圖聚類算法”.計算機研究與發展.2020年第08期2.李杏峰.“基于自適應鄰域的魯棒多視圖聚類算法”.計算機應用3.劉云東.“一種自適應鄰域選擇半監督判別分析算法”.計算機工程與應用4.KunLi、Ting-ZhuHuang、StéphaneLanteri,POD-bas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論