超參數(shù)的意義_第1頁
超參數(shù)的意義_第2頁
超參數(shù)的意義_第3頁
超參數(shù)的意義_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

超參數(shù)的意義,并提供某種方法在數(shù)據(jù)中估計(jì)它的標(biāo)量值。6.1解釋通常意義上,狄利克雷超參數(shù)對(duì)多項(xiàng)式參數(shù)有平滑影響。通過降低U和/;的值,減少LDA中的平滑影響,最終會(huì)導(dǎo)致更加直接的話題關(guān)聯(lián),因而”和將變得更加稀疏。由乃控制的0的稀疏性說明模型傾向于賦予每個(gè)話題較少的詞項(xiàng),又一次影響模型在數(shù)據(jù)中已有的話題數(shù)量。這意味著為了發(fā)現(xiàn)詞語同屬一個(gè)話題,詞語之間的“相似”度需要很高(即是它們?cè)诓煌纳衔闹泄铂F(xiàn)的頻繁程度1)。對(duì)于稀疏話題,如果K值更高,模型會(huì)與數(shù)據(jù)更加匹配,因?yàn)槟P蛯?huì)最大限度地將多個(gè)話題賦予一個(gè)詞項(xiàng)。這就是模型的學(xué)習(xí)K值,例如不帶參數(shù)的貝葉斯方法[TJB+06]的其中一個(gè)原因,K值強(qiáng)烈地依賴于超參數(shù)。由口控制的稀疏度向意味著模型傾向于用更少的話題刻畫文檔。當(dāng)超參數(shù)、話題數(shù)量和模型行為之間的關(guān)系是相互的,它可形成具有特定性質(zhì)的模型,以及對(duì)數(shù)據(jù)的內(nèi)在特點(diǎn)進(jìn)行分析。模型質(zhì)量的試探性,報(bào)道性,良好性(見下章,用于分析方法),I-礦并且?-’i|[GSt04]。另一方面,給定話題數(shù)量K,從數(shù)據(jù)中學(xué)習(xí)3和"可以用于提高模型質(zhì)量(指的是估計(jì)方法的目標(biāo)),更進(jìn)一步說,超參數(shù)估計(jì)可以揭示建模數(shù)據(jù)集的特定屬性。口估計(jì)可以指示不同文檔的(潛在)語義是相當(dāng)程度的不同,并且對(duì)7的估計(jì)暗示了一般性的共現(xiàn)詞語組有多大。但是,估計(jì)超參數(shù)的解釋并不總是簡單的,對(duì)文檔內(nèi)容的特定群集的影響尚未得到徹底調(diào)查。6.2抽樣了解了很多從數(shù)據(jù)中學(xué)習(xí)狄利克雷參數(shù)向量孔的方法,但很遺憾目前還不存在正確的閉合解。最精確的方法是迭代近似方法。[[Mink00]]對(duì)此進(jìn)行了全面的概述。事實(shí)上,學(xué)習(xí)狄利克雷參數(shù)的最好辦法是使用吉布斯采樣(參考等式79)已經(jīng)得到的結(jié)果。例如話題相關(guān)性的計(jì)數(shù)統(tǒng)計(jì)信息而不是多項(xiàng)式參數(shù)W和4',對(duì)它們進(jìn)行積分分析。這說明超參數(shù)的最佳估計(jì)是狄利克雷多項(xiàng)式分布的參數(shù)(參考等式52)。對(duì)于對(duì)稱的狄利克雷分布,對(duì)于LDA更加普遍,在吉布斯采樣中運(yùn)行良好的I坤*估計(jì),卻在文字里并未明確的說明。因此這里推薦使用的貝葉斯方法。狄利克雷分布沒有減小運(yùn)算的共軛先驗(yàn)分布,因此不會(huì)選擇先驗(yàn)。但是,與狄利克雷處理常常一起使用的先驗(yàn)分布是gamma分布,G"..imm?e;'?這種選擇被用在了狄利克雷分布上。對(duì)于"的吉布斯采樣的全條件可通過以下方式得到:pMz)氏p(刃a)p(a) (86)<x 潛在話題常常來源于高階的共現(xiàn),例如與七共現(xiàn)的'''I與「共現(xiàn)代表著'I和'''直接的次階共現(xiàn)關(guān)系,e-M 潛在話題常常來源于高階的共現(xiàn),例如與七共現(xiàn)的'''I與「共現(xiàn)代表著'I和'''直接的次階共現(xiàn)關(guān)系,其中,使用等式74中的「“":,?’-「"-,含有g(shù)amma分布的參數(shù):形狀。'和標(biāo)量。。這些參數(shù)可以通過關(guān)于可能的區(qū)間H和月的先驗(yàn)知識(shí)進(jìn)行選擇。某個(gè)具體的參數(shù)集合是"弓I用”先驗(yàn),[EsWe95]中表示的(;:]11「0.0)上1.、(它在(/=0處有一個(gè)奇異值,因此在實(shí)際的實(shí)現(xiàn)中,參數(shù)是趨于零的集合,例如等等。"[NGS+06])。等等。相似的,乃的全條件可以通過等式70得到:

P㈤劾0)■p(形;物p伊) (88)(89)注意兩個(gè)分布.Mu「'和/偵廣'頊直接含有LDA吉布斯采樣的統(tǒng)計(jì)參數(shù)。可以使用蒙特卡洛模擬的方法從這些分布中采樣,從而計(jì)算"和月的值。例如:自適應(yīng)舍選抽樣(ARS[GiWi92]),一個(gè)從任何log密度抽樣的方法得到,4"‘.』'廣??",它是提供給這些分布的一個(gè)參照。6.3高效估計(jì)作為抽樣的替代品,存在一種高效的非迭代方法,能夠通過狄利克雷精度一《口找到H的最大似然估計(jì)。它基于適合于狄利克雷分布密度的距和多項(xiàng)式參數(shù)的距[Mink00]o在坍塌的LDA吉布斯采樣中,參數(shù)不能夠被直接訪問,而是使用了點(diǎn)估計(jì),可以通過比率,‘:?'"?■:的模型統(tǒng)計(jì)量獲得。使用[Mink00]的結(jié)果,我們得到:(90)EW-E{此}(90)Eh%—E{既F(91)這個(gè)估計(jì)方法能夠比任何迭代方法或者基于抽樣的方法更快捷,如果滿足條件》偵,得到的超參數(shù)值比真實(shí)的參數(shù)值要小10%(顯著地過低)。如果不滿足,估計(jì)將劇烈下降這就是為什么這個(gè)方法不能被應(yīng)用到廠中,其中底■這就是為什么這個(gè)方法不能被應(yīng)用到廠中,其中底■\而不是《:^。…… …,,,,,,」—,,,(9,—_,,一3使用等式84和等式85,等式92中的公式也能夠與模型的參數(shù)和一聯(lián)系起來。另外,對(duì)等式92中的采樣進(jìn)行簡化,可以忽略與查詢'’?話題-詞項(xiàng)關(guān)聯(lián)關(guān)系。因此'■■■'■'■'■- '■.'■';4這里使用了貝葉斯法則和非條件文檔和話題概率”?'''1',并且”?.'*,因?yàn)槠?£出財(cái)=*叫7分析話題模型話題模型,如潛在話題與觀測到的實(shí)體之間的LDA估計(jì)的軟關(guān)系,例如詞語、文檔,但是在模型擴(kuò)展時(shí)也包括作者等。這些關(guān)系是很多與信息處理和語言建模相關(guān)操作的基礎(chǔ)。在本節(jié)中,我們舉出幾個(gè)使用給定語料的話題結(jié)構(gòu)的方法,從而在(1)估算中看不見的文件(正在查詢)的話題結(jié)構(gòu),(2)估計(jì)隱含的已估計(jì)話題聚類的質(zhì)量,(3)根據(jù)已估計(jì)的參數(shù),推斷新的關(guān)聯(lián)關(guān)系,例如,詞語、文檔、作者之間的相關(guān)性。為此,使用了LDA的示例,其中提供了有關(guān)當(dāng)前文檔中已有的話題信息一一參數(shù)集合三一一以及與這些話題相關(guān)的術(shù)語一一參數(shù)集合中。7.1查詢LDA模型中的查詢是指查詢與檢索文檔相關(guān)的操作。在話題模型中,有兩種方法對(duì)結(jié)果文檔實(shí)施排序:(1)通過相似度分析,(2)通過可預(yù)測似然法。兩種方法都依賴于對(duì)查詢文檔或文檔的話題估計(jì)。查詢抽樣。一個(gè)查詢僅僅是一個(gè)簡單的詞向量'"?,在給定查詢的詞向量'「I''和LDA模型一 …的情況下,通過估計(jì)話題「的后驗(yàn)分布找到已知文檔的匹配文檔。考慮是一個(gè)文檔浦,與等式83中的可預(yù)測似然法的正確詞項(xiàng)相同,并與等式85中的小相同。為了找到一個(gè)全新文檔的必要數(shù)量,我們能夠使用[Hofm99]或[SSR+04]的方法來排他性地運(yùn)行關(guān)于新文檔的推理算法,與等式79類似。首先,我們通過隨機(jī)給詞語分配話題來初始化算法,然后循環(huán)地進(jìn)行吉布斯采樣更新(針對(duì)局部詞語小的i)3:~一網(wǎng)二f,己L禮*壞)二(92)十)+也+岳(92)[義=試,+把+成I-1〔艾籬)+您1-1其中,新變量'?'表示詞項(xiàng)t和話題k在未發(fā)現(xiàn)的文檔中出現(xiàn)的次數(shù)。這個(gè)等式提供了一個(gè)完美的吉布斯后驗(yàn)采樣的工作實(shí)例:在隨機(jī)選取中,并不可能聚類的的廣和的貢獻(xiàn)比較出現(xiàn),高度估計(jì)的詞語-話題關(guān)聯(lián)'「將支配多項(xiàng)式集。結(jié)果,經(jīng)過從分布中重復(fù)進(jìn)行抽樣,并更新L,話題-詞語關(guān)聯(lián)集合傳播到文檔-話題關(guān)聯(lián)。注意狄利克雷超參數(shù)的平滑影響。應(yīng)用等式85,得到未知文檔的話題分布:(93)堂+竺(93)這個(gè)查詢過程適用于未知文檔的完全集合,通過小跨越的未知文檔實(shí)現(xiàn)。相似度排序。在相似度方法中,查詢文檔的話題分布被估計(jì),并且與合適的相似度衡量允許排序。當(dāng)話題"的分布與行”的形式相同,我們能夠?qū)⒉樵兣c語料庫中的文檔進(jìn)行比較。一個(gè)簡單的度量方法是Kullback-Leibler散度[KuLe51],它由兩個(gè)離散隨機(jī)變量X和Y定義,其具體表達(dá)式如下:NOkl(X||¥)=£p(X=/i)|1性P(Xf)—Ing?p(y=*)] (94)H=lKL散度能夠被解釋為交叉嫡T和X熵"E-二.「?".'I,.'心之間形成的區(qū)別。例如,知識(shí)Y增加到知識(shí)X中的信息。因此,僅僅當(dāng)分布X和Y相等時(shí),KL散度才等于零。但是KL散度不是一個(gè)適合勺距離度量,因?yàn)樗⒉粚?duì)稱。因此一個(gè)平滑的,對(duì)稱的拓展Jensen-Shannon距離被逐漸采納:Ojs(X||V)=:|Okl(X||M)+OklWIIM)] (95)其中平均值}。可預(yù)測似然排序。排序的第二種方法是計(jì)算由查詢生成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論