




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文檔評分與向量空間模型
主講人:陳文亮李正華稍微刪減蘇州大學計算機學院1。文檔評分與向量空間模型
主講人:陳文亮1。提綱
排序式檢索
詞項頻率詞項頻率tf-idf權重計算
向量空間模型2。提綱排序式檢索2。提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型3。提綱排序式檢索3。為什么要排序4。為什么要排序4。5排序式檢索(Rankedretrieval)迄今為止,我們主要關注的是布爾查詢文檔要么匹配要么不匹配對自身需求和文檔集性質非常了解的專家而言,布爾查詢是不錯的選擇對應用開發來說也非常簡單,很容易就可以返回1000多條結果然而對大多數用戶來說不方便大部分用戶不能撰寫布爾查詢或者他們認為需要大量訓練才能撰寫合適的布爾查詢大部分用戶不愿意逐條瀏覽1000多條結果,特別是對Web搜索更是如此對于剛才的例子,40M的文檔,相信大家都不會想去看。5。5排序式檢索(Rankedretrieval)迄今為止,我6布爾搜索的不足:結果過少或者過多布爾查詢常常會倒是過少(=0)或者過多(>1000)的結果查詢1(布爾或操作):[standarduserdlink650]→200,000個結果–太多查詢2(布爾與操作):[standarduserdlink650nocardfound]→0個結果–太少在布爾檢索中,需要大量技巧來生成一個可以獲得合適規模結果的查詢6。6布爾搜索的不足:結果過少或者過多布爾查詢常常會倒是過少(7排序式檢索排序式檢索可以避免產生過多或者過少的結果大規模的返回結果可以通過排序技術來避免只需要顯示前10條結果不會讓用戶感覺到信息太多前提:排序算法真的有效,即相關度大的文檔結果會排在相關度小的文檔結果之前7。7排序式檢索排序式檢索可以避免產生過多或者過少的結果7。8排序式檢索中的評分技術我們希望,在同一查詢下,文檔集中相關度高的文檔排名高于相關度低的文檔如何實現?通常做法是對每個查詢-文檔對賦一個[0,1]之間的分值該分值度量了文檔和查詢的匹配程度怎么做?8。8排序式檢索中的評分技術我們希望,在同一查詢下,文檔集中相關9查詢-文檔匹配評分計算如何計算查詢-文檔的匹配得分?原則先從單詞項查詢開始若該詞項不出現在文檔當中,該文檔得分應該為0該詞項在文檔中出現越多,則得分越高9。9查詢-文檔匹配評分計算如何計算查詢-文檔的匹配得分?原則9提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型10。提綱排序式檢索10。11二值關聯矩陣
每篇文檔可以看成是一個二值的向量∈{0,1}|V|11。11二值關聯矩陣 每篇文檔可以看成是一個二值的向量∈{012非二值關聯矩陣(詞頻)
每篇文檔可以表示成一個詞頻向量∈N|V|12。12非二值關聯矩陣(詞頻)每篇文檔可以表示成一個詞13詞袋(Bagofwords)模型不考慮詞在文檔中出現的順序JohnisquickerthanMary及MaryisquickerthanJohnare的表示結果一樣這稱為一個詞袋模型(bagofwordsmodel)在某種意思上說,這種表示方法是一種“倒退”,因為位置索引中能夠區分上述兩篇文檔13。13詞袋(Bagofwords)模型不考慮詞在文檔中出現14詞項頻率tf詞項t的詞項頻率tft,d
是指t
在d中出現的次數下面將介紹利用tf來計算文檔評分的方法第一種方法是采用原始的tf值(rawtf)但是原始tf不太合適:某個詞項在A文檔中出現十次,即tf=10,在B文檔中tf=1,那么A比B更相關但是相關度不會相差10倍相關度不會正比于詞項頻率tf14。14詞項頻率tf詞項t的詞項頻率tft,d是指t在d15一種替代原始tf的方法:對數詞頻t在d中的對數詞頻權重定義如下:tft,d→wt,d:0→0,1→1,2→1.3,10→2,1000→4,等等文檔-詞項的匹配得分是所有同時出現在q和文檔d中的詞項的對數詞頻之和(1+logtft,d)如果兩者沒有公共詞項,則得分為015。15一種替代原始tf的方法:對數詞頻t在d中的對數詞提綱排序式檢索
詞項頻率
tf-idf權重計算
向量空間模型16。提綱排序式檢索16。17文檔中的詞頻vs.文檔集中的詞頻哪種詞重要?的了水果火龍果劉翔體育蘇州大學計算機學院除詞項頻率tf之外,我們還想利用詞項在整個文檔集中的頻率進行權重和評分計算17。17文檔中的詞頻vs.文檔集中的詞頻哪種詞重要?17。18罕見詞項所期望的權重罕見詞項比常見詞所蘊含的信息更多考慮查詢中某個詞項,它在整個文檔集中非常罕見
(例如
赫爾辛根默斯).某篇包含該詞項的文檔很可能相關于是,我們希望像“赫爾辛根默斯”一樣的罕見詞項將有較高權重阿爾代夫海灘馬路18。18罕見詞項所期望的權重罕見詞項比常見詞所蘊含的信息更多阿爾19常見詞項所期望的權重常見詞項的信息量不如罕見詞考慮一個查詢詞項,它頻繁出現在文檔集中
(如
GOOD,INCREASE,LINE等等)一篇包含該詞項的文檔當然比不包含該詞項的文檔的相關度要高但是,這些詞對于相關度而言并不是非常強的指示詞于是,對于諸如GOOD、INCREASE和LINE的頻繁詞,會給一個正的權重,但是這個權重小于罕見詞權重19。19常見詞項所期望的權重常見詞項的信息量不如罕見詞19。20文檔頻率(Documentfrequency,df)對于罕見詞項我們希望賦予高權重對于常見詞我們希望賦予正的低權重接下來我們使用文檔頻率df這個因子來計算查詢-文檔的匹配得分文檔頻率指但是出現詞項的文檔數目20。20文檔頻率(Documentfrequency,df)21idf權重dft
是出現詞項t的文檔數目dft
是和詞項t的信息量成反比的一個值于是可以定義詞項t的idf權重:
(其中N
是文檔集中文檔的數目)idft
是反映詞項t的信息量的一個指標值得注意的是,對于tf和idf我們都采用了對數計算方式21。21idf權重dft是出現詞項t的文檔數目21。22idf的計算樣例(inverted
document
freq)利用右式計算idft:22。22idf的計算樣例(inverteddocumentf23idf對排序的影響idf會影響至少包含2個詞項的查詢的文檔排序結果例如,在查詢
“馬爾代夫海灘”中,idf權重計算方法會增加馬爾代夫的相對權重,同時降低
海灘的相對權重對于單詞項查詢,idf對文檔排序基本沒有任何影響23。23idf對排序的影響idf會影響至少包含2個詞項的查詢的24文檔集頻率vs.文檔頻率詞項t的文檔集頻率(Collectionfrequency):文檔集中出現的t詞條的個數詞項t的文檔頻率:包含t的文檔篇數為什么會出現上述表格的情況?即文檔集頻率相差不大,但是文檔頻率相差很大哪個詞是更好的搜索詞項?即應該賦予更高的權重上例表明df(和idf)比cf(和“icf”)更適合權重計算24。24文檔集頻率vs.文檔頻率詞項t的文檔集頻率(Coll25tf-idf權重計算詞項的tf-idf權重是tf權重和idf權重的乘積信息檢索中最出名的權重計算方法注意:上面的
“-”是連接符,不是減號其他叫法:tf.idf、tfxidf25。25tf-idf權重計算詞項的tf-idf權重是tf權重和i26tf-idf小結詞項t在文檔d中的權重可以采用下次計算tf-idf權重隨著詞項頻率的增大而增大隨著詞項罕見度的增加而增大26。26tf-idf小結詞項t在文檔d中的權重可以采用下次計算2提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型27。提綱排序式檢索27。28二值關聯矩陣
每篇文檔表示成一個二值向量∈{0,1}|V|28。28二值關聯矩陣 每篇文檔表示成一個二值向量∈{0,1}29詞頻矩陣
每篇文檔表示成一個詞頻向量∈N|V|29。29詞頻矩陣每篇文檔表示成一個詞頻向量∈N|V|30二值→詞頻→權重矩陣
每篇文檔表示成一個基于tfidf權重的實值向量
∈R|V|30。30二值→詞頻→權重矩陣 每篇文檔表示成一個基于tf31二值→詞頻→權重矩陣
每篇文檔表示成一個基于tfidf權重的實值向量
∈R|V|下一步:需要按列進行歸一化(保證每一個列向量的平方和為1)思考一下如何做?原因后面講。31。31二值→詞頻→權重矩陣 每篇文檔表示成一個基于tf32文檔表示成向量每篇文檔表示成一個基于tfidf權重的實值向量∈R|V|.于是,我們有一個|V|維實值空間空間的每一維都對應詞項文檔都是該空間下的一個點或者向量極高維向量:對于Web搜索引擎,空間會上千萬維對每個向量來說又非常稀疏,大部分都是032。32文檔表示成向量每篇文檔表示成一個基于tfidf權重的實值33查詢看成向量每一個查詢也可以表示為一個高維稀疏向量。注意,為了簡化問題,只考慮tf值,而不考慮idf如:good
->
1
movie->2查詢對應的向量不需要歸一化(為什么自己思考)33。33查詢看成向量每一個查詢也可以表示為一個高維稀疏向量。注意34向量空間下相似度的形式化定義先考慮一下兩個點之間的距離倒數一種方法是采用歐氏距離但是,歐氏距離不是一種好的選擇,這是因為歐氏距離對向量長度很敏感34。34向量空間下相似度的形式化定義先考慮一下兩個點之間的距離倒35歐氏距離不好的例子盡管查詢q和文檔d2的詞項分布非常相似,但是采用歐氏距離計算它們對應向量之間的距離非常大。.Questionsaboutbasicvectorspacesetup?35。35歐氏距離不好的例子盡管查詢q和文檔d2的詞項分布非常相似36采用夾角而不是距離來計算將文檔按照其向量和查詢向量的夾角大小來排序假想實驗:將文檔d復制一份加在自身末尾得到文檔d′.d′是d的兩倍很顯然,從語義上看,
d
和
d′
具有相同的內容兩者之間的夾角為0,代表它們之間具有最大的相似度但是,它們的歐氏距離可能會很大36。36采用夾角而不是距離來計算將文檔按照其向量和查詢向量的夾角37從夾角到余弦下面兩個說法是等價的:按照夾角從小到大排列文檔按照余弦從大到小排列文檔這是因為在區間[0?,180?]上,余弦函數cosine是一個單調遞減函數37。37從夾角到余弦下面兩個說法是等價的:37。38Cosine函數38。38Cosine函數38。39文檔長度歸一化如何計算余弦相似度?一個向量可以通過除以它的長度進行歸一化處理,以下使用L2
(2范數):這相當于將向量映射到單位球面上這是因為歸一化之后:因此,長文檔和短文檔的向量中的權重都處于同一數量級前面提到的文檔
d
和
d′(兩個d
的疊加)經過上述歸一化之后的向量相同39。39文檔長度歸一化如何計算余弦相似度?39。40查詢和文檔之間的余弦相似度計算qi
是第i
個詞項在查詢q中的tf-idf權重di是第i
個詞項在文檔d中的tf-idf權重||和||分別是和的長度上述公式就是和的余弦相似度,或者說向量和的夾角的余弦
40。40查詢和文檔之間的余弦相似度計算qi是第i個詞項在查詢41歸一化向量的余弦相似度歸一化向量的余弦相似度等價于它們的點積(或內積)如果和
都是長度歸一化后的向量41。41歸一化向量的余弦相似度歸一化向量的余弦相似度等價于它們的42余弦相似度的圖示42。42余弦相似度的圖示42。下面的內容不講,有興趣的同學可以了解43。下面的內容不講,有興趣的同學可以了解43。44第一種方法:Jaccard系數計算兩個集合重合度的常用方法令
A
和B為兩個集合Jaccard系數的計算方法:JACCARD(A,A)=1JACCARD(A,B)=0如果
A∩B=0A和B不一定要同樣大小Jaccard系數會給出一個0到1之間的值44。44第一種方法:Jaccard系數計算兩個集合重合度的常用45Jaccard系數的計算樣例查詢
“idesofMarch”文檔
“CaesardiedinMarch”JACCARD(q,d)=1/645。45Jaccard系數的計算樣例查詢“idesofMa46Jaccard系數的不足不考慮詞項頻率
,即詞項在文檔中的出現次數罕見詞比高頻詞的信息量更大,Jaccard系數沒有考慮這個信息沒有仔細考慮文檔的長度因素46。46Jaccard系數的不足不考慮詞項頻率,即詞項在文檔中47課堂練習:詞項、文檔集及文檔頻率df和cf有什么關系?tf和cf有什么關系?tf和df有什么關系?47。47課堂練習:詞項、文檔集及文檔頻率df和cf有什么關系?48余弦相似度的計算樣例
詞項頻率tf3本小說之間的相似度(1)SaS(理智與情感):SenseandSensibility(2)PaP(傲慢與偏見):PrideandPrejudice(3)WH(呼嘯山莊):WutheringHeights48。48余弦相似度的計算樣例49余弦相似度計算
詞項頻率tf對數詞頻(1+log10tf)為了簡化計算,上述計算過程中沒有引入idf49。49余弦相似度計算詞項頻率tf50余弦相似度計算
對數詞頻(1+log10tf)數詞頻的余弦歸一化結果
cos(SaS,PaP)≈0.789?0.832+0.515?0.555+0.335?0.0+0.0?0.0≈0.94.cos(SaS,WH)≈0.79cos(PaP,WH)≈0.69cos(SaS,PaP)>cos(SAS,WH)>cos(PaP,WH)50。50余弦相似度計算對數詞頻(1+log10tf)51tf-idf計算樣例:Inc.Itn查詢:“bestcarinsurance”.文檔:“carinsuranceautoinsurance”.1/1.92≈0.521.3/1.92≈0.68最終結果
wqi·wdi
=0+0+1.04+2.04=3.0851。51tf-idf計算樣例:Inc.Itn查詢:“bes文檔評分與向量空間模型
主講人:陳文亮李正華稍微刪減蘇州大學計算機學院52。文檔評分與向量空間模型
主講人:陳文亮1。提綱
排序式檢索
詞項頻率詞項頻率tf-idf權重計算
向量空間模型53。提綱排序式檢索2。提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型54。提綱排序式檢索3。為什么要排序55。為什么要排序4。56排序式檢索(Rankedretrieval)迄今為止,我們主要關注的是布爾查詢文檔要么匹配要么不匹配對自身需求和文檔集性質非常了解的專家而言,布爾查詢是不錯的選擇對應用開發來說也非常簡單,很容易就可以返回1000多條結果然而對大多數用戶來說不方便大部分用戶不能撰寫布爾查詢或者他們認為需要大量訓練才能撰寫合適的布爾查詢大部分用戶不愿意逐條瀏覽1000多條結果,特別是對Web搜索更是如此對于剛才的例子,40M的文檔,相信大家都不會想去看。56。5排序式檢索(Rankedretrieval)迄今為止,我57布爾搜索的不足:結果過少或者過多布爾查詢常常會倒是過少(=0)或者過多(>1000)的結果查詢1(布爾或操作):[standarduserdlink650]→200,000個結果–太多查詢2(布爾與操作):[standarduserdlink650nocardfound]→0個結果–太少在布爾檢索中,需要大量技巧來生成一個可以獲得合適規模結果的查詢57。6布爾搜索的不足:結果過少或者過多布爾查詢常常會倒是過少(58排序式檢索排序式檢索可以避免產生過多或者過少的結果大規模的返回結果可以通過排序技術來避免只需要顯示前10條結果不會讓用戶感覺到信息太多前提:排序算法真的有效,即相關度大的文檔結果會排在相關度小的文檔結果之前58。7排序式檢索排序式檢索可以避免產生過多或者過少的結果7。59排序式檢索中的評分技術我們希望,在同一查詢下,文檔集中相關度高的文檔排名高于相關度低的文檔如何實現?通常做法是對每個查詢-文檔對賦一個[0,1]之間的分值該分值度量了文檔和查詢的匹配程度怎么做?59。8排序式檢索中的評分技術我們希望,在同一查詢下,文檔集中相關60查詢-文檔匹配評分計算如何計算查詢-文檔的匹配得分?原則先從單詞項查詢開始若該詞項不出現在文檔當中,該文檔得分應該為0該詞項在文檔中出現越多,則得分越高60。9查詢-文檔匹配評分計算如何計算查詢-文檔的匹配得分?原則9提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型61。提綱排序式檢索10。62二值關聯矩陣
每篇文檔可以看成是一個二值的向量∈{0,1}|V|62。11二值關聯矩陣 每篇文檔可以看成是一個二值的向量∈{063非二值關聯矩陣(詞頻)
每篇文檔可以表示成一個詞頻向量∈N|V|63。12非二值關聯矩陣(詞頻)每篇文檔可以表示成一個詞64詞袋(Bagofwords)模型不考慮詞在文檔中出現的順序JohnisquickerthanMary及MaryisquickerthanJohnare的表示結果一樣這稱為一個詞袋模型(bagofwordsmodel)在某種意思上說,這種表示方法是一種“倒退”,因為位置索引中能夠區分上述兩篇文檔64。13詞袋(Bagofwords)模型不考慮詞在文檔中出現65詞項頻率tf詞項t的詞項頻率tft,d
是指t
在d中出現的次數下面將介紹利用tf來計算文檔評分的方法第一種方法是采用原始的tf值(rawtf)但是原始tf不太合適:某個詞項在A文檔中出現十次,即tf=10,在B文檔中tf=1,那么A比B更相關但是相關度不會相差10倍相關度不會正比于詞項頻率tf65。14詞項頻率tf詞項t的詞項頻率tft,d是指t在d66一種替代原始tf的方法:對數詞頻t在d中的對數詞頻權重定義如下:tft,d→wt,d:0→0,1→1,2→1.3,10→2,1000→4,等等文檔-詞項的匹配得分是所有同時出現在q和文檔d中的詞項的對數詞頻之和(1+logtft,d)如果兩者沒有公共詞項,則得分為066。15一種替代原始tf的方法:對數詞頻t在d中的對數詞提綱排序式檢索
詞項頻率
tf-idf權重計算
向量空間模型67。提綱排序式檢索16。68文檔中的詞頻vs.文檔集中的詞頻哪種詞重要?的了水果火龍果劉翔體育蘇州大學計算機學院除詞項頻率tf之外,我們還想利用詞項在整個文檔集中的頻率進行權重和評分計算68。17文檔中的詞頻vs.文檔集中的詞頻哪種詞重要?17。69罕見詞項所期望的權重罕見詞項比常見詞所蘊含的信息更多考慮查詢中某個詞項,它在整個文檔集中非常罕見
(例如
赫爾辛根默斯).某篇包含該詞項的文檔很可能相關于是,我們希望像“赫爾辛根默斯”一樣的罕見詞項將有較高權重阿爾代夫海灘馬路69。18罕見詞項所期望的權重罕見詞項比常見詞所蘊含的信息更多阿爾70常見詞項所期望的權重常見詞項的信息量不如罕見詞考慮一個查詢詞項,它頻繁出現在文檔集中
(如
GOOD,INCREASE,LINE等等)一篇包含該詞項的文檔當然比不包含該詞項的文檔的相關度要高但是,這些詞對于相關度而言并不是非常強的指示詞于是,對于諸如GOOD、INCREASE和LINE的頻繁詞,會給一個正的權重,但是這個權重小于罕見詞權重70。19常見詞項所期望的權重常見詞項的信息量不如罕見詞19。71文檔頻率(Documentfrequency,df)對于罕見詞項我們希望賦予高權重對于常見詞我們希望賦予正的低權重接下來我們使用文檔頻率df這個因子來計算查詢-文檔的匹配得分文檔頻率指但是出現詞項的文檔數目71。20文檔頻率(Documentfrequency,df)72idf權重dft
是出現詞項t的文檔數目dft
是和詞項t的信息量成反比的一個值于是可以定義詞項t的idf權重:
(其中N
是文檔集中文檔的數目)idft
是反映詞項t的信息量的一個指標值得注意的是,對于tf和idf我們都采用了對數計算方式72。21idf權重dft是出現詞項t的文檔數目21。73idf的計算樣例(inverted
document
freq)利用右式計算idft:73。22idf的計算樣例(inverteddocumentf74idf對排序的影響idf會影響至少包含2個詞項的查詢的文檔排序結果例如,在查詢
“馬爾代夫海灘”中,idf權重計算方法會增加馬爾代夫的相對權重,同時降低
海灘的相對權重對于單詞項查詢,idf對文檔排序基本沒有任何影響74。23idf對排序的影響idf會影響至少包含2個詞項的查詢的75文檔集頻率vs.文檔頻率詞項t的文檔集頻率(Collectionfrequency):文檔集中出現的t詞條的個數詞項t的文檔頻率:包含t的文檔篇數為什么會出現上述表格的情況?即文檔集頻率相差不大,但是文檔頻率相差很大哪個詞是更好的搜索詞項?即應該賦予更高的權重上例表明df(和idf)比cf(和“icf”)更適合權重計算75。24文檔集頻率vs.文檔頻率詞項t的文檔集頻率(Coll76tf-idf權重計算詞項的tf-idf權重是tf權重和idf權重的乘積信息檢索中最出名的權重計算方法注意:上面的
“-”是連接符,不是減號其他叫法:tf.idf、tfxidf76。25tf-idf權重計算詞項的tf-idf權重是tf權重和i77tf-idf小結詞項t在文檔d中的權重可以采用下次計算tf-idf權重隨著詞項頻率的增大而增大隨著詞項罕見度的增加而增大77。26tf-idf小結詞項t在文檔d中的權重可以采用下次計算2提綱
排序式檢索
詞項頻率tf-idf權重計算
向量空間模型78。提綱排序式檢索27。79二值關聯矩陣
每篇文檔表示成一個二值向量∈{0,1}|V|79。28二值關聯矩陣 每篇文檔表示成一個二值向量∈{0,1}80詞頻矩陣
每篇文檔表示成一個詞頻向量∈N|V|80。29詞頻矩陣每篇文檔表示成一個詞頻向量∈N|V|81二值→詞頻→權重矩陣
每篇文檔表示成一個基于tfidf權重的實值向量
∈R|V|81。30二值→詞頻→權重矩陣 每篇文檔表示成一個基于tf82二值→詞頻→權重矩陣
每篇文檔表示成一個基于tfidf權重的實值向量
∈R|V|下一步:需要按列進行歸一化(保證每一個列向量的平方和為1)思考一下如何做?原因后面講。82。31二值→詞頻→權重矩陣 每篇文檔表示成一個基于tf83文檔表示成向量每篇文檔表示成一個基于tfidf權重的實值向量∈R|V|.于是,我們有一個|V|維實值空間空間的每一維都對應詞項文檔都是該空間下的一個點或者向量極高維向量:對于Web搜索引擎,空間會上千萬維對每個向量來說又非常稀疏,大部分都是083。32文檔表示成向量每篇文檔表示成一個基于tfidf權重的實值84查詢看成向量每一個查詢也可以表示為一個高維稀疏向量。注意,為了簡化問題,只考慮tf值,而不考慮idf如:good
->
1
movie->2查詢對應的向量不需要歸一化(為什么自己思考)84。33查詢看成向量每一個查詢也可以表示為一個高維稀疏向量。注意85向量空間下相似度的形式化定義先考慮一下兩個點之間的距離倒數一種方法是采用歐氏距離但是,歐氏距離不是一種好的選擇,這是因為歐氏距離對向量長度很敏感85。34向量空間下相似度的形式化定義先考慮一下兩個點之間的距離倒86歐氏距離不好的例子盡管查詢q和文檔d2的詞項分布非常相似,但是采用歐氏距離計算它們對應向量之間的距離非常大。.Questionsaboutbasicvectorspacesetup?86。35歐氏距離不好的例子盡管查詢q和文檔d2的詞項分布非常相似87采用夾角而不是距離來計算將文檔按照其向量和查詢向量的夾角大小來排序假想實驗:將文檔d復制一份加在自身末尾得到文檔d′.d′是d的兩倍很顯然,從語義上看,
d
和
d′
具有相同的內容兩者之間的夾角為0,代表它們之間具有最大的相似度但是,它們的歐氏距離可能會很大87。36采用夾角而不是距離來計算將文檔按照其向量和查詢向量的夾角88從夾角到余弦下面兩個說法是等價的:按照夾角從小到大排列文檔按照余弦從大到小排列文檔這是因為在區間[0?,180?]上,余弦函數cosine是一個單調遞減函數88。37從夾角到余弦下面兩個說法是等價的:37。89Cosine函數89。38Cosine函數38。90文檔長度歸一化如何計算余弦相似度?一個向量可以通過除以它的長度進行歸一化處理,以下使用L2
(2范數):這相當于將向量映射到單位球面上這是因為歸一化之后:因此,長文檔和短文檔的向量中的權重都處于同一數量級前面提到的文檔
d
和
d′(兩個d
的疊加)經過上述歸一化之后的向量相同90。39文檔長度歸一化如何計算余弦相似度?39。91查詢和文檔之間的余弦相似度計算qi
是第i
個詞項在查詢q中的tf-idf權重di是第i
個詞項在文檔d中的tf-idf權重||和||分別是和的長度上述公式就是和的余弦相似度,或者說向量和的夾角的余弦
91。40查詢和文檔之間的余弦相似度計算qi是第i個詞項在查詢92歸一化向量的余弦相似度歸一化向量的余弦相似度等價于它們的點積(或內積)如果和
都是長度歸一化后的向量92。41歸一化向量的余弦相似度歸一化向量的余弦相似度等價于它們的93余弦相似度的圖示93。42余弦相似度的圖示42。下面的內容不講,有興趣的同學可以了解94。下面的內容不講,有興趣的同學可以了解43。95第一種方法:Jaccard系數計算兩個集合重合度的常用方法令
A
和B為兩個集合Jaccard系數的計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 20130-2025自屏蔽電子束輻射加工裝置
- 火災人身傷害應急預案(3篇)
- 加油車火災應急預案(3篇)
- 信息處理技術員考試實操題目及答案
- 活動室火災應急疏散預案(3篇)
- 行政法規與內部管理規章關系試題及答案
- 行政法學備考過程中的情緒管理技巧:試題及答案
- 企業文化與戰略執行的協同試題及答案
- 行政管理中客戶關系與法律服務的整合試題及答案
- 平臺即服務與基礎設施即服務試題及答案
- AI系列培訓課件-人工智能技術及應用課件第3章
- 2025年貴州都勻市城鎮供水有限公司招聘筆試參考題庫含答案解析
- 2025年江西宜春市豐城發展投資控股集團有限公司招聘筆試參考題庫附帶答案詳解
- 《中央空調系統培訓資料》課件
- 2025年新興際華集團有限公司招聘筆試參考題庫含答案解析
- 中國干眼臨床診療專家共識(2024年)解讀
- 2025年華潤電力招聘筆試參考題庫含答案解析
- 2025年云南省廣播電視局直屬事業單位招聘62人管理單位筆試遴選500模擬題附帶答案詳解
- 人格與精神障礙-學做自己的心理醫生-暨南大學2中國大學mooc課后章節答案期末考試題庫2023年
- 2025屆蘇教版高考仿真模擬英語試卷含解析
- 【MOOC】美在民間-南京農業大學 中國大學慕課MOOC答案
評論
0/150
提交評論