文本的空間向量表示模型_第1頁
文本的空間向量表示模型_第2頁
文本的空間向量表示模型_第3頁
文本的空間向量表示模型_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、文本空間向量模型的主要思想是:將每一個(gè)文本表示為向量空間的一個(gè)向量,并以每一個(gè)不同的特征項(xiàng)(詞條)對應(yīng)為向量空間中的一個(gè)維度,而每一個(gè)維的值就是對應(yīng)的特征項(xiàng)在文本中的權(quán)重。向量空間模型就是將文本表示成為一個(gè)特征向量:其中為文檔d中的特征項(xiàng)為的權(quán)重,一般取為詞頻的函數(shù)。一般選取詞作為文檔向量的特征項(xiàng),最初的向量表示完全是0,1的形式,即如果文本中出現(xiàn)了該詞,那么文本向量的該維為1,否則為0。這種方法無法體現(xiàn)這個(gè)詞在文本中的作用程度,所以逐漸0、1被更精確的詞頻代替,詞頻分為絕對詞頻和相對詞頻,絕對詞頻,使用詞在文本中出現(xiàn)的頻率表示文本,相對詞頻為歸一化的詞頻,其計(jì)算方法主要運(yùn)用TF-IDF公式,

2、目前存在多種形式的TF-IDF公式。在向量空間模型中,兩個(gè)文本和之間的相關(guān)程度可以用它們之間的相似度來度量。當(dāng)文本被表示為向量空間模型中的向量時(shí),我們可以借助于向量之間的某種距離來表示文本之間的相似度,通常用向量之間的內(nèi)積或者用夾角余弦值來表示。根據(jù)以上理論的指導(dǎo),我做了如下實(shí)驗(yàn)。選取詞作為文本向量的特征項(xiàng)(預(yù)先把中文詞匯的停止詞去掉,比如標(biāo)點(diǎn)符號,啊,阿,哎,哎呀等)。文本向量權(quán)重的選取為特征詞在文本中出現(xiàn)的次數(shù)。兩個(gè)文本間的相似度用夾角的余弦值表示。比如連個(gè)文本=iphone5s, 16G,文本=iphone5s, 16G, 電信版,文本=iphone5s, 16G, 移動版。現(xiàn)在計(jì)算和之

3、間的相似度。步驟一:得到兩個(gè)文本特征項(xiàng)集合的并集iphone5s, 16G, 電信版步驟二:的向量表示1,1,0步驟三:的向量表示1,1,1步驟四:根據(jù)向量余弦夾角公式計(jì)算兩個(gè)文本的相似度。步驟五:保存結(jié)果。實(shí)驗(yàn)結(jié)果,的相似度為,和的相似度為0.6666666666666667。主程序流程圖:結(jié)束計(jì)算所有文本間的相似度用特征向量表示各個(gè)文本用特征項(xiàng)表示各個(gè)文本統(tǒng)計(jì)特征項(xiàng)類從文件中加載文本集合從文件中加載停止詞開始這個(gè)程序還比較簡陋,里面還存在一些問題,只是一個(gè)入門程序,現(xiàn)在正在研究TF-IDF公式。TF是詞頻,不同類別的文檔,在特征項(xiàng)的出現(xiàn)頻率上有很大差異,因此特征項(xiàng)頻率信息是文本分類的重要參

4、考之一,一般TF較大的特征項(xiàng)在該類文檔中具有較高的權(quán)重,也就是說如果一個(gè)詞有某類文檔中經(jīng)常出現(xiàn),那么說明這個(gè)詞對該類文檔具有代表性,TF越大,表示這個(gè)詞對文檔越重要。如“計(jì)算機(jī)”這個(gè)詞在計(jì)算機(jī)類的文檔中出現(xiàn)的頻率顯然要高于政治類的文檔。但是只是詞頻不足以表示一個(gè)詞對文檔的有用程度,為了消減幾乎存在于所有文檔中的高頻詞匯的影響,比較合理的辦法是使用反比文檔頻率。DF是文檔頻率,就是文檔集合中出現(xiàn)某個(gè)特征項(xiàng)的文檔數(shù)目;IDF是反比文檔頻率,IDF越大,此特征項(xiàng)在文檔中的分布越集中,說明他在區(qū)分該文檔內(nèi)容屬性方面的能力越強(qiáng)。反文檔頻率是特征項(xiàng)在文檔集分布情況的量化。IDF應(yīng)用時(shí)經(jīng)常采用對數(shù)形式。IDF算法能夠弱化一些在大多數(shù)文檔中出現(xiàn)的高頻特征項(xiàng)的重要度,同時(shí)增強(qiáng)一些在小部分文檔中出現(xiàn)的低頻特征項(xiàng)的重要度。特征權(quán)重計(jì)算唯一的準(zhǔn)則就是要最大限度的區(qū)分不同文檔。因此特征項(xiàng)頻率TF與反比文檔頻率IDF通常是聯(lián)合使用的,也就是TF-IDF權(quán)重。參考文獻(xiàn):1蘇力華.基于向量空間模型的文本分類技術(shù)研究D.西安電子科技大學(xué),2006.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論