結構化方法建模_第1頁
結構化方法建模_第2頁
結構化方法建模_第3頁
結構化方法建模_第4頁
結構化方法建模_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Web中的數學(shxu)建模例子 網絡已經(y jing)成為現代人的一種生活方式。在網上,每天有成千上萬的多媒體文件在傳輸(例如,路透社每天收到網上文本文件達20萬)。試建立數學模型,使得可以對這些文件進行自動分類,以便人們閱讀和使用。 結構化建模例子共十三頁在線文本(wnbn)自動分析建模原型的目標: 在線電子文本的計算機自動(zdng)分類與輔助理解。理解基于分類,分類是理解的前提。不同的分類目的有不同的分類模型:理解性分類 基于語意、概念層、主題層的細分類,目的是分析和理解。、建立專業模型檢索性分類 國際圖書分類法,目的是查詢;共十三頁原型(yunxng)的結構分析文本章節節段落(d

2、unlu)語意團句或短語詞字符文本的結構:原型有兩層結構:文本的結構; 文本集合的結構。分析:文本集合的結構是原型對應目的的主要結構; 文本集合的結構依賴于文本的結構(子結構); 文本結構的表示應該利于文本集合分類目的。共十三頁文本(wnbn)集的結構分析:聯想到數學中代數結構:集合中定義代數運算,加法(jif)和數乘,元素間的運算關系 結構相同!兩個文本的合并還是文本一個文本的倍數仍然是文本分析文本集的結構,首先是文本之間的相互關系:、同構分析(數學結構與原型結構的聯系)加法封閉;數乘封閉!共十三頁同構:此時問題的原型的結構直接和數學結構聯系(linx)起來!文本的集合應該有一個“線性空間(

3、kngjin)”的結構;文本的分類是在線性空間中的“向量的分類”! 對于線性代數的結構有清楚的理解和關注,則容易發現:共十三頁 因此,每個文本對應地定義一個文本向量,用于分類,分量(fn ling)如何定義? 顯然,分量是“分類特征”的具體表示(biosh):從關鍵詞和檢索中,容易想到基于詞頻的,可用于區分文本的量化的表示(biosh)!數學模型:向量空間的結構+詞頻特征表示。、同構表示與數學建模建立原型結構的數學表示則建立了數學模型。 文本集合同構于線性空間,文本的分類是線性空間中向量的分類。共十三頁 根據專業知識,詞頻及具有分類的特征(tzhng)信息,信息熵!因此可以仿照熵的定義:某詞W

4、(i)在文本d中出現的頻數 log( ) 集合中文本總數詞W(i)在文本中至少出現一次的文本數 這里熵的形式,一來用類似信息熵的定義,符合“分類(fn li)”的特征信息的概念;二來,詞頻的作用大于詞在文本集合中出現的作用。注:第一部分表示該詞在d中的權重;第二部分表示該詞在文本集中的文本d中出現時帶來的信息量大小.當文本集中出現該詞的文本數量越少時第二項的值就越大,而該詞在文本d中出現了,因而該詞提供的信息量就大.共十三頁假設TF(w(i),dj)是詞w(i)在文本(wnbn)dj中出現的次數,|D|是D中文本總數,DF(w(i)是指在D中至少出現一次w(i)的文本數。則每一個文本djD,和

5、一個特征詞w(i)存在一量:形式化:記d(i)j =TFIDF(w(i),dj) ,則每一個文本djD,存在一個分量(fn ling)適當排序的文本向量。共十三頁文本向量空間(kngjin)模型與文本向量:共十三頁問題的目標(mbio):文本集的分類 原型的結構分析:文本集的結構(目標)+文本的結構(表示的關鍵) 同構分析: 數學結構和原型結構的聯系 文本集的結構線性空間結構 數學模型表示:文本向量空間+文本向量(詞頻表示的分量)建模過程(guchng)共十三頁文本自動分類: 理解文本的類屬性,子空間分類.文本自動聚類: 發現(fxin)文本集合中的新模式,新概念.文本向量: 由文本的實意詞的

6、特征(tzhng)值或特征(tzhng)模式為分量的向量. 以信息熵的形式構造.特征子空間: 具有某種共同意義的分量組成的子空間. 主義 自由 個人文本向量空間: 全部文本向量的高維線性空間.應用事例:思想史研究中,“五四” 運動的討論的主要思想是什么?發現在“自由主義”的特征詞所在的子空間中,文本的投影數量最大!共十三頁例題小結: 本題幾乎沒有(mi yu)人見過類似的問題。這為“引模”帶來了不少困難。 如果有結構化建模的理念,而且(r qi)熟悉線性代數,就比較容易通過一定的思考產生模型的。共十三頁內容摘要Web中的數學建模例子。原型的目標: 在線電子文本的計算機自動分類與輔助理解。不同的分類目的有不同的分類模型:。文本的集合應該有一個“線性空間”的結構。文本的分類是在線性空間中的“向量的分類”。顯然,分量是“分類特征(tzhng)”的具體表示:從關鍵詞和檢索中,容易想到基于詞頻的,可用于區分文本的量化的表示。這里熵的形式,一來用類似信息熵的定義,符合“分類”的特征(tzhng)信息的概念。問題的目標:文本集的分類。文本向量: 由文本的實意詞的特征(tzhng)值或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論