




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于SVM互聯網的飛速發展使得人們對信息的速度和規模達到史無前例文本分類技術是數據挖掘領域中的一項非常重要的任務,它能夠幫助用戶從SVM了。:文本分類,SVM算法,統計學習理論,分類DesignoftextclassifierbasedonTherapiddevelopmentoftheInternetmakespeopleofinformationcollection,disseminationspeedandscalereachedunprecedentedlevels,toachievetheglobalinformationsharingandinteraction.However,italsobringsmanysideeffects,suchasmassiveinformationsometimesmakepeoplefeelatlooseends,howtointheshortestpossibletimegettousersthemostusefulinformationhas ethehotspotofcurrentresearch.Textclassificationtechnologyofdatamininginthefieldofaveryimportanttask,itcanhelpusersfromthenumerousandcomplicatedinformationquicklyandccuraypositioningtheneededinformation.Thispaperwithtextclassifierfortheoverallmodel,mainlyincludingtextpreprocessing,featureselection,featurevectorextraction,classifiertrainingandtestandevaluationoftheclassificationperformance.Focusonfeatureselection,featurevectorextraction,textclassificationalgorithm.Secondly,themaincontentofstatisticallearningtheory,thebasicprincipleofSVMalgorithmanditsadvantages,andthecorefunctionsandotherhotissuesare識工程技術的方法;801.2.2國內對于文本分類的研究起步較晚。1980年,候漢清教授從計算機管理分朱蘭娟等教授對基于詞典法的分類系統進行了研究鄧要武等教授對基于系n-gram19901998Joachims(SVM),SVM的發展現出現貝葉斯理論稀近理論等對于支持向量機模型的性能完善有了很大幫助算法、One-classSVMRSVMWSVMLSSVM文本組織本主要對基于SVM的文本分類系統中的特征選擇和特征向量提取進行第二章支持向量機的發展應用以及整個的組織結構文本分類文本分類預處理(預處理(去停用文本分類訓練過 文本分類測試過2.1文本的預到結構作用而沒有什么實際含義。比如the、a、an、that、those幫助描述名詞的限定詞,over、under、above、in、on排序,詞頻(termfrequency,TF),是指給定單詞在該文件中出現的次數,使用出現頻率較高的NNBFS和模式串T,利用計數指針ij前字符位置。從主串Sn1;1。這種方法易操作、直觀、簡單,每次只處理一個單詞占用空間小且穩定但其消耗的時間與集合的大小成正比,2,樹的每個節點不是包含一個或幾個關鍵字,而是含有組成關鍵字的符號。詞頻統計時,對集合中的每個各個詞的相關信息。此方法的分為兩部分:樹的構造算法和詞頻統計算法文本的特征表對模型和向量空間模型這兩種特征表示的方法做一簡單介紹。(Boolean)模型是基于集合論和代數的一種比較簡單的文本表示1,0。缺點是對于一篇待分類的樣本,只有相關和不相關兩種狀態,限制了文本的檢索性能。另外,很難將用戶所需的查詢信息轉換成表達式。、一個文本所屬的類型只與其出現的頻率有關而與它出現的先后次序的沒有關系的,文本的長度、上下文關系位置以及出現的順序都、目前文本表示最常用的方法是向量空間模型(VectorSpaceModel,簡稱VSM(featureterm):能準確表示文本特征的單詞。一個文章可以被看特征項權重 weight):表示該特征項對于文本分類的重要程度D(,)),wk。2.11word word…wordFile…File…File……… ……File 在詞頻矩陣中,word第ij文本的特征選增加了分類時間,并且很大程度降低了文本分類的性能。在高中,一部分文本的特征向量TF-IDF(termfrequency-inversefrequency)詞頻-反轉文件頻率,的能力越強。TFtdIDFtIDFt(2-(2-(2-反應文本信息的能力越重就越大,反之,越小文本分類是基于機器學習的方法。大致可分為三類:1.基于統計的方法,如K近鄰,樸素KK(K-NearestNeighbor,KNN)分類算法,是數據挖掘分類技術中這K0。KNN算法的思想是:如果一個樣本在特征空間中的k個最相鄰的樣本,KNNKNN定其所屬類別因此對于類域的交叉或者較多的待分類樣本集來說KNN方法較其他方法更為適合。x、的pxp(x)p()SVMVapnik使得正例和反例之間的邊緣被最大化該算法以統計學習理論(即泛化誤差率以訓練誤差率和一VCSVMx(i)和輸入空間抽取的向量x輸出輸入2.2決策(decisiontree)是一個模型運用樹狀圖表示各決策的期望值,T1 F2.3人工神經網絡(ArtificialNeuralNetworksANNs),也簡稱為神經網絡(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動物神經網連接權值連接而成,具有大規模并行處理、分布式信息、良好的自組織自輸入 隱含 輸出圖 性能評價指性能評價是文本分類中的重要環節。主要是率(recall)、準確(precision)、以及用于評價全局性能的宏平均(macro-average)(micro-average)10,2.21AB標記為0的文 率R準確率P指標是互補的,想要提高準確率,率就會將低,反之亦然。宏平均是每一類的分類性能指標的算術平均值宏平均用MP和MR表示宏觀均用mP和mR表示微觀查準率和微觀查全率,用代表類別i中所檢索到的文本數,代表被分類器錯分給類別ii1統計學習VCVC維是統計學習理論的一個概念,它描述了函數集或學習器的復雜或者學習能力的一個重要指標。VC就越強。VCVCh2^hhh+1VC維就是h。若對于任意的樣本VC3.33.1R^23.2R^2R^2VC其中h是函數集的VC,nVCVC如果一個學習器的函數集的維數為h,訓練樣本的數量為n,當較小時以通過式3.1和式3.2來證明。當樣本較多,即較大時,置信范圍就會很小,經在結構風險最小化中,先把函數集支持向量1,如果屬于負類,大化。SVM3.3存在最優超平面,使得令到該超平面的最小距離為。SVM量和偏置b,3.7VapnikVC式中rSVMVC一組新的非負變量來處理不可分的樣本點,也稱為松弛變量。把樣本特征到高維特征空間中,如下圖:令為輸入空間的向量,則通過事先確定好的非線性函數,Lagrange3.43.4在支持向量機中,需要選擇核函數K(),或者是一個(),把樣本空間到一個高維甚至無窮維的特征空間中(Hilbert),使得在原來的樣本是升維和線性化。選擇不同的核函數或者不同的以及相應的Hilbert空間,相當于選擇了不同的內積核函數將高的內積運算轉化為低的核函數計算,巧妙地解決了“維數”等問題,并且核函數的運用,無需知道非線為了用線性的學習器學個非線性的關系,需要選擇一個非線性特征集,其中,是從輸入空間到某個特征空間的。所以,建立非學習器分兩步,首先使用一個非線性將數據變換到新的特征空間H中,然后,在這個特征空間線性核函數徑向基核函數:K(x,y)=exp(-|x-多分類問該方法是通過構造一系列二分類器來解決多分類問題的。對于k類分類問題構造kSVM分類器,其中iSVM器是通過將屬于第i類的樣本視為第i的第i的第i為了解決離散的不可分區域問題,Inoue和Abe提出了基于模糊決策函數的在給定的樣本中,任意選取兩個樣本,構造一個二值的SVM分類器。K類問題將有k(k-1)/2SVM子分類器。將選取屬于類別i和類別j的樣本數據作為負。第ij那么就把歸為第k類。如果有多個k值相等,則是不可分的。該算法存在的不可SVM在文本分類中的優勢和VCSVM用內積的回旋巧妙地構造核函數,克服了特征空間中的維數問題,通過盡管在文本分類領域中,SVMSVM在訓練分類器時,SVM們的存在還可能造成過學習,使泛化能力減弱。4、文本分類系統的設計與系統運行LIBSVM系統運行191其中高考45經濟51軍事50體育45四個類別各成一40篇,放在名為測試集的文件夾中,方便系統進試。所有語料庫樣本為英文文本,文本的格式為.txtLIBSVM工具箱的介LIBSVM是大學林智仁(LinChih-Jen)等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的包里面不但提供了編譯好的Windows它操作系統上應用;該還有一個特點,就是對SVM所涉及的參數調節相對比供了交互檢驗(CrossValidation)的功能。該可以解決C-SVM分類、-SVMSVMSVM通過綜合考慮,我決定采用該作為工作。SVM用于模式識別或回歸時,SVM方法及其參數、核函數及其參數的選擇,目前國際上還沒有形成一個LIBSVM的使用步按照LIBSVM包所要求的格式準備數據集RBF采用交叉驗證選擇最佳參數Cg采用最佳參數Cg利用獲取的模型進試與LIBSVM使用的數據格該使用的訓練數據和檢驗數據文件格式如下<label><index1>:<value1><index2>:<value2>續的;<value>;為實數,也就是常說的自變量。檢驗數據文件中的label杜,.支持向量機及其算法研究[J].與信息化,SVM[D].陶蘭,申軍霞.文本信息自動分類系統ITC98(Ⅰ):ITC系統[J].中國學報,1999,4(4):74-侯漢清.分類法的發展趨勢簡論[J].科學,1981(1):58-于.中文文本分類相關算法的研究與實現[D].西學,葉志剛.SVM[D].哈爾濱工程大學,瓦普.統計學習理論的本質[M].,SVM[J].學術交流,2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 游艇碼頭泊位租賃及水上活動策劃服務合同
- 新能源汽車技術保障與售后服務補充協議
- 收入增長子女撫養金動態調整合同
- 深海資源開發私募股權投資基金有限合伙人獨家合作協議
- 農業產業園農業園區生態保護與可持續發展合作協議
- 綠色建筑碳排放權交易稅收優惠合同
- 抖音短視頻用戶權益保護與投訴處理合同
- 秋季傳染病健康教育(小學)
- 護理部護理不良事件分析
- 年產6000噸引發劑A、3000噸雙二五硫化劑等精細化工產品項目可行性研究報告寫作模板-拿地申報
- 小學生德育教育ppt課件
- 《菱形的判定》教學設計(共3頁)
- 配電箱系統圖
- 精選靜電感應現象的應用練習題(有答案)
- 電纜井工程量計算
- 初中音樂--人聲的分類--(1)pptppt課件
- 育種學 第6章雜交育種
- 小作坊生產工藝流程圖(共2頁)
- 生態瓶記錄單
- 鋼芯鋁絞線參數
- 音王點歌機800S加歌操作方法
評論
0/150
提交評論