



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習分類算法綜述1.1支持向量機分類算法支持向量機REF_Ref68554841\r\h[28]REF_Ref68554842\r\h[29](SVM)算法是傳統機器學習算法的代表,是由廣義的肖像算法發展而來。其分類模式就是找到一個超平面,在分開兩類樣本的同時,盡可能是分離間隔最大,使得超平面的魯棒性最佳。設訓練集為,得超平面。(2.1)其中:和分別為系數和偏置,T中所有元素滿足下式。(2.2)為求最優的,將線性方程組轉化成相應的對偶問題[28,29],建立凸二次規劃。(2.3)其中:為解中每一個點對應拉格朗日乘子,,求解得,計算得到,。(2.4)(2.5)(2.6)(2.7)1.4K近鄰算法K近鄰算法REF_Ref68554984\r\h[33](K-NearestNeighbor)是屬于數據挖掘中非常簡單的一種算法,分類方法就是用兩點間距離去衡量的。K近鄰算法的核心思想是把所有的樣本放到同一個空間內,和它相距不超過K的距離的都會判定為同一個類別。K近鄰算法計算方式比較簡單,但是耗時間。算法示意圖如圖2.3所示。圖2.3K近鄰算法K近鄰算法發展較早,是一種比較成熟的分類算法,它在進行分類的時候,只與少數的距離比較近的樣本有關聯,所以它適合的樣本集也是需要有特定特征的,例如交叉或者重疊比較多的分類樣本集。易于弄懂,容易實現,但其劣勢之處在于你如果新加入一個新樣本時,會打破原有的平衡,很容易導致分類結果發生錯誤。另外一個劣勢就是在于對于每一個樣本,每兩個樣本都需要計算一次距離,計算量很大,時間成本高,這也是K近鄰算法應用在情感分析較少的原因。1.2XGBoost分類算法XGBoost作為集成學習的代表,有著其獨到的優勢,大家都說單一決策樹的泛化能力比較弱,很容易發生過擬合,但是XGBoost就完完全全沒有這個弱點。這一算法一經陳天奇提出以后,引發了各大公司的廣泛應用,而且在各大類數據競賽中表現良好,成為公司和學者的寵兒。基于Boosting的算法每個分類器之前都有著千絲萬縷的聯系,所以算法的核心都是為了讓真實值和預測值差距更小,XGBoost就是通過其獨到的方式,產生多棵樹,而且不斷增加,最后將所有樹的分數加起來作為最后的預測值,而且所有算法都要求泛化能力,這也是衡量一個算法的好壞,所以這其實也是一個泛函最優化問題。首先設算法目標函數如(2.8)所示。(2.8)為損失函數。為正則項函數。為L2正則項,其中是權重,通過L2為懲罰項,為了防止過擬合,加強泛化能力而設置。基于Boosting思想每次分裂都引入一個基分類器去優化損失函數,得目標函數為(2.9)式。(2.9)二階泰勒展開式如(2.10)式。(2.10)對目標函數做二階泰勒展開可以得到:(2.11)其中:和分別為和。是定值,計算可得到(2.12)式。(2.12)由于每一個基分類器都對應一個葉子結點,則目標函數可以簡化為(2.13)式。(2.13)通過對求導等于0,可以得到目標函數的最優權重,如(2.14)式。(2.14)將帶入目標函數得到(2.13)式。(2.15)1.3樸素貝葉斯在介紹樸素貝葉斯時REF_Ref68554952\r\h[32],首先就是要弄清楚他的理論。樸素貝葉斯也屬于分類算法,對于所有分類算法來說,目的都是看分類的準確率,而貝葉斯分類是利用概率和來進行分類判別。對于類別分類任務,記類別為,計算得期望損失。(2.16)根據貝葉斯判定準則,只要每個樣本風險最小,那么最后的加和風險也就達到最低值,可以得到(2.18)式。(2.17)此時,稱為貝葉斯最佳分類器。如果我的目標是最小化分類錯誤率,就會選擇后驗概率作為標記,貝葉斯最佳分類器可表示為(2.19)式。(2.18)樸素貝葉斯就是貝葉斯這個理論大廈的基石,樸素貝葉斯是假定個樣本相互獨立的,但是事實上很多樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年臺州天臺縣醫療衛生事業單位招聘衛技人員考試真題
- 2024年內江市市本級事業單位招聘考試真題
- 2024年第六師五家渠市招聘事業單位人員考試真題
- 跨媒體市場營銷聯動協議
- 2025年樓宇監控系統項目合作計劃書
- 公共服務領域信息安全組織設置
- 小學籃球社團年度總結計劃
- 五年級數學上冊家校互動教學計劃
- 農戶電商合作協議書
- 2025年域名注冊與云服務器托管業務代理合同
- 遼寧協作校2024-2025學年度下學期高三第二次模擬考試語文試卷(含答案解析)
- 2025-2030汽車揚聲器市場發展現狀分析及行業投資戰略研究報告
- 2025年廣東省廣州市廣大附中等校聯考中考語文模擬試卷(4月份)
- 民法典課程大綱
- 2025-2030中國數據安全服務行業市場深度分析及前景趨勢與投資研究報告
- 醫療AI輔助康復管理
- 山東省天一大聯考·齊魯名校教研體2024-2025學年(下)高三年級第六次聯考(物理試題及答案)
- 房地產市場報告 -2025年第一季度青島寫字樓和零售物業市場概況報告
- 2025年03月人力資源社會保障部所屬單位筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 上海市工業技術學校招聘考試真題2024
- 《幼兒園課程圖景》閱讀分享
評論
0/150
提交評論