




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
10.4算法總結10.1算法概述10.2算法原理10.3算法案例目錄第十章主成分分析人工智能算法與實踐—1
—
01算法概述PartTHREE—2
—
在對某一事物進行實證研究中,為了更全面、準確地反映出事物的特征及其發展規律,人們往往要考慮與其有關系的多個指標,這些指標在多元統計中也稱為變量。這樣就產生了如下問題:一方面人們為了避免遺漏重要的信息而考慮盡可能多的指標,而另一方面隨著考慮指標的增多增加了問題的復雜性,同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至會抹殺事物的真正特征與內在規律。基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數幾個線性組合來解釋原來變量絕大多數信息的一種多元統計方法。10.1算法概述—3
—
研究某一問題涉及的眾多變量之間有一定的相關性,那也就肯定存在起支配作用的共同因素,根據這一點,通過對原始變量相關矩陣或協方差矩陣內部結構關系的研究,利用原始變量的線性組合形成幾個綜合指標(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復雜問題時更容易抓住主要矛盾。10.1算法概述—4
—
主成分與原始變量2431每一個主成分都是各原始變量的線性組合主成分的數目大大少于原始變量的數目主成分保留了原始變量絕大多數信息各主成分之間互不相關10.1算法概述—5
—
一般地說,利用主成分分析得到的主成分與原始變量之間有以下關系。
10.1算法概述—6
—
02算法原理PartTHREE—7
—
10.2算法原理—8
—
如圖,對于一個坐標點(3,2)得到,其代表的意思是二維坐標里其橫坐標為3,縱坐標為2。其實這隱含了一個假設,即其橫縱坐標的基為(1,0)和(0,1)。對于一般的二維向量,這似乎是大家的默認情況,就像隨便給出一個數字10,大家會認為這是10進制表示,除非特殊標明,不會把它當作其他進制來理解。10.2算法原理—9
—
10.2算法原理—10
—
10.2算法原理—11
—
同樣對于一個具有n個特征的集合來說,很難說這n個特征都是完全有必要的,所以我們就想辦法來精簡一些特征。選取少于n個的基向量組,將數據投影在這個向量組上,減少空間的同時又能保證信息量。首先需要明確的一點是什么才算好的基向量?首先舉一個將二維空間的數據投影到一維空間的情況。如上圖所示,對于空間中的這些點,我們應該怎么投影才能夠盡可能的保持數據的信息量呢?通過上圖中可以看出,如果將數據投影到PC1上,那么所有的數據點較為分散,與之相反,如果投影到PC2上,則數據較為集中。考慮一個極端的情況,假如所有的點在投影之后全部集中在一個點上,這樣好嗎?當然不!10.2算法原理—12
—
如果所有的點都集中到一個點上,那就說明所有的點都沒有差別,信息全部丟失了。所以我們希望當數據點投影到某個坐標軸之上以后,數據越分散越好,而衡量一組數據是否發散恰好有一個統計名詞“方差”,也就是說投影過后的點值方差越大越好。同時,如果數據被投影到多個基向量上,那么我們希望這些基向量之間的耦合程度越小越好,也就說基向量之間應該是正交的,如下圖所示。因為如果不考慮基向量之間的正交性,只考慮方差最大的話,那么所求得的值其實都是一樣的。關于在不同的基向量上的投影的線性相關度也有一個度量標準--協方差。那么我們的目標明確了,使得相同特征之間方差越大越好,不同特征之間協方差越小越好。10.2算法原理—13
—
10.2算法原理—14
—
10.2算法原理—15
—
03
算法案例PartTHREE—16
—
數據降維本實驗對鳶尾花數據集采用主成分分析方法,使數據降維。數據集中前4列數據分別代表它的4項特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,最后一列為標簽。共有150條數據。該試驗的目的是為了找到樣本數據的主成分特征,并將數都投影到主成分特征的方向上,投影后的數據可以很容易的對其進行分類。10.3算法案例—17
—
10.3算法案例—18
—
本實驗數據為開放型數據集,直接下載到本地。1.數據讀入2.數據標準化10.3算法案例—19
—
3.指定維度,訓練降維模型并返回10.3算法案例—20
—
4.對降維后數據進行可視化運行結果如上圖所示。實驗將主成分的個數指定為2,即降維后數據的維度,將原本的樣本數據向主成分特征的方向上進行投影,得到上圖所示的分類效果。10.3算法案例—21
—
04算法總結PartTHREE—22
—
這里對PCA算法做一個總結。作為一個非監督學習的降維方法,它只需要特征值分解,就可以對數據進行壓縮,去噪。因此在實際場景應用很廣泛。為了克服PCA的一些缺點,出現了很多PCA的變種,比如第六節的為解決非線性降維的KPCA,還有解決內存限制的增量PCA方法IncrementalPCA,以及解決稀疏數據降維的PCA方法SparsePCA等。
10.4算法總結—23
—
PCA算法的主要優點有:1)僅僅需要以方差衡量信息量,不受數據集以外的因素影響。
2)各主成分之間正交,可消除原始數據成分間的相互影響的因素。
3)計算方法簡單,主要運算是特征值分解,易于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建省三明市尤溪縣中考一模化學試題(原卷版+解析版)
- 歷史影響力解析
- 湖北省十堰市六縣市區一中教聯體2024-2025學年高二下學期3月聯考物理試卷【含答案】
- 連鎖餐飲的崛起之路
- 立秋時節養生攻略
- 2025國內知名品牌授權合同書(標準版)
- 2025勞動合同起草中的問題
- 2025年機器設備租賃合同格式范文
- 疾病名稱大全詳解
- 2025武漢合同樣本
- 風電項目風機吊裝專項施工方案
- GB 1499.1-2024鋼筋混凝土用鋼第1部分:熱軋光圓鋼筋
- 葉片維修工-B卷考試附有答案
- 小學一二年級必背古詩詞73首帶拼音
- 正壓式空氣呼吸器操作使用方法培訓課件
- 2024年信陽職業技術學院單招職業適應性測試題庫帶答案
- 五金材料采購投標方案(技術方案)
- 《電磁學》梁燦彬課后答案解析
- 富血小板血漿治療術知情同意書
- 2024春期國開電大本科《當代中國政治制度》在線形考(形考任務一至四)試題及答案
- JTGT F20-2015 公路路面基層施工技術細則
評論
0/150
提交評論