




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章判別分析1、判別分析概述2、判別分析方法3、SPSS操作實例12產品評估隨著近年來各個行業的各類產品競爭加大,產品競爭戰略也成為各企業的重要營銷策略。產品都具有多方面因素,如樣式新穎程度、包裝質量、產品耐久性等,在未知分類判別標準的前提下,根據已有產品的先驗數據集,綜合考慮這些因素找出分類標準(即判別函數),再判斷某產品是“受歡迎”產品還是“不受歡迎”產品,這種根據對象各個特征值判斷其屬于哪一類的問題,就是判別分析。某類型產品有12家不同的生產企業,將這12家的產品的樣式、包裝和耐久性進行評估后,可以得到各個產品的得分資料,如表10-1所示(滿分為10分)。引入案例3已知根據產品的銷量與利潤可以界定其中7家的產品受消費者歡迎,屬于暢銷品,定義為1類;5家的產品不大受消費者歡迎,屬于滯銷品,定義為2類?,F有一新廠家,其產品的銷量與利潤未知,無法直接界定受歡迎程度。已知該產品的樣式、包裝、耐久得分分別為6、4、5,如何通過該產品的得分數據判斷該廠的產品是否受歡迎呢?引入案例第1節判別分析概述1、判別分析的基本思想2、判別分析的類型3、適用的數據范圍410.1.1判別分析的基本思想定義10.1判別分析(discriminantanalysis)∶根據觀測到的樣品的若干數量特征(稱為因子或判別變量)對樣品進行歸類、識別,判斷其屬性的預報(預測)的一種多元統計分析方法。判別分析只知道一部分樣本的信息,但不知道分類判別的標準。判別分析是根據表明事物特點的變量值和它們所屬的類,求出判別函數,再根據判別函數對未知所屬類別的事物進行分類的一種分析方法。510.1.1判別分析的基本思想定義10.2判別函數(discriminantfunction):是指各個類別的判別區域確定后,可以用一些函數來表示和鑒別某個特征矢量屬于哪個類別,這些函數就稱為判別函數,又稱為判決函數。在判別分析中,已經明確了應該分成幾類,需要根據已有數據過論每類的特點,判斷新樣本屬于哪一類,即研究“怎么分”。在實際生活中,判別分析常被廣泛應用于預測事物的類別歸屬。判別分析近年來在機器學習、大數據分析等方面有廣泛應用。610.1.2判別分析的類型按判別的組數來分,分為兩組判別分析、多組判別分析;按區分不同總體所用的數學模型來分,分為線性判別、非線性判別;按判別對所處理的變量方法不同,分為逐步判別、序貫判別等;按判別準則來分,有距離判別準則、費歇爾判別準則、貝葉斯判別準則等。710.1.2判別分析的類型線性判別分析(lineardiscriminantanalysis,LDA)是對費歇爾的線性判別方法的歸納,這種方法使用統計學、模式識別和機器學習方法,試圖找到兩類物體或事件的特征的一個線性組合,以達到能夠特征化或區分它們。所得的組合可用來作為一個線性分類器,或者為后續的分類做降維處理。810.1.2判別分析的類型
910.1.3適用的數據范圍判別分析的目的是將未知屬性的數據分類。這部分未知屬性的數據可以是定性數據也可以是定量數據。在進行分類的過程中,主要分析未知屬性的某些特征值,而這些特征值大都是定量數據,分析出它們的數學特點后再進行分類。10第2節判別分析方法1、距離判別2、貝葉斯判別3、費歇爾判別4、逐步判別5、支持向量機判別6、隨機森林判別7、判別分析效果評價1110.2.1距離判別定義10.3距離判別(disecriminantbydistance):是以待判樣本到各測試樣本的距離遠近為判據的一種直觀判別方法,也稱為直觀判別法。距離判別法的基本思想∶分別計算出已知數據各類的中心,然后計算出待測樣本與各類中心的距離,待測樣本與哪一類最近,就判斷待測樣本屬于哪一類。通常我們定義的距離是指歐式距離,但是它在距離判別中是不適用的。1210.2.1距離判別
1310.2.1距離判別
1410.2.2貝葉斯判別
1510.2.2貝葉斯判別
16似然比判決閾值10.2.3費歇爾判別定義10.5費歇爾判別(Fisherdiscriminant)∶費歇爾判別是一種先進行高維向低維投影,再根據距離判別的一種方法,也稱為線性判別法或費歇爾判別法。費歇爾判別法的基本思想∶通過將多維數據投影到某個方向上,投影的原則是將類與類之間盡可能地分開,然后再選擇合適的判別準則,將待判的樣本進行分類判別。17按照原來的變量(橫坐標和縱坐標),很難將這兩種點分開。沿著這個方向朝與這條虛線垂直的一條直線進行投影會使得這兩類分得最清楚。10.2.3費歇爾判別費歇爾判別的幾何意義:把p維空間的點投影到一維空間(直線)上去,使各已知類在該直線上的投影盡可能分離。有了投影之后,再用前述的距離判別的方法來得到判別準則。這種首先進行投影的判別方法就是費歇爾判別法。從數學角度理解費歇爾判別法:按照各類(總體)中的方差盡可能小、不同類中的均值之間差距盡可能大的原則,即類間距離最大而類內離散度最小的原則求判別函數,并利用判別函數進行最小距離分類。1810.2.3費歇爾判別
1910.2.3費歇爾判別
2010.2.3費歇爾判別
21得到10.2.3費歇爾判別
2210.2.4逐步判別定義10.6逐步判別法(stepwisediscriminant)∶是利用一些檢驗規則,對變量進行逐步篩選,同時進行判別的一種方法。在判別問題中,當判別的變量個數多時,如果全部選擇會使得計算量大、計算精度差,因此需要適當地篩選變量。這種可以篩選變量的分析方法統稱為逐步判別法。逐步判別法的基本思想∶從模型沒有變量開始,每一步都對模型進行檢驗,把模型外對模型的判別力貢獻最大的變量加到模型中,將在模型中不符合留在模型中條件的變量剔除,直到判別式中變量都很顯著,且剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結束。2310.2.4逐步判別
2410.2.4逐步判別
2510.2.4逐步判別
2610.2.4逐步判別
2710.2.4逐步判別非線性判別分類問題,一般有以下三種不同的處理方法。(1)傳統的模式識別技術,側重于使用分段線性判別函數。(2)人工神經元網絡(多層感知器等網絡)對基于錯誤修正法的感知準則函數進行拓展,并能夠實現復雜的非線性分類,以及非線性函數擬合、非線性映射等。(3)支持向量機則提出了一種基于特征映射的方法,也就是使用某種映射,使得本來在原特征空間必須使用非線性分類技術才能解決的問題映射到一個新的空間后,使線性分類技術能夠繼續使用。2810.2.5支持向量機判別定義10.7支持向量機(supportvectormachine,SVM):在分類與回歸分析中分析數據的監督式學習模型與相關的學習算法,又稱為支持向量網絡。支持向量機(SVM)算法比較適合圖像和文本等樣本特征較多的應用場合?;诮Y構風險最小化原理,對樣本集進行壓縮,解決了以往需要大樣本數量進行訓練的問題。它將文本通過計算抽象成向量化的訓練數據,提高了分類的精確率。2910.2.5支持向量機判別支持向量機的基本模型是在特征空間中尋找間隔最大化的分離超平面,使距離最近的樣本點到該超平面的距離盡可能地遠。主要的應用場景有字符識別,面部識別,行人檢測,文本分類等領域。在機器學習領域,支持向量機SVM是一個有監督的學習模型,通常用來進行模式識別、分類(異常值檢測)以及回歸分析。3010.2.5支持向量機判別支持向量機分類的基本思想是利用最大間隔進行分類,處理非線性問題是通過核函數將特征向量映射到高維空間,從而將其變成線性可分的,但是運算卻是在低維空間運行??紤]到數據中可能存在噪聲,分類過程中還引入了松弛變量。一個普通的SVM即一條直線,用來完美劃分線性可分的兩類,使其距離兩個類的點都一樣遠。而支持向量就是這些離分界線最近的“點”。直線表示的是訓練出的一個分類平面,將數據有效地分隔開。3110.2.5支持向量機判別針對訓練數據的三種不同情況,將對應不同的學習方法。1、線性可分SVM在二維空間上,兩類點被一條直線完全分開稱為線性可分。通過硬間隔最大化可以學習得到一個線性分類器,即硬間隔SVM。2、線性SVM當訓練數據不能線性可分但是可以近似線性可分時,通過軟間隔最大化也可以學習到一個線性分類器,即軟間隔SVM。我們允許個別樣本點出現在間隔帶里面。3210.2.5支持向量機判別3、非線性SVM樣本點不是線性可分的,這種情況的解決方法就是∶將二維線性不可分樣本映射到高維空間,讓樣本點在高維空間線性可分對于在有限維度向量空間中線性不可分的樣本,將其映射到更高維度的向量空間,再通過間隔最大化的方式,學習得到支持向量機,就是非線性SVM。當訓練數據線性不可分時,通過使用核技巧和軟間隔最大化,可以學習到一個非線性SVM。當SVM模型訓練成功后,運用機器學習相關算法根據一組向量對后續向量進行分類3310.2.6隨機森林判別定義10.8隨機森林(randomforest)∶利用多棵樹對樣本進行訓練并預測的一種分類器,其輸出的類別由個別樹輸出的類別的眾數而定。隨機森林是通過集成學習的思想,將多棵決策樹進行集成的算法,是最常用也是最強大的監督學習算法之一,兼顧了解決回歸問題和分類問題的能力。對于分類問題,其輸出的類別是由個別樹輸出的眾數所決定的。在回歸問題中,把每一棵決策樹的輸出進行平均得到最終的回歸結果。決策樹的數量越大,隨機森林算法的魯棒性越強,精確度越高。3410.2.6隨機森林判別
35生成原理10.2.6隨機森林判別
36生成原理10.2.7判別分析效果評價
3710.2.7判別分析效果評價誤判概率主要可通過回顧性、前瞻性和刀切法三種方法獲得。(1)回顧性。用建立判別函數的樣本回代判別。如某例22個樣本中,有4例誤判,則4/22≈18.2%為該判別函數的誤判概率?;仡櫺哉`判概率估計往往夸大判別效果。(2)前瞻性。是指在建立判別函數前,將樣本隨機分成兩個部分,分別占總樣本量的85%和15%。前者用于建立判別函數(即訓練樣本),后者用于考核判別函數的判別效果(即驗證樣本),用驗證樣本計算的誤判概率作為前瞻性誤判概率估計。前瞻性誤判概率估計則比較客觀。3810.2.7判別分析效果評價
3940第一步在【數據區】輸入需要進行分析的數據,并在【變量視圖】修改變量名字、類型、確定計算精度,注意樣式、包裝、耐久性三項數值型評分可以有計算精度,而類別數據是定性數據,不需要計算精度。第3節SPSS操作實例引入案例分析:產品評估41第二步選擇【分析】→【分類】→【判別式】,如圖10-6所示。第3節SPSS操作實例引入案例分析:產品評估42第三步把在左側的參數分組變量與因變量移至右側,點擊【定義范圍】按鍵,定義類別的范圍,注意這個類別需要是自然數1,2,3,…在本案例中,分組的變量分別是組1與組2,因此定義分組變量的范圍時義成1~2即可,如圖10-7所示。第3節SPSS操作實例引入案例分析:產品評估43第四步點擊【統計】,對描述、矩陣、函數系數進行選擇,如圖10-8所示。第3節SPSS操作實例引入案例分析:產品評估44第五步點擊【分類】進行先驗概率、使用協方差矩陣、顯示、圖的選擇,同時還可以對缺失值平均值的替代進行填充,如圖10-9所示。第3節SPSS操作實例引入案例分析:產品評估45第六步點擊【保存】,進行預測操作,如圖10-10所示。第3節SPSS操作實例引入案例分析:產品評估46第七步點擊【確定】后得到最終分析結果∶首先是預測結果,回到數據界面,發現數據界而新增了4列(見圖10-11),分別是【Dis_1】—預測組別結果;【Dis1_1】—判別得分∶【Dis1_2】、【Dis2_2】—每個個案的分組概率,結果證明待測產品屬于"受歡迎"的類別,解決了引入案例提出的問題。同時,預測結果對已知產品的估計也是十分準確的,說明預測,過程是正確的。第3節SPSS操作實例47第七步點擊【確定】后得到最終分析結果∶除了預測結果,SPSS的判別分析還得到了許多判別結果。個案分析如表10-2所示,各組均值分析如表10-3所示。該問題是有統計學的研究意義的第3節SPSS操作實例表10
-
2分析個案處理摘要未加權個案個案數百分比/%有效1292.3排除缺失或超出范圍組代碼17.7至少一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北南和一中2024-2025學年高三第九次適應性考試物理試題含解析
- 江蘇護理職業學院《醫學基礎與思維綜合實訓Ⅰ》2023-2024學年第二學期期末試卷
- 寧夏銀川市六盤山高級中學2025年高三一診模擬考試物理試題含解析
- 淄博師范高等專科學校《程控交換原理》2023-2024學年第二學期期末試卷
- 遼寧沈陽市第31中學2025屆高三下學期第一學段考數學試題含解析
- 華北水利水電大學《電視攝像與節目編輯》2023-2024學年第二學期期末試卷
- 四川成都龍泉驛區一中2024-2025學年高三聯考B卷語文試題含解析
- 云南省個舊市北郊教育聯合會2025屆初三二輪復習研究性考試(五)英語試題含答案
- 江西傳媒職業學院《口腔修復學實踐(Ⅱ)》2023-2024學年第二學期期末試卷
- 浙江省溫州市文成縣平和中學2025年初三年級十二月份階段測試語文試題試卷含解析
- 帶著思考去工作
- 教育教學研究項目效果實踐檢驗報告
- 提升員工的團隊協作與溝通能力
- 辦學許可證續期申請書
- 第三章 裝配式混凝土預制構件生產工藝
- crystalball模擬基礎教程課件
- 夏商周考古-鄭州大學中國大學mooc課后章節答案期末考試題庫2023年
- 【上海市靜安區寶山路街道社區養老問題調查報告】
- 公文筐測驗(案例題解示范)
- 外科學骨與關節化膿性感染
- 口腔一般檢查方法口腔一般檢查方法
評論
0/150
提交評論