




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、名詞解釋:1樣本:對任一個具體的事物,在這門課中都稱為一個樣本,它是一類事物的一個具體體現,它與模式這個概念聯用, 則模式表示一類事物的統稱,而樣本則是該類事物的一個具體體現。2模式:英語是pattern,表示一類事物,如印刷體A與手寫體A屬同一模式。B與A則屬于不同模式,而每一個具體 的字母A、B則是它的模式的具體體現,稱之為樣本。因此模式與樣本共同使用時,樣本是具體的事物,而模式是對同 一類事物概念性的概況。一個人的許多照片是這個人的許多樣本,而這個人本身是一個模式。3模式類:這個詞與模式聯合使用,此時模式表示具體的事物,而模式類則是對這一類事物的概念性描述。4模式識別:人們在見到一個具體
2、的物品時會分辨出它的類名,如方桌與圓桌都會歸結為是桌子。這是人們所具有的認 識事物的功能,在這門課中就稱為是模式識別。具體的說是從具體事物辨別出它的概念。這門課討論的是讓機器實現事 物的分類,因此由機器實現模式識別。這門課就是討論機器認識事物的基本概念、基本方法。5分類器:用來識別具體事物的類別的系統稱為分類器6模式識別系統:用來實現對所見事物(樣本)確定其類別的系統,也稱為分類器。7特征:一個事件(樣本)有若干屬性稱為特征,對屬性要進行度量,一般有兩種方法,一種是定量的,如長度、體積、 重量等,可用具體的數量表示,但也可用粗略的方法表示,如一個物體可用“重”、“輕”、“中等”表示,前種方法為
3、定量 表示,而后種方法則是定性表示。重與輕變成了一種離散的,或稱符號性的表示,它們在數值上有內在的聯系。在本門 課中一般偏重定量的表示。8特征向量:對一個具體事物(樣本)往往可用其多個屬性來描述,因此,描述該事物用了多個特征,將這些特征有序 地排列起來,如一個桌子用長、寬、高三種屬性的度量值有序地排列起來,就成為一個向量。這種向量就稱為特征向量。 每個屬性稱為它的一個分量,或一個元素。x= Oi,勺,禹)*9維數:一個向量具有的分量數目,如向量,則該向量的維數是3。K = 勺10列向量:將一個向量的分量排列成一列表示,如。一(% 雙?,勺)11行向量:將一個向量的分量排列成一行表示,如12轉置
4、:將一個列向量寫成行向量的形式的方法就是轉置。如定義X為列向量,則XT就是該向量的行向量表示。轉 置的概念與矩陣中轉置的概念一樣。13特征空間:一種事物的每個屬性值都是在一定范圍內變化,修改桌子高度一般在0.5米到1.5米范圍內變化,寬度在 0.6到1.5米范圍內變化。長度是1米到3米范圍內變化,則由這三個范圍限定的一個三維空間就是桌子的特征空間。歸 納起來說所討論問題的特征向量可能取值范圍的全體就是特征空間。14分類決策:根據一個事物(樣本)的屬性確定其類別,稱為分類決策。15分類決策方法:對一事物進行分類決策所用的具體方法,例如一個人身高超過1.8米,就判斷它是個男人,身高超過 1.8米就
5、是具體的分類決策方法。16學習:讓一個機器有分類決策能力,就需要找到具體的分類決策方法,確定分類決策方法的過程統稱為學習,就像 人認識事物的本領的獲取與提高都是通過學習得到的。在本門課中將學習分成有監督學習與無監督學習兩種不同的方 法。17訓練:一般將有監督學習的學習方法稱之為訓練。18訓練(樣本)集:在訓練過程中使用的樣本集,該樣本集中的每個樣本的類別已知。例如訓練一個將男女進行分類 的系統的訓練集,應包含一個男生集及一個女生集,這兩個集中每個成員的性別是已知的。19有監督學習方法:從不同類的訓練集數據中體現出的規律性進行分析,從而確定分類決策方法,這種學習方法是在 訓練集指導下進行的,就像
6、有教師來指導學習一樣,稱為有監督學習方法。與之相對的是無監督學習方法。20無監督學習方法:在一組數據集中尋找其規律性的過程稱為無監督學習方法。例如分析數據集中的自然劃分(聚類); 分析數據集體現的規律性,并用某種數學形式表示(數據似合);分析數據集中各種分量(描述量,特征)之間的相關 性(數據挖掘,知識獲取)等,這種學習沒有訓練樣本集作指導,這是與有監督學習方法的不同點。21先驗概率:根據大量統計確定某類事物出現的比例,如我國理工科大學男女生比例大約為8:2,則在這類學校一個學 生是男生的先驗概率為0.8,而為女生的概率是0.2,這兩類概率是互相制約的,因為這兩個概率之和應滿足總和為1的 約束
7、。22類分布概率密度函數:同一類事物的各個屬性都有一定的變化范圍,在這些變化范圍內的分布密度用一種函數形式 表示,則稱為類分布概率密度函數(類條件概率密度),這種函數可以是一些著名的普遍運用的函數形式,如正態分布, 也可能是更復雜的無法用分析式表示的函數。這種分布密度只對同一類事物而言,因此與其它類事物沒有關系。例如, 男女生比例是男生與女生這兩類事物之間的關系,而男生高度的分布則與女生的分布無關。為了強調是同一類事物內部, 因此這種分布密度函數往往表示成條件概率的形式。例如X表示某一個學生的特征向量,則,男生的分布概率密度表示 成P(XI男生),女生的表示成P(XI女生)這兩者之間沒有任何關
8、系。即一般的情況下P(XIW)+P(Xlw2)可為從02之間 的任意值。23后驗概率:一個具體事物屬于某種類別的概率,例如一個學生用特征向量X表示,它是男性或女性的概率表示成P(男 生IX)和P(女生IX)這就是后驗概率。由于一個學生只可能為兩個性別之一,因此有P(男生IX)+P(女生IX)=1的約束,這一 點是與類分布密度函數不同的。后驗概率與先驗概率也不同,后驗概率涉及一個具體事物,而先驗概率是泛指一類事物, 因此P(男生IX)和P(男生)是兩個不同的概念。24貝葉斯公式:兩個事物X與w聯合出現的概率稱為聯合概率,可寫成P(X, w)而它們又可與條件概率聯系起來,即 P(X, w)=P(X
9、Iw)P(w)=P(wIx)P(w)這就是貝葉斯公式。如果將上式中各個項與先驗概率,類分布密度函數以及后驗概率聯 合起來,可以找到利用先驗概率,分布密度函數計算后驗概率的方法。25貝葉斯決策理論:根據先驗概率、類分布密度函數以及后驗概率這些量來實現分類決策的方法,稱為貝葉斯決策理 論。由于這些量之間符合貝葉斯公式,因此稱為貝葉斯決策理論。26基于最小錯誤率的貝葉斯決策:根據一個事物后驗概率最大作為分類依據的決策,稱為基于最小錯誤率的貝葉斯決 策。從統計上講,即從平均錯誤率角度看,分類錯誤率為最小,因此稱為基于最小錯誤率的貝葉斯決策。27風險決策:對事物進行分類或做某種決策,都有可能產生錯誤,不
10、同性質的錯誤就會帶來各種不同程度的損失,因而 作決策是要冒風險的。考慮到決策后果(風險)的決策是風險決策。如進行股票交易要冒風險,投資,確定建設項目,規 劃等都要冒風險,在衡量了可能遇到的風險后所作的決策稱為風險決策。28基于最小風險的貝葉斯決策:如果樣本X的實際類別為w而作決策為則可以定義此時作aj決策的風險為l(ajIwi), 由此可以確定對樣本X做aj決策的期望損失,比較做不同決策的期望損失,選擇期望損失最小的決策后最終決策。就是 基于最小風險的貝葉斯決策。29判別函數:是一組與各類別有關的函數,對每一個樣本可以計算出這組函數的所有函數值,然后依據這些函數值的 極值(最大或最小)做分類決
11、策。例如基于最小錯誤率的貝葉斯決策的判別函數就是樣本的每類后驗概率,基于最小風險 的貝葉斯決策中的判別函數是該樣本對每個決策的期望風險。30決策域與決策面:根據判別函數組中哪一個判別函數值為極值為準則可將特征空間劃分成不同的區域,稱為決策域, 相鄰決策域的邊界是決策分界面或稱決策面。例如兩類問題的基于最小錯誤率的貝葉斯決策將整個特征空間劃分成兩個 決策域,在同一個決策域中的每一點由同一類的后驗概率占主導地位。31參數估計:使用貝葉斯決策要知道先驗概率,類分布密度函數等統計參數,為此,要從訓練樣本集中估計出這些統 計參數,這就是參數估計。32非參數估計:在分布密度函數形式也不確定條件下,估計統計
12、參數,稱為非參數估計。33非參數分類器:不以統計參數為分類決策依據的分類決策方法稱為非參數分類器,線性分類器、非線性分類器以及近 鄰分類器都屬于這種分類器,它們不需要統計參數。34線性分類器:判別函數為線性函數的分類器是線性分類器,此時決策分界面的方程是線性方程。35非線性分類器:是非參數分類器的一種,其中判別函數或決策面方程是某種特定的非線性函數,如二次函數,多項 式函數等。36分段線性分類器:相鄰決策域的界面用分段線性函數表示的分類器。37近鄰法:通過計算待分類樣本與已知類別的模板樣本集計算相似度(相鄰性),從而以最相似模板樣本的類別作為分 類依據的方法。K-近鄰法:是近鄰法中的一種,對待
13、分類樣本找到K個近鄰,并以該K個近鄰中的主導類別作為待分類樣本的分類 依據,當K=1時稱為最近鄰法。Fisher準則判別函數:線性分類器中的一種分類決策面設計方法,是由Fisher提出而得名,一般用于兩類別分類器中。 該種設計方法要找到分界面的最佳法線,使兩類別訓練樣本到該法線向量的投影體現“類間盡可能分離,類內盡可能密 集”的最佳準則。40感知準則函數:是線性分類器的另一種著名設計方法。該種方法通過迭代優化確定最佳分界面。最佳準則取決于所 使用的最佳準則,如最小錯分數準則等。其特點是利用錯分類信息對當前的分界面進行修正。41感知器:使用感知準則函數設計的分類器稱為感知器,它是人工神經網絡中最
14、簡單的一種,是人工神經前期研究的 成果。42剪輯近鄰法:對近鄰法使用的模板樣本集通過剪輯進行修正,以達到進一步減小錯誤率,壓縮模板樣本數量為目的。43壓縮近鄰法:是另一種改進近鄰法的方法,以最大限度削減近鄰法中模板樣本數量為目的。44支持向量機:是基于統計學習理論的一種分類器設計方法,是近年來在理論及實際問題都有重大影響的一種新方法。 就分類器設計而言,它以設計線性分類器為基礎,擴展到非線性分類器。在設計線性分類器時又分線性可分以及線性 不可分兩種情況。在線性可分條件下,即兩個類別訓練樣本集可用線性分界面無錯誤分開的條件下,找到使兩類別訓練 樣本正確分類的一個最佳分界面。最佳條件是指兩類樣本最
15、靠近分界面的樣本(稱為支持向量)到該分界面的法向距離 最大。也就是說使分界面兩側形成的一個隔離帶(帶中沒有任一類訓練樣本)的間隔最寬。在線性不可分條件下,即兩 類樣本無法用線性界面無錯分開的條件下,最佳準則改為綜合考慮對錯分樣本進行控制與使間隔帶盡可能寬這兩個條 件。對線性不可分條件下分類也可使用非線性分類器,支持向量機中采用將原特征空間,用非線性映射到一個新空間,并在 該空間采用線性分類器的方法。45特征選擇:對樣本采用多維特征向量描述,各個特征向量對分類起的作用不一樣,在原特征空間中挑選中部分對分 類較有效的特征組成新的降維特征空間,以降低計算復雜度,同時改進或不過分降低分類效果特征選擇的
16、另一種含義是 指人們通過觀察分析選擇適用于分類的特征。46特征提取:特征提取是從樣本的某種描述狀態(如一幅具體的圖象,一段聲波信等)提取出所需要的,用另一種形 式表示的特征(如在圖象中抽取出輪廓信號,聲音信號提取中不同頻率的信息等)。這種提取方法往往都要通過某種形 式的變換。如對原特征空間進行線性變換或其它變換,濾波也是變換的一種形式。特征提取也往往可以達到降維的目的。 目前使用什么樣方法提取特征。主要靠設計人員確定,如選擇什么樣的變換,主要由人來決定,但如確定用某種線性變 換,則線性變換的參數可通過計算來確定。47 K-L變換:K-L變換是一種特殊的正交變換,它是通過對樣本集協方差矩陣求的特
17、征值與特征向量的方式構造正交變 換。利用部分特征值最大的特征向量構造的正交變換可對原信號進行降維重構,重構后的信號與原信號之差為截尾誤差 時的最佳正交變換。最佳條件是指在降維數相同條件下,K-L變換的平均截尾誤差平方和比任何一個其它正交變換要小。 K-L變換的這種性質對信息壓縮有價值,在模式識別中廣泛用于特征提取。48主分量分析:主分量分析是K-L變換的另一種名稱。49聚類:一個數據集可能由若干個聚集成群的子集,每個子集稱為一個聚類。找出這些按自然分布的聚類是聚類算法 的目的與任務。聚類方法一般可分為動態聚類方法與分級聚類方法兩大類。50動態聚類方法:通過迭代使聚類劃分逐步優化的方法,典型的方
18、法有C-均值算法,ISODATA算法等,由于動態聚類 方法是一種迭代優化算法,需要確定一種準則函數,迭代過程是使準則函數值趨于極度值的過程。準則函數超于極值應 能反映聚類趨于更合理。C-均值算法:是動態聚類方法中的一個典型方法。其目的是將一數據集 按自然密集程度劃分成C個聚類,它的準則 函數是對所有C個聚類中每個數據到其各自均值的距離平方和的總和為最小。計算距離的最簡單形式是歐式距離。但也 可使用其它形式的距離。迭代過程是計算這個數據,從現屬聚類轉移至其它聚類,是否能使準則函數值減小為依據,將 該數據轉移至合適聚類,直至這種數據轉移不再發生為止。在數據轉移過程中各個聚類的均值也隨之改變。ISO
19、DATA算法:是另一種典型的動態聚類方法,它與C-均值算法的主要不同點是它包含聚類的分裂與合并過程,從 而可以根據需要改變聚類的數目。53分級聚類方法:對數據集采用逐級合并的方法進行聚類,在初始時整個數據集的每個數據自成一類,然后按相似度 最高的要求進行合并,隨著相似度要求逐次降低,小的集群逐級合并,聚類數量逐漸減少。這種方法基于分類學原理, 如人與類人猿相近,貓與虎同屬貓科,就是基于這種原理。54人工神經元模型:1940年McCulloch與Pitts提出仿造神經元的人工神經元模型。神經元網絡的輸入端接收多維輸入 向量(如模式識別中常用的特征向量),輸出端只有一個。該模型由兩部分功能組成,一
20、部分功能將輸入端信號進行線 性迭加,另一部分是對該迭加值進行非線性映射及從輸出端輸出。McCulloch-Pitts模型中的非線性映射是閾值函數,輸入值從負無窮到某個值內輸出為0,輸入一旦達到該閾值,輸出為1。 這種01輸出也可改成-1+1輸出。近來人們根據需要,在人工神經元模型中也采用其它類型的非線性映射。55 McCulloch-Pitts模型:就是McCulloch和Pitts倆人在1940提出的人工神經元模型。 56單層感知器:一個McCulloch-Pitts模型可實現的功能是兩類別線性分類器,輸入向量的線性求和是判別函數,非線 性映射及輸出的0、1值表示了分類結果。這種線性分類器的
21、系數若采用感知準則函數方法確定,它就是一個感知器。這種感知器與多層感知器相比,只有一層,因而稱為單層感知器。57人工神經元網絡:將多個人工神經元模型連接成網就是人工神經元網絡。常用的人工神經元網絡有多層感知器, Hopfield模型等。58多層感知器:將多個感知器組成分層結構,由輸入結點層向第一層結點傳遞信息,而較低層結點輸出的信息往更高 一層傳遞。這種信息單向傳遞的層次結構稱為多層感知器。多層感知器可以實現復雜的邏輯運算功能,輸入與輸出之間 的非線性映射功能。59前饋網絡:前饋網絡是指像多層感知器這樣的信息單向傳輸的網絡。60隱層結點:由兩層及兩層以上結點組成的前饋網絡中處于非輸出層的結點稱
22、為隱層結點,一個只含一個隱含層的前 饋網絡稱為雙層前饋網絡。含兩個隱含層的稱三層前饋網絡。一般使用至多兩個隱含層的網絡。61 BP算法:又稱誤差回傳算法,是在感知準則函數訓練方法基礎上發展的方法。62網絡的期望輸出值:前饋網絡在輸入某個向量時期望的輸出值。63網絡的實際輸出值:前饋網絡在輸入某個向量時輸出端的實際輸出值。64誤差回傳算法:前饋網絡中各種參數的設定是通過訓練樣本集迭代的訓練過程確定的。當網絡中的參數不合適時,輸入向量 的實際輸出與期望輸出值之間不一致,稱為誤差。利用這種誤差從輸出層向輸入層逐級反傳,以確定各個參數的修正量,這種 方法因而稱之為誤差回傳算法。65經向基函數網絡:在多
23、層感知器的人工神經元一般采用S型函數作非線性映射。而經向基函數網絡則采用單峰型函數(如高 斯函數)為非線性映射函數。在實現數據擬合等等應用中較多。訓練也較簡單。Hopfield模型:是人工神經元網絡中一個典型網絡,該網絡中的所有神經元實行全聯接,即任一個神經元的輸入輸出都聯接 至其它結點的輸入端,因此每一個結點的狀態對其它結點的狀態都有牽扯作用。該網絡的聯接數值由Hebb規則確定。其功能可 實現聯想記憶,是人工神經網絡中的一種動力系統。網絡具有存儲模式功能,有自己的穩態,其原理與電子線路中的雙穩態觸發 器相仿。Hebb規則:Hebb是神經生理學家,在1949年提出一種假沒,認為腦細胞中突觸強度根據其感受到的經驗改變。他因此提出 這種突觸強度的改變與神經在觸發前后突觸之間的相關成正比。由于在Hopfield模型中采用的聯接規則與Hebb的修改相比,因 而在人工神經之網絡中廣泛使用的規則以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第1章 生命的結構與生殖(生物體的結構層次)期中專題復習(含解析)
- 2025屆上海市曹楊第二中學高三第一次模考數學試題
- 2023-2024新人教版小學數學5五年級上冊(全冊)完整教案設計
- 公司協議收購的現狀、問題和對策二零二五年
- 二零二五版以擔保合同為依據融資特點
- 基因測序儀收費標準
- 二零二五快遞代理點轉讓的合同范例
- 股權轉讓協議部分轉讓二零二五年
- 離婚兩小孩撫養范例協議書二零二五年
- 醫學基礎常識考核試題及答案
- 顧潔Storytime
- 煤礦節電降耗管理措施
- 小學信息技術認識《畫圖》
- 【精品】宇通客車涂裝車間實習報告
- 地域文化教學大綱(修訂本)
- 冷凍機的制冷效率與運行電費
- 物業服務流程圖
- PE管道焊接工藝卡
- 最全最好的血液凈化(課堂PPT)
- 新標準大學英語(第二版)視聽說教程2答案
- 玻璃瓶罐的缺陷產生原因及解決方法
評論
0/150
提交評論