




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2深度學(xué)習(xí)基礎(chǔ)目錄
|
CONTENTS線性代數(shù)1微積分2概率論3距離與相似度計算4激活函數(shù)567感知機(jī)與多重感知機(jī)反向傳播算法線性代數(shù)12.1.1標(biāo)量與向量標(biāo)量是一個單獨(dú)的數(shù),它沒有大小和方向之分。標(biāo)量通常用一個數(shù)或者小寫斜體字母表示。標(biāo)量01向量由一列數(shù)有序排列組成,是一個既有大小也有方向的量。可以把向量看作空間中的點(diǎn),每個元素對應(yīng)不同坐標(biāo)軸上的坐標(biāo)。向量通常由粗體小寫字母表示。向量022.1.2矩陣和張量矩陣是一個二維數(shù)組,由m行n列元素排列而成,每個元素須由兩個索引確定。矩陣也可視為由m個長度相等的行向量或n個長度相等的列向量組成。矩陣通常用粗體大寫字母來表示。矩陣01張量是一個多維數(shù)組,可以看作是向量的推廣,向量可以視為一維張量,同時矩陣也可視為二維張量。張量中每個元素須由各個維度對應(yīng)索引共同確定。張量022.1.3矩陣計算給定兩個向量,它們的點(diǎn)積是指二者相同位置元素乘積的和,計算公式如下:點(diǎn)積01
矩陣乘法022.1.4范數(shù)如果我們按常數(shù)因子縮放向量的所有元素,其范數(shù)也會按相同常數(shù)因子的絕對值縮放:01滿足三角不等式:02范數(shù)是具有“長度”概念的函數(shù),它常常被用來度量某個向量空間(或矩陣)中的向量的長度或大小。向量范數(shù)是將向量映射到標(biāo)量的函數(shù),對給定的任意向量,具有以下性質(zhì):范數(shù)是非負(fù)的:03當(dāng)且僅當(dāng)向量為零向量時范數(shù)為0,即:2.1.4范數(shù)范數(shù)有很多名字,例如我們熟悉的曼哈頓距離、最小絕對誤差等,其可以度量兩個向量間的差異,如絕對誤差和,計算方式如下:L1范數(shù)01范數(shù)一樣,范數(shù)也可以度量兩個向量間的差異,如平方差和。歐氏距離就是一種范數(shù),計算方式如下:L2范數(shù)02微積分22.2.1導(dǎo)數(shù)與微分
2.2.1導(dǎo)數(shù)與微分在實(shí)際應(yīng)用時,常常需要微分一個由一些常見函數(shù)組成的函數(shù),這時可以使用以下法則。假設(shè)函數(shù)和都是可微的,是一個常數(shù),有:2.2.2偏導(dǎo)數(shù)和梯度
偏導(dǎo)數(shù)012.2.2偏導(dǎo)數(shù)和梯度
梯度022.2.2偏導(dǎo)數(shù)和梯度偏導(dǎo)數(shù)與梯度并不是相等的概念,二者有區(qū)別也有聯(lián)系,具體而言:是一個多元函數(shù)針對其某一個變量的導(dǎo)數(shù),而保持其他變量恒定。偏導(dǎo)數(shù)01是一個向量,它指向函數(shù)在給定點(diǎn)處變化率最大的方向,它是一個由偏導(dǎo)數(shù)組成的向量。梯度022.2.3鏈?zhǔn)椒▌t
概率論32.3.1概率分布概率分布用于描述隨機(jī)變量每個取值或狀態(tài)的可能性大小。針對離散型隨機(jī)變量和連續(xù)型隨機(jī)變量有不同的描述方式。
離散型隨機(jī)變量01連續(xù)型隨機(jī)變量的概率分布通常用概率密度函數(shù)來表示,但其并沒有直接給出特定取值或狀態(tài)對應(yīng)的概率值,需要對概率密度函數(shù)求積分來獲得隨機(jī)變量取值落在某一范圍內(nèi)的概率。連續(xù)型隨機(jī)變量022.3.2期望與方差期望是最基本的數(shù)學(xué)特征之一,反映了隨機(jī)變量平均取值的大小。若隨機(jī)變量為離散型,其期望可表示為:若隨機(jī)變量為連續(xù)型,概率密度函數(shù)為,其期望可表示為:期望01方差是對隨機(jī)變量離散程度的度量,其描述了隨機(jī)變量與其數(shù)學(xué)期望之間的偏離程度。若隨機(jī)變量為離散型,其方差可表示為:若隨機(jī)變量為連續(xù)型,概率密度函數(shù)為,其方差可表示為:方差022.3.3條件概率和聯(lián)合概率
條件概率01
方差022.3.4全概率公式與貝葉斯定理
全概率公式01
貝葉斯定理022.3.5邊緣概率分布
距離與相似度計算42.4.1常見的距離計算假設(shè)當(dāng)前有兩個??維向量??和??,可以通過兩個向量之間的距離或者相似度來判定這兩個向量的相近程度,兩個向量之間距離越小,相似度越高;兩個向量之間距離越大,相似度越低。MinkowskiDistance是對多個距離度量公式概括性的表述,當(dāng)時,MinkowskiDistance便是曼哈頓距離;當(dāng)時,MinkowskiDistance便是歐式距離;MinkowskiDistance取極限的形式便是切比雪夫距離。閔可夫斯基距離(MinkowskiDistance)01曼哈頓距離(ManhattanDistance)02歐式距離/歐幾里得距離(Euclideandistance)032.4.1常見的距離計算切比雪夫距離(ChebyshevDistance)04海明距離(HammingDistance)05歐式距離/歐幾里得距離(Euclideandistance)06
給定隨機(jī)變量??和兩個概率分布??和??,KL散度可以用來衡量兩個分布之間的差異性,其公式如下。2.4.2常見的相似度計算余弦相似度(CosineSimilarity)01皮爾遜相關(guān)系數(shù)(PearsonCorrelationCoefficient)02給定兩個隨機(jī)變量??和??,皮爾遜相關(guān)系數(shù)可以用來衡量兩者的相關(guān)程度,公式如下:式中和分別表示向量??和??的均值,和分別表示向量??和??的標(biāo)準(zhǔn)差。2.4.2常見的相似度計算Jaccard相似系數(shù)(JaccardCoefficient)03假設(shè)有兩個集合??和??,則其計算公式為:激活函數(shù)52.5激活函數(shù)激活函數(shù)是一種添加到人工神經(jīng)網(wǎng)絡(luò)中的函數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。在神經(jīng)元中,輸入經(jīng)過一系列加權(quán)求和后作用于另一個函數(shù),這個函數(shù)就是這里的激活函數(shù)。類似于人類大腦中基于神經(jīng)元的模型,激活函數(shù)最終決定了是否傳遞信號以及要發(fā)射給下一個神經(jīng)元的內(nèi)容。在人工神經(jīng)網(wǎng)絡(luò)中,一個節(jié)點(diǎn)的激活函數(shù)定義了該節(jié)點(diǎn)在給定的輸入或輸入集合下的輸出。標(biāo)準(zhǔn)的計算機(jī)芯片電路可以看作是根據(jù)輸入得到開(1)或關(guān)(0)輸出的數(shù)字電路激活函數(shù)。如果不用激活函數(shù),每一層輸出都是上層輸入的線性函數(shù),無論神經(jīng)網(wǎng)絡(luò)有多少層,最終的輸出都是輸入的線性組合。激活函數(shù)給神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以逼近任何非線性函數(shù)。2.5激活函數(shù)
sigmoid01函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①
sigmoid函數(shù)的輸出映射在(0,1)之間,單調(diào)連續(xù),輸出范圍有限,優(yōu)化穩(wěn)定,可以用作輸出層;②
求導(dǎo)容易。缺點(diǎn):①
由于其軟飽和性,一旦落入飽和區(qū)梯度就會接近于0,根據(jù)反向傳播的鏈?zhǔn)椒▌t,容易產(chǎn)生梯度消失,導(dǎo)致訓(xùn)練出現(xiàn)問題;②
sigmoid函數(shù)的輸出恒大于0。非零中心化的輸出會使得其后一層的神經(jīng)元的輸入發(fā)生偏置偏移,并進(jìn)一步使得梯度下降的收斂速度變慢;③
計算時,由于具有冪運(yùn)算,計算復(fù)雜度較高,運(yùn)算速度較慢。2.5激活函數(shù)
tanh02函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①tanh比sigmoid函數(shù)收斂速度更快;②相比sigmoid函數(shù),tanh是以0為中心的。缺點(diǎn):①與sigmoid函數(shù)相同,由于飽和性容易產(chǎn)生的梯度消失;②與sigmoid函數(shù)相同,由于具有冪運(yùn)算,計算復(fù)雜度較高,運(yùn)算速度較慢。2.5激活函數(shù)
ReLU03函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①收斂速度快;②相較于sigmoid和tanh中涉及了冪運(yùn)算,導(dǎo)致計算復(fù)雜度高,ReLU可以更加簡單地實(shí)現(xiàn);③當(dāng)輸入時,ReLU的導(dǎo)數(shù)為常數(shù),這樣可有效緩解梯度消失問題;④當(dāng)時,ReLU的梯度總是0,提供了神經(jīng)網(wǎng)絡(luò)的稀疏表達(dá)能力。缺點(diǎn):①ReLU的輸出不是以0為中心的;②神經(jīng)元壞死現(xiàn)象,某些神經(jīng)元可能永遠(yuǎn)不會被激活,導(dǎo)致相應(yīng)參數(shù)永遠(yuǎn)不會被更新;③不能避免梯度爆炸問題。2.5激活函數(shù)
LReLU04函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①避免梯度消失;②由于導(dǎo)數(shù)總是不為零,因此可減少壞死神經(jīng)元的出現(xiàn)。缺點(diǎn):①LReLU表現(xiàn)并不一定比ReLU好;②不能避免梯度爆炸問題。
2.5激活函數(shù)
PReLU05函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①PReLU是LReLU的改進(jìn),可以自適應(yīng)地從數(shù)據(jù)中學(xué)習(xí)參數(shù);②收斂速度快、錯誤率低;③PReLU可以用于反向傳播的訓(xùn)練,可以與其他層同時優(yōu)化。
2.5激活函數(shù)
ELU06函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①導(dǎo)數(shù)收斂為零,從而提高學(xué)習(xí)效率;②能得到負(fù)值輸出,這能幫助網(wǎng)絡(luò)向正確的方向推動權(quán)重和偏置變化;③防止壞死神經(jīng)元出現(xiàn)。缺點(diǎn):①計算量大,表現(xiàn)并不一定比ReLU好;②不能避免梯度爆炸問題。
2.5激活函數(shù)
SELU07函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①SELU是ELU的一個變種。其中和是固定數(shù)值(分別為1.0507和1.6732);②經(jīng)過該激活函數(shù)后使得樣本分布自動歸一化到0均值和單位方差;③不會出現(xiàn)梯度消失或爆炸問題。
2.5激活函數(shù)
softsign08函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①softsign是tanh激活函數(shù)的另一個替代選擇;②softsign是反對稱、去中心、可微分,并返回?1和1之間的值;③softsign更平坦的曲線與更慢的下降導(dǎo)數(shù)表明它可以更高效地學(xué)習(xí)。缺點(diǎn):導(dǎo)數(shù)的計算比tanh更麻煩2.5激活函數(shù)
softplus08函數(shù)定義:導(dǎo)數(shù):優(yōu)點(diǎn):①作為ReLU的一個不錯的替代選擇,softplus能夠返回任何大于0的值;②與ReLU不同,softplus導(dǎo)數(shù)是連續(xù)的、非零的,無處不在,從而防止出現(xiàn)壞死神經(jīng)元。缺點(diǎn):①導(dǎo)數(shù)常常小于1,也可能出現(xiàn)梯度消失的問題;②softplus另一個不同于ReLU的地方在于其不對稱性,不以零為中心,可能會妨礙學(xué)習(xí)。2.5激活函數(shù)
softmax09
感知機(jī)與多層感知機(jī)62.6.1感知機(jī)
2.6.1感知機(jī)
2.6.1感知機(jī)
感知機(jī)學(xué)習(xí)算法算法2-12.6.2多層感知機(jī)
感知機(jī)能夠解決線性可分的情況,但真實(shí)世界中,大量分類問題是非線性可分問題。一種解決的有效方法是,在輸入層和輸出層之間引入隱含層,在每個隱含層通過激活函數(shù)來處理非線性情況,從而將感知機(jī)轉(zhuǎn)化為多層感知機(jī)來解決非線性可分問題。多層感知機(jī)是目前應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò)之一,這主要源于基于BP算法的多層感知機(jī)具有以下重要能力。①非線性映射能力。多層感知機(jī)能學(xué)習(xí)和存儲大量輸入-輸出模式映射關(guān)系,它能完成由n維輸入空間到m維輸出空間的非線性映射。②泛化能力。多層感知機(jī)訓(xùn)練后將所提取的樣本對中的非線性映射關(guān)系存儲在權(quán)值矩陣中。在測試階段,當(dāng)輸入新數(shù)據(jù)時,網(wǎng)絡(luò)也能完成由輸入空間向輸出空間的正確映射。這種能力稱為多層感知機(jī)的泛化能力,它是衡量多層感知機(jī)性能優(yōu)劣的一個重要方面。③容錯能力。多層感知機(jī)的優(yōu)勢還在于允許輸入樣本中帶有較大的誤差甚至個別錯誤。因?yàn)閷?quán)矩陣的調(diào)整過程也是從大量的樣本對中提取統(tǒng)計特性的過程,反映正確規(guī)律的知識來自全體樣本,個別樣本中的誤差不能左右對權(quán)矩陣的調(diào)整。反向傳播算法72.7反向傳播算法
2.7反向傳播算法
前向傳遞過程012.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西醫(yī)臨床各科目知識點(diǎn)提煉試題及答案
- 歷年護(hù)士面試題及答案
- 社區(qū)健康管理與護(hù)理服務(wù)的整合試題及答案
- 激光技術(shù)的專業(yè)知識要求考題試題及答案
- 考古測繪考試題及答案
- 理清公共衛(wèi)生執(zhí)業(yè)醫(yī)師考試試題及答案
- 舞蹈新課標(biāo)考試題及答案
- 育嬰師考試心態(tài)調(diào)整試題及答案
- 西醫(yī)臨床檢查結(jié)果解讀試題及答案
- 心理健康教育相關(guān)試題及答案
- 2024年中國人壽招聘筆試參考題庫含答案解析
- 票據(jù)業(yè)務(wù)承諾函
- 瀝青混凝土配合比報告
- 普通話-朗讀教學(xué)ppt
- 歐盟食品添加劑編碼系統(tǒng)
- 《愛我中華》教學(xué)設(shè)計(江蘇省市級優(yōu)課)-八年級音樂教案
- 勞動爭議調(diào)解仲裁法專題講座
- 第4課第1課時導(dǎo)學(xué)案 初中日語人教版第二冊
- 寧夏三支一扶考試試題及答案
- 特種設(shè)備作業(yè)人員考試機(jī)構(gòu)規(guī)范管理辦法(含附件附表 )
- 環(huán)境有害物質(zhì)管理辦法
評論
0/150
提交評論