人工智能的數學基礎_第1頁
人工智能的數學基礎_第2頁
人工智能的數學基礎_第3頁
人工智能的數學基礎_第4頁
人工智能的數學基礎_第5頁
已閱讀5頁,還剩150頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能數學基礎

主講教師:課時安排與考核方式★課程類別

專業支撐課程★課時安排

54學時★考核方式平時成績(60%)+考試成績(40%)課程目錄第一部分:微積分基礎

一、函數與極限1.1函數1.2函數的極限二、導數2.1導數定義2.2常用求導法則2.3復合函數求導2.4高階導數課程目錄第一部分:微積分基礎

三、多元函數求導3.1多元函數概念3.2偏導數3.3方向導數3.4梯度四、梯度下降4.1泰勒展開4.2梯度下降4.3隨機梯度下降課程目錄第二部分:概率論與數理統計

五、隨機事件與概率5.1隨機事件及其運算5.2概率定義與條件概率5.3全概率公式與貝葉斯公式六、隨機變量及其分布6.1隨機變量定義及分布函數6.2常用離散型隨機變量6.3常用連續型隨機變量6.4隨機變量函數的分布課程目錄第二部分:概率論與數理統計

七、隨機變量數字特征7.1期望和方差7.2協方差7.3相關系數八、數理統計與參數估計8.1總體和樣本8.2均值、中位數、眾數8.3極大似然估計課程目錄第三部分:線性代數基礎知識

九、標量、向量、矩陣、張量9.1基本概念9.2向量9.3矩陣十、向量空間10.1向量空間與子空間10.2線性相關與線性無關10.3向量與向量組的線性表示10.4矩陣的秩課程目錄第三部分:線性代數基礎知識

十一、特征分解與奇異值分解11.1特征值與特征向量11.2行列式11.3特征分解11.4奇異值分解十二、兩個簡單的機器學習算法12.1最小二乘法12.2主成分分析法一、函數與極限一、函數與極限1.1函數1.2函數的極限1.1函數定義:如果當變量x在其變化范圍內任意取定一個數值時,變量y按照一定的法則f總有確定的數值與它對應,則稱y是x的函數。變量x的變化范圍叫做這個函數的定義域。通常x叫做自變量,y叫做函數值(或因變量),變量y的變化范圍叫做這個函數的值域。為了表明y是x的函數,我們用記號y=f(x)來表示1.1函數例子:y=x2,也可以寫為f(x)=x2,其定義域為(-∞,+∞),值域為[0,+∞)1.1函數復合函數定義:若y是u的函數:,而u又是x的函數:,且的函數值的全部或部分在的定義域內,那末,y通過u的聯系也是x的函數,我們稱后一個函數是由函數及復合而成的函數,簡稱復合函數,記作,其中u叫做中間變量。1.1函數并不是任意兩個函數就能復合;復合函數還可以由更多函數構成。例題:函數與函數是不能復合成一個函數的。因為對于的定義域(-∞,+∞)中的任何x值所對應的u值(都大于或等于2),使都沒有定義。1.2函數的極限設函數在點x0的某領域內有定義(點x0可除外),對任意給定的正數?,總存在一個正數δ,使當0<|x?x0|<δ時,不等式|f(x)?A|<?恒成立,稱A為函數y=f(x)當x→x0時的極限,記作1.2函數的極限運算法則:若已知x→x0(或x→∞)時1.2函數的極限例題:求:1.2函數的極限例題:求:1.2函數的極限兩個重要極限1.2函數的極限二、導數二、導數2.1導數定義2.2常用求導法則2.3復合函數求導2.4高階導數2.1導數定義2.2常用求導法則

2.2常用求導法則

兩個可導函數的和(差)的導數等于這兩個函數的導數的和(差).用公式可寫為:。其中u、v為可導函數。已知,求2.2常用求導法則

在求一個常數與一個可導函數的乘積的導數時,常數因子可以提到求導記號外面去。用公式可寫成:兩個可導函數乘積的導數等于第一個因子的導數乘第二個因子,加上第一個因子乘第二個因子的導數。用公式可寫成:兩個可導函數之商的導數等于分子的導數與分母導數乘積減去分母導數與分子導數的乘積,在除以分母導數的平方。用公式可寫成:2.3復合函數求導

規則:兩個可導函數復合而成的復合函數的導數等于函數對中間變量的導數乘上中間變量對自變量的導數。用公式表示為:其中u為中間變量2.3復合函數求導

求的導數2.3復合函數求導Sigmod函數導數2.4高階導數2.4高階導數2.4高階導數三、多元函數求導三、多元函數求導3.1多元函數概念3.2偏導數3.3方向導數3.4梯度3.1多元函數概念3.2偏導數定義3.2偏導數3.2偏導數所以3.3方向導數3.3方向導數當沿著趨于時,是否存在?3.3方向導數記為3.3方向導數3.3方向導數解3.3方向導數解由方向導數的計算公式知3.3方向導數故3.3方向導數三元函數的方向導數:3.3方向導數同理:當函數在此點可微時,函數在該點沿任意方向l的方向導數都存在,且有

3.3方向導數

3.4梯度結論:沿梯度方向函數f(x,y)增加最快,沿梯度相反方向(負梯度方向)減小最快課堂練習題課堂練習題答案四、梯度下降4.1泰勒展開4.2梯度下降4.3隨機梯度下降四、梯度下降大多數機器學習算法是先建立模型,然后通過優化算法對損失函數進行優化,一個模型只有損失函數收斂到了一定的值,才有可能會有好的結果,降低損失方式的工作就是優化方法需要做的事。一些常用的優化方法:梯度下降法家族、牛頓法、擬牛頓法、共軛梯度法、Momentum、NesterovMomentum、Adagrad、RMSprop、Adam等4.1泰勒展開泰勒公式是將一個在x=x0處具有n階導數的函數f(x)利用關于(x-x0)的n次多項式來逼近函數的方法。若函數f(x)在包含x0的某個閉區間[a,b]上具有n階導數,且在開區間(a,b)上具有(n+1)階導數,則對閉區間[a,b]上任意一點x,成立下式:f(n)(x)表示f(x)的n階導數,等號后的多項式稱為函數f(x)在x0處的泰勒展開式,剩余的Rn(x)是泰勒公式的余項,是(x-x0)n的高階無窮小。4.1泰勒展開4.2梯度下降例子其中x1和x2為機器學習中樣本參數4.2梯度下降4.2梯度下降4.3隨機梯度下降梯度下降缺陷:當樣本量比較大時,梯度下降算法計算量會比較大。隨機梯度下降:每次隨機使用一組樣本進行計算,這樣雖然會揍很多彎路,但整體會趨向于最優,這樣可以節省很多時間。五、隨機事件與概率

五、隨機事件與概率5.1隨機事件及其運算5.2概率定義與條件概率5.3全概率公式與貝葉斯公式5.1隨機事件及其運算概率論是一門研究隨機現象及其統計規律性的學科。所謂隨機現象是指在個別試驗中呈現不確定的結果,而在大量重復試驗中結果具有某種規律性的現象。這種規律性稱為統計規律性.以下現象就是隨機現象:拋一枚均勻硬幣100次,出現正面向上的次數恰為55次.5.1隨機事件及其運算為了研究隨機現象的統計規律性,就要對客觀事物進行觀察,觀察的過程叫做試驗。概率論中具有下述三個特點的試驗稱為隨機試驗。(1)試驗可以在相同條件下重復地進行;(2)試驗的所有可能結果在試驗前已經明確,并且不止一個;(3)試驗前不能確定試驗后會出現哪一個結果。一個隨機試驗的每一個可能出現的結果稱為一個樣本點,記為ω,全體樣本點組成的集合稱為樣本空間,記為Ω

5.1隨機事件及其運算在隨機試驗中,對于一次試驗可能發生也可能不發生,而在大量重復試驗中具有某種規律性的事情稱為隨機事件,簡稱事件。用大寫字母A、B、C等來表示隨機事件。隨機事件實際上為樣本空間Ω的一個子集。每次試驗中一定發生的事件稱為必然事件,記為;每次試驗中一定不發生的事件稱為不可能事件,記為。5.1隨機事件及其運算例1拋一枚均勻硬幣三次,觀察正面向上的次數,則樣本空間Ω={正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反}記A={出現一次正面}={正反反、反正反、反反正}5.1隨機事件及其運算例2擲一粒骰子,觀察其出現的點數,記D={出現的點數小于7}E={出現的點數大于7}D是必然事件E是不可能事件5.1隨機事件及其運算隨機事件之間的關系5.1隨機事件及其運算隨機事件之間的關系5.1隨機事件及其運算隨機事件之間的運算5.1隨機事件及其運算隨機事件之間的運算5.1隨機事件及其運算5.2概率定義與條件概率概率定義5.2概率定義與條件概率概率性質5.2概率定義與條件概率概率性質5.2概率定義與條件概率5.2概率定義與條件概率5.2概率定義與條件概率條件概率5.2概率定義與條件概率條件概率5.2概率定義與條件概率5.2概率定義與條件概率5.2概率定義與條件概率獨立事件5.2概率定義與條件概率獨立事件5.3全概率公式與貝葉斯公式完備事件組5.3全概率公式與貝葉斯公式全概率公式5.3全概率公式與貝葉斯公式一個例子5.3全概率公式與貝葉斯公式貝葉斯公式5.3全概率公式與貝葉斯公式解答5.3全概率公式與貝葉斯公式例子5.3全概率公式與貝葉斯公式例子5.3全概率公式與貝葉斯公式5.3全概率公式與貝葉斯公式現在給我們的問題是,如果一個男的追求一個女的,男的四個特點分別是不帥,性格不好,身高矮,不上進,現在判斷一下女生是答應還是不答應?這是一個典型的分類問題,轉為數學問題就是比較p(答應|(不帥、性格不好、身高矮、不上進))與p(不答應|(不帥、性格不好、身高矮、不上進))的概率,誰的概率大,我就能給出答應或不答應的答案!六、隨機變量及其分布六、隨機變量及其分布6.1隨機變量定義及分布函數6.2常用離散型隨機變量6.3常用連續型隨機變量6.4隨機變量函數的分布6.1隨機變量定義及分布函數通俗解釋:在隨機試驗的樣本空間中的任一樣本點都有唯一實數與其對應,這個實數就叫隨機變量,通常用大寫字母X,Y,Z表示6.1隨機變量定義及分布函數6.1隨機變量定義及分布函數6.1隨機變量定義及分布函數6.2常用離散型隨機變量伯努利分布:隨機事件的結果有兩個,例如投硬幣(正面和反面)、考試(通過和掛科)。其分布函數為(p為成功時的概率):6.2常用離散型隨機變量二項分布:假設某個試驗是伯努利試驗,其成功概率用p表示,那么失敗的概率為q=1-p。進行n次這樣的試驗,成功了x次,則失敗次數為n-x,發生這種情況的概率可用下面公式來計算:6.2常用離散型隨機變量6.2常用離散型隨機變量6.2常用離散型隨機變量泊松分布:泊松分布描述的是一定時間段或空間區域或其它單位內某個事件發生的次數。這個事件滿足兩點要求:①我們知道它在單位時間或單位空間內發生的平均次數(期望值);②事件在任何時間或空間節點的發生是等可能的。6.2常用離散型隨機變量6.3常用連續型隨機變量6.3常用連續型隨機變量七、隨機變量數字特征

七、隨機變量數字特征7.1期望和方差7.2協方差7.3相關系數7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.1期望和方差7.2協方差前面我們介紹了隨機變量的數學期望和方差,對于二維隨機變量(X,Y),我們除了討論X與Y的數學期望和方差以外,還要討論描述X和Y之間關系的數字特征,這就是本講要討論的7.2協方差7.2協方差定義7.2協方差性質(1)Cov(X,X)=D(X)(4)Cov(X,C)=0,C為常數;

協方差的大小在一定程度上反映了X和Y相互間的關系,但它還受X與Y本身度量單位的影響.例如:Cov(kX,kY)=k2Cov(X,Y)為了克服這一缺點,對協方差進行標準化,這就引入了相關系數.7.2相關系數定義性質與意義八、數理統計與參數估計八、數理統計與參數估計8.1總體和樣本8.2均值、中位數、眾數8.3極大似然估計8.1總體和樣本數理統計的基本內容:如何收集、整理所研究隨機變量的數據如何對這些數據進行分析如何對所研究的隨機變量做出種種推斷8.1總體和樣本在數理統計中,我們把研究對象的全體稱為總體,組成總體的每個成員稱為個體。特指:研究對象的某項數量指標的全體稱為總體,組成總體的每個成員的該項數量指標稱為個體。8.1總體和樣本在數理統計中總體分布往往是未知的,有時雖然知道總體分布的類型,但分布中的參數卻未知。所以我們希望從客觀存在的總體中選取一些個體(即抽樣),通過對這些個體作觀察或測試來推斷關于總體分布中的某些量如總體的均值或方差等。這些抽取的個體便稱為是取自總體的一個樣本,這些個體的觀測值則稱為樣本觀測值。8.2均值、中位數、眾數機器學習算法開發人員的一組薪資數據:8K,10K,15K,20K,25K,30K,32K他們的薪資平均水平怎么樣?我可以使用均值來度量。均值:度量樣本的平均水平8.2均值、中位數、眾數機器學習算法開發人員的一組薪資數據:8K,10K,15K,20K,25K,30K,32K如果來了一個特殊的人,例如馬云,月收入10000K。這時平均值是1268K。中位數:一組數按升序排列,排序位于中間的數就叫中位數,如果中間數為偶數,則為中間倆數的平均值。8.2均值、中位數、眾數如果來了一批特殊的人,例如李彥宏、馬云、雷軍、王健林、小扎、蓋茨都來了,月收入分別是9000K、10000K、10000K、10000K、11000K、12000K、12000K。這時均值和中位數都有較大的偏差了。眾數:選擇頻次最大的(或者劃定區間選擇頻次最大的區間均值)峰值。8.3極大似然估計似然(likelihood),其實就是可能性的意思。體重為5kg的貓是橘貓的可能性是多少?在這里我們稱為體重為5kg是橘貓的似然是多少?極大似然估計是一種統計學的方法,我們用已知的樣本數據分布去推測具體的分布情況。8.3極大似然估計當我們使用機器學習解決具體現實問題時,我們是無法確切知道具體的數據分布情況的。例如我們現在想知道橘貓的體重分布,顯然,我們是無法一只只去測的。這種情況在機器學習中非常普遍,那我們可不可以用部分已知數據去預測整體的分布呢?極大似然估計就是一個解決這類問題的方法。但是,這并不是絕對準確的,只能說實際情況最有可能接近這種猜測的分布。8.3極大似然估計8.3極大似然估計8.3極大似然估計8.3極大似然估計8.3極大似然估計九、標量、向量、矩陣、張量

九、標量、向量、矩陣、張量9.1基本概念9.2向量9.3矩陣9.1基本概念標量一個標量就是一個單獨的數,它不同于線性代數中研究的其他大部分對象(通常是多個數的數組)。我們用斜體表示標量。標量通常被賦予小寫的變量名稱。當我們介紹標量時,會明確它們是哪種類型的數9.1基本概念向量一個向量就是一列數,這些數是有序排列的。用過次序中的索引,我們可以確定每個單獨的數。通常會賦予向量粗體的小寫名稱。當我們需要明確表示向量中的元素時,我們會將元素排列成一個方括號包圍的縱柱:9.1基本概念矩陣矩陣是二維數組,其中的每一個元素被兩個索引而非一個所確定。我們通常會賦予矩陣粗體的大寫變量名稱,比如A。如果一個實數矩陣高度為m,寬度為n,那么我們說:9.1基本概念張量某些情況下,我們會討論坐標超過兩維的數組。一般地,一個數組中的元素分布在若干維坐標的規則網格中,我們將其稱之為張量。使用粗體A來表示張量“A”。張量A中坐標為(i,j,k)的元素記作Ai,j,k。9.2向量向量的概念9.2向量向量的概念9.2向量向量的運算9.2向量向量的運算9.3矩陣由m×n個數稱為m行n列矩陣.簡稱

矩陣.通常記作A,定義也簡記為或或排成的m行n列的數表叫作矩陣A的第i行第j列元素,或簡稱為A的(i,j)元素.當m=n時,矩陣A稱為n階方陣.只有一行的矩陣稱為行矩陣.只有一列的矩陣稱為列矩陣.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論