




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)科學的數(shù)學基礎引言無論是統(tǒng)計學還是計算機科學,都以數(shù)學為基礎。每一種分析方法,都可以用數(shù)學理論或算法形式來表述;深入地理解各種方法的內(nèi)涵,需要從基本的數(shù)學原理入手;如果研究者想在方法上做出一些學術貢獻,也免不了進行各種數(shù)學推導和證明。引言Analysis of a Random Forests Model引言A Representer Theorem for Deep Neural Networks引言數(shù)學十分重要,但并不意味著一定要完全弄懂數(shù)學原理后才能進行分析實踐。數(shù)據(jù)科學是一門應用性很強的科學,需要堅實的基礎;還需要以實際問題的解決為導向。掌握一些基礎的數(shù)學計算在程序中的實現(xiàn)方式具有
2、必要性。本章在介紹數(shù)據(jù)基礎知識的同時將把一些重要的知識點用程序操作的形式展現(xiàn)出來:基礎的矩陣運算、概率分布的計算;程序?qū)嵺`操作等。目錄線性代數(shù)概率論和數(shù)理統(tǒng)計最優(yōu)化方法777線性代數(shù)線性代數(shù)線性代數(shù)在數(shù)據(jù)科學研究的問題中,變量通常可以對應隨機變量。變量的數(shù)目也稱為 “元”,多變量分析也可以稱為“多元分析”。二元變量可以對應一個二維平面,兩個變量的值可以對應該平面中的坐標點。多元數(shù)據(jù)和向量線性代數(shù)以此類推,N元變量可以對應一個N維空間。在數(shù)據(jù)框中,每一行代表一個樣本,每一個樣本對應空間中的一個點,也稱為樣本點。在線性代數(shù)里,可以用向量來代表N維空間中的點,無論N為多少維,都可以很容易地和二維平面
3、中的情況進行類比。高維空間中多樣本的問題可以很輕松地轉(zhuǎn)化為向量和矩陣運算的問題。向量的定義向量和坐標向量和坐標向量數(shù)乘向量定義和數(shù)乘代碼向量數(shù)乘向量定義和數(shù)乘的代碼如下所示:向量加法如果兩個相同維數(shù)的向量可以進行加法運算。向量加法表示將兩個向量的各元素分別相加:其幾何意義表示兩個向量組成的平行四邊形的對角線。向量加法向量加法很像中學物理中計算合力的“平行四邊形法則”,實際上力就是向量(有些領域也稱矢量),具有大小和方向,計算合力就是做向量加法。向量內(nèi)積向量內(nèi)積代碼向量基礎向量基礎矩陣運算矩陣運算矩陣數(shù)乘矩陣加法矩陣加法定義矩陣和矩陣加法的代碼矩陣乘法矩陣乘法矩陣乘法矩陣乘法的代碼方陣如果一個矩
4、陣的行數(shù)與列數(shù)相等,則稱為方陣。除主對角線(左上到右下)外其他數(shù)值全為0的方陣稱為對角矩陣。對角線上的值都為1的對角矩陣稱為單位矩陣,如下所示:單位矩陣與任何矩陣相乘(假設維數(shù)相符)都等于原矩陣。方陣的運算矩陣的秩非奇異矩陣矩陣求逆矩陣求逆的代碼正交矩陣與矩陣的跡343434概率論和數(shù)理統(tǒng)計概率論的由來一般認為,概率論是由法國數(shù)學家、物理學家帕斯卡于1654年創(chuàng)立的。他在和法國數(shù)學家費馬的通信中討論一個計算賭資的題目,對于這一類的不確定問題,提出了很多清晰而全面的解決方案。1812年,法國數(shù)學家拉普拉斯出版了Analytical Probability Theory, 標志著古典概率論的完善。
5、他對概率進行了一個直觀的定義:“概率,指的是合適情況的個數(shù)占所有可能發(fā)生的情況的個數(shù)的比例”。1933年,在現(xiàn)代測度論的基礎上,蘇聯(lián)數(shù)學家柯爾莫哥洛夫建立了概率論的公理化系統(tǒng),其著作Foundations of the Theory of Probability的出版是現(xiàn)代概率論誕生的標志事件。隨機試驗伯努利試驗隨機變量隨機事件分布離散型隨機變量與分布律計算分布律的代碼計算分布律的代碼連續(xù)型隨機變量與分布函數(shù)連續(xù)型隨機變量與分布函數(shù)正態(tài)分布正態(tài)分布正態(tài)分布的密度函數(shù)連續(xù)型隨機變量的計算正態(tài)分布的相關計算連續(xù)型隨機變量的計算連續(xù)型隨機變量計算概率代碼總體總體與樣本總體與樣本隨機變量的期望隨機變量
6、的期望統(tǒng)計量的定義常用的統(tǒng)計量常用的統(tǒng)計量使用程序代碼計算樣本的均值、中位數(shù)、最大值、最小值:575757最優(yōu)化方法定義最優(yōu)化方法是在所有的可行方案中找出最優(yōu)方案的方法。最優(yōu)化方法嚴格來說并不是數(shù)據(jù)分析的方法,因為它不是從歷史數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和建立模型。但最優(yōu)化方法是數(shù)據(jù)科學中不可或缺的重要方法。可以根據(jù)模型的數(shù)學公式推導求得精確的解析解。通過一些算法來求得近似的數(shù)值解。最優(yōu)化算法的實現(xiàn)在實際應用中,很多經(jīng)典的算法已被軟件或者運算庫實現(xiàn),用戶最主要的工作是將要解決的實際問題轉(zhuǎn)化為數(shù)學問題,然后建立最優(yōu)化模型并調(diào)用算法進行求解。優(yōu)化軟件示例無約束的非線性規(guī)劃問題轉(zhuǎn)化與求解求解算法迭代法:從一個初始
7、點出發(fā),沿著某個方向搜索,得到新的函數(shù)值,然后在新的點上確定新的搜索方向,繼續(xù)搜索新的點。基于某個點的搜索,如果搜索的方向確定,那么尋找下一個點的問題就變成了一維搜索的問題。如果目標函數(shù)的值在不斷減小,這樣的算法就稱為下降算法;如果目標函數(shù)的值會收斂, 就說明可以找到極值。在算法的設計中,常用的有平分法和黃金分割法。一維搜索求解求解算法在R的函數(shù)中,“optimize”函數(shù)可以進行一維搜索:“Rosenbrock香蕉函數(shù)”的求解“Rosenbrock香蕉函數(shù)”的求解Rosenbrock香蕉函數(shù)的三維圖如下:在山谷中函數(shù)值變化并不大,因此不容易搜索到全局最小值,這個函數(shù)也成了用來測試優(yōu)化算法的常
8、用的函數(shù)。Rosenbrock香蕉函數(shù)R定義目標函數(shù)通過R進行規(guī)劃求解R中自帶的“optim”函數(shù)可以進行規(guī)劃求解。定義目標函數(shù)的方式如下:傳入一個參數(shù)x,每個自變量用向量x的分量來表示。通過R進行規(guī)劃求解在很多優(yōu)化算法中,需要用到函數(shù)的梯度。如果能夠顯式地傳入梯度函數(shù)的形式,那么對于計算將會產(chǎn)生很大的便利。在“optim”函數(shù)中可通過gr 參數(shù)來接納目標函數(shù)的梯度函數(shù),默認為NULL,表示R來自行計算近似值。例如二元函數(shù),可以很容易地通過微分來得到其梯度:傳入梯度函數(shù)代碼示例帶約束的非線性規(guī)劃在很多優(yōu)化問題中,通常還存在約束條件,如:這個優(yōu)化問題將不再搜索整個空間,而是要在滿足約束條件的前提下求最優(yōu)解。帶約束的規(guī)劃求解通過R進行規(guī)劃求解可利用R中自帶的“constrOptim”函數(shù)來求解:線性規(guī)劃線性規(guī)劃的幾何角度線性的約束條件對應幾何
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《乘用車營銷策略手冊》課件
- 單位食堂洗菜工的年終總結(jié)范文(7篇)
- 2025年建筑工地工作實習總結(jié)報告(5篇)
- 2025助學質(zhì)押借款合同書(15篇)
- 《春季護膚小常識》課件
- 清理林地施工方案
- 學生愛校如家演講稿(4篇)
- 土方開挖工程承包合同(13篇)
- 2025總監(jiān)工作總結(jié)(15篇)
- 2025年西安貨車叢業(yè)資格證考試題
- 跨語言文本生成-全面剖析
- 天車培訓考試題及答案
- 預見性護理及早期風險識別
- 中途入伙開店協(xié)議書
- 外科學普外科試題及答案
- 西安信息職業(yè)大學《形勢與政策(7)》2023-2024學年第一學期期末試卷
- 《集中用餐單位落實食品安全主體責任監(jiān)督管理規(guī)定》解讀與培訓
- 100MW山地光伏(漁光互補)項目質(zhì)量驗收范圍劃分表
- 行政管理專科畢業(yè)論文-我國基層社會治理存在的問題及對策
- 洗滌機械的裝配與調(diào)試技巧考核試卷
- 中考道德與法治一輪專題復習課件專題二十二 世界舞臺上的中國(含答案)
評論
0/150
提交評論