




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章大數據管理與應用的數學基礎大數據管理與應用——主編:王剛副主編:劉婧、邵臻線性代數、優化和統計是大數據管理與應用的重要數學基礎,大數據管理與應用的核心要素是機器學習,機器學習中的數據表示、運算規則、模型性質、模型優化等均離不開這些數學基礎。在本章中你將了解線性代數、優化和統計的基本定義,掌握線性代數、優化和統計中的常用方法,從而為后續深人學習機器學習方法打下基礎。線性代數基礎優化基礎統計基礎第二章大數據管理與應用的數學基礎01線性代數基礎02優化基礎03統計基礎標量(Scalar)是一個單獨的數,它通常使用小寫的斜體變量進行表示。向量(Vector)是一列有序排列的數,它通常使用小寫的粗體變量進行表示。矩陣(Matrix)是一個二維數組,它通常使用大寫的粗體變量進行表示。張量(Tensor)是坐標超過兩維的數組。范數(Norm)在機器學習中有重要的作用,它能夠衡量向量或矩陣的大小,并滿足非負性、齊次性和三角不等式。1.1向量和矩陣
1.2向量和矩陣運算矩陣和向量求導矩陣和向量的導數有以下常用的運算規則:矩陣的跡運算的導數有以下常用運算規則:1.2向量和矩陣運算
1.3矩陣分解最優化問題在現實社會中,人們經常遇到這樣一類問題:判別在一個問題的眾多解決方案中什么樣的方案最佳,以及如何找出最佳方案。例如,在資源分配中,如何分配有限資源,使得分配方案既能滿足各方面的需求,又能獲得好的經濟效益;在工程設計中,如何選擇設計參數,使得設計方案既能滿足設計要求,又能降低成本等。這類問題就是在一定的限制條件下使得所關心的指標達到最優。最優化就是為解決這類問題提供理論基礎和求解方法的一門數學學科。在量化求解實際最優化問題時,首先要把實際問題轉化為數學問題,建立數學模型。最優化數學模型主要包括三個要素:決策變量和參數、約束或限制條件、目標函數。根據數學模型中有無約束函數分類,可分為有約束的最優化問題和無約束的最優化問題。2.1最優化
2.1最優化圖2-1凸集的幾何表示
2.1最優化
2.2無約束最優化問題
2.2無約束最優化問題Newton法最速下降法的本質是用線性函數去近似目標函數,可以考慮對目標函數的高階逼近得到快速算法,Newton法就是通過用二次模型近似目標函數得到的。具體算法步驟如下:共軛梯度法共軛梯度法的基本思想是在共軛方向法和最速下降法之間建立某種聯系,以求得到一個既有效又有較好收斂性的算法。擬Newton法擬Newton法不需要二階導數的信息,有時比牛頓法更為有效。擬Newton法是一類使每步迭代計算量少而又保持超線性收斂的牛頓型迭代法,條件類似于牛頓法。2.2無約束最優化問題一般性的約束優化問題:約束優化問題的最優性條件約束優化問題的最優性條件是指最優化問題的目標函數與約束函數在最優解處應滿足的充分條件、必要條件和充要條件,是最優化理論的重要組成部分,對最優化算法的構造及算法的理論分析都是至關重要的。Kuhn-Tucker必要條件二階充分條件2.3約束最優化問題罰函數法與乘子法根據約束的特點,構造某種“懲罰”函數,然后把它加到目標函數中去,將約束問題的求解轉化為一系列無約束問題的求解。這種“懲罰”策略將使得一系列無約束問題的極小點或者無限地靠近可行域,或者一直保持在可行域內移動,直至迭代點列收斂到原約束問題的最優解。這類算法主要有三種:外罰函數法、內罰函數法和乘子法。外罰函數法的懲罰策略是對于在無約束問題的求解過程中企圖違反約束的那些迭代點給予很大的目標函數值,迫使這一系列無約束問題的極小點(迭代點)或者無線的向容許集靠近。2.3約束最優化問題罰函數法與乘子法為使迭代點總是可行點,使迭代點始終保持在可行域內移動,可以使用這樣的“懲罰”策略,即在可行域的邊界上豎起一道趨向于無窮大的“圍墻”,把迭代點擋在可行域內,直到收斂到約束問題的極小點。不過這種策略只適用于不等式約束問題,并且要求可行域內點集非空,否則每個可行點都是邊界點,都加上無窮大的懲罰,懲罰方法也就失去了意義。2.3約束最優化問題
2.3約束最優化問題罰函數法與乘子法投影梯度法就是利用投影矩陣來產生可行下降方向的方法。它是從一個基本可行解開始,由約束條件確定出凸約束集邊界上梯度的投影,以便求出下次的搜索方向和步長,每次搜索后都要進行檢驗,直到滿足精度要求為止。2.3約束最優化問題罰函數法與乘子法簡約梯度法的基本思想是利用線性約束條件,將問題的某些變量用一組獨立變量表示,來降低問題的維數,利用簡約梯度構造下降可行方向進行線性搜索,逐步逼近問題的最優解。2.3約束最優化問題
3.1概率與統計
3.1概率與統計
3.1概率與統計定量數據的圖形描述定量數據整理對定量數據進行統計分組是數據整理中的主要內容。根據統計研究的目的和客觀現象的內在特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質的組,稱為統計分組。頻數分布表反映數據整理的結果信息。將數據按其分組標志進行分組的過程,就是頻數分布或頻率分布形成的過程。單變量定量數據的圖形描述將定量數據整理成頻數分布形式后,已經可以初步看出數據的一些規律了。直方圖折線圖莖葉圖箱線圖3.2描述性統計定量數據的圖形描述多變量定量數據的圖形描述實際上往往只對一個變量進行數據分析是不能滿足研究目的的,通常把多個變量放在一起來描述,并進行分析比較。在討論兩個變量的關系時,首先可以對其定義分類。當一個變量可以視為另一個變量的函數時,稱為相關變量,通常也稱為反應變量。當一個變量對另一個變量有影響時,稱為獨立變量或解釋變量,通常它是可控的。散點圖是描述兩個數字變量之間關系的圖形方法。如果數據是在不同時點取得的,稱為時間序列數據,這時還可繪制線圖和面積圖。對于多組數據,我們可以依據同樣的方法來繪制箱線圖,然后將各組數據的箱線圖并列起來,以比較其分布特征。當有三個變量或指標時,使用多指標的圖示方法,目前這類圖示方法有雷達圖、臉譜圖、連接向量圖和星座圖等,其中雷達圖最為常用。3.2描述性統計定性數據的圖表描述定性數據的整理由于定性數據用來描述事物的分類,因此對調查收集的繁雜定性數據進行整理時,除了要將這些數據進行分類、列出所有類別之外,還要計算每一類別的頻數、頻率或比率,并將頻數分布以表格的形式表示出來,作為對定性數據的整理結果,這個表格就是類似于定量數據整理中的頻數分布表。單變量定性數據的圖形描述定性數據的頻數分布表可通過頻數分布表和累積頻數分布表來表示。如果以相應的圖形來表示這些分布表,則會使我們對數據特征及分布有更直觀和形象的了解。條形圖餅圖帕雷托圖3.2描述性統計定性數據的圖形描述多變量定性數據的圖形描述在管理實踐中,不同現象之間總有聯系,不可能是獨立的。因此,研究多個定性變量之間定性數據的圖形表示,對進行深入的統計分析,如回歸分析、聚類分析、因子分析等有重要的基礎意義。環形圖(CircleChart)能顯示具有相同分類且問題可比的多個樣本或總體中各類別所占的比例,從而利于比較研究。交叉表(CrossTable)是用來描述同時產生兩個定性變量的數據的圖形方法。多重條形圖(ClusteredBarChart)也是描述兩個定類或定序變量間關系的主要圖形方式。3.2描述性統計描述統計中的測度數據分布的集中趨勢測度集中趨勢(CentralTendency)是指分布的定位,它是指一組數據向某一中心值靠攏的傾向,或表明一組統計數據所具有的一般水平。對集中趨勢進行測度也就是尋找數據一般水平的代表值或中心值。對集中趨勢的度量有數值平均數和位置平均數之分。算術平均數調和平均數幾何平均數中位數眾數中位數3.2描述性統計描述統計中的測度數據分布的離散趨勢測度變量離散程度的度量則將變量值的差異揭示出來,反映總體各變量值對其平均數這個中心的離中趨勢。離散指標與平均指標分別從不同的側面反映總體的數量特征。只有把平均指標與離散指標結合起來運用,才能更深刻地揭示所研究現象的本質。極差分位差平均差方差與標準差標準差系數3.2描述性統計
3.3推斷性統計區間估計區間估計(IntervalEstimate)是在點估計的基礎上根據給定的置信度估計總體參數取值范圍的方法。在區間估計中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畜牧產品購銷合同書
- 股東內部股權轉讓合同書
- 農業機具采購合同范本
- 服裝漂染加工合同范本
- 童話風創意幼兒教育趣味模板
- 購買磁性磨料合同范本
- 2025餐廳裝修合同模板2
- 2025廢料交易合同模板
- 第21講 平行四邊形與多邊形 2025年中考數學一輪復習講練測(廣東專用)
- 2025合伙經營合同協議范本
- 2025年初級會計師考試的練習題解答試題及答案
- 湖南新高考教學教研聯盟暨長郡二十校聯盟2025屆高三年級第二次聯考地理試題及答案
- 中國礦山工程建設行業市場發展現狀及前景趨勢與投資分析研究報告(2024-2030)
- 貴州國企招聘2025六盤水市公共交通有限公司招聘合同制駕駛員30人筆試參考題庫附帶答案詳解
- 2025年《職業病防治法》宣傳周知識考試題庫300題(含答案)
- 貴陽語文初一試題及答案
- 機器人舞蹈表演行業深度調研及發展戰略咨詢報告
- 2025年北京市朝陽區高三一模地理試卷(含答案)
- 山西省晉中市榆次區2025年九年級中考一模數學試卷(原卷版+解析版)
- 2025年廣東省佛山市南海區中考一模英語試題(原卷版+解析版)
- 論公安機關刑事立案制度:現狀、問題與優化路徑
評論
0/150
提交評論