金融科技工具箱-pub course6.1機器學習_第1頁
金融科技工具箱-pub course6.1機器學習_第2頁
金融科技工具箱-pub course6.1機器學習_第3頁
金融科技工具箱-pub course6.1機器學習_第4頁
金融科技工具箱-pub course6.1機器學習_第5頁
已閱讀5頁,還剩34頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

201

9機器學習:緒論CONTENT01機器學習02機器學習簡單分類03界線噪音目標與樣本04Part01機器學習從人的學習到機器的學習機器學習的公式表達機器學習與其他概念1.1人是如何學習的1.1機器如何學習機器學習:基于數據,通過計算的結果,提升部分的表現MLdataPerformance

measure存在生成的規律:使得表現可以提升,且這種提升是有意義的計算適中:一方面不存在簡單規律(物理),另一方面在計算能力以內存在數據:有足夠的數據來描述pattern。(N,b,data)含義:幫助

決策是否應當使用機器學習1.2機器學習的公式表達MLdataPerformance

measure定義如下:輸入:

x

??

一系列特征,(例如

,職位,信用歷史)輸出:

y

??

指標,

(是否發生違約)數據生成過程,即存在目標函數

??:

?? →

??

(現實世界如何)數據,即存在一些已觀測值,

??

=

{

??

-

,

??-

,

??0,

??0

,

,

(??3,

??3)}

(已發生的事實)假設,那些能夠模擬數據生成過程的算法

??:

?? →

??

(學到的,執行的

算法){(??3,

??3)}

from

??

ML

??1.2機器學習的抽象未知目標函數??:

??

??部分數據=訓練集??

=

{

????,

????

,

,

(????,

????)}學習算法集合??計算結果??

??假設集合??機器學習:使用數據,通過計算尋找假設??使其接近目標函數??1.3機器學習與其他概念對比機器學習vs大數據大數據在

時候是商業概念,是宣傳所用,不應成為學術用語大數據有的大,數據量大為復雜算法帶來可能,b>N使得部分算法得到重視機器學習vs人工智能人工智能的概念范疇要比機器學習更大,機器學習只是一種實現方式類似的“實踐經驗”,靠譜的人工智能都有了更

的名字機器學習vs統計學二者關系相當復雜,這里面又有頻率學派、

學派的恩怨糾葛機器學習相當多的理論基礎、算法基于統計學,但機器學習始終在統計學的繩子上起伏機器學習vs計量經濟學從技術而言,計量經濟學大部分方法是機器學習中的一小部分從目的上講,機器學習的終極目標在于模擬數據生成模式,做出,實現操作上的“

”。計量經濟學的目的在于衡量因果、衡量影響,單純的

不足以滿足。計量應是對理論結果的驗證而非DMPart02機器學習的簡單分類結果的類型標的的類型訓練過程輸入類型2.1輸出結果的類型輸出空間為離散:二分類、多分類輸出空間為連續:回歸輸出結果為結構化:結構學習(文本樹)輸出結果為輸入2.2標的的類型有

的數據:有監督學習無

的數據:無監督數據理論上無法給出

&

實踐上無法給出聚類問題;密度估計;異常檢測有部分數據帶

:半監督學習有部分/隱含的:強化學習2.3按照訓練過程喂所有數據:Batch批處理一個個喂數據:online上面二者的結合:mini-batch讓算法自己吃自助:Active

Learning2.4按照數據類型特征數據:有具體的含義原始數據:圖像、聲音本身抽象(

)數據:無意義的uid,主成分,其他中間結果Part03機器學習的界限失效標的的類型訓練過程輸入類型3.1一道題3.1說一些

熟悉的東西一個熟悉的問題:R2高的回歸結果就一定好么一個熟悉的定理:大數定律Hoeffding不等式?? ??

?

?? >

?? ≤

2exp(?2??0??)3.1回到機器學習未知目標函數??:

??

??部分數據=訓練集??

=

{

????,

????

,

,

(????,

????)}學習算法集合??計算結果??

??假設集合??未知的一部分數據P

on

??3.1回到機器學習3.1如果無法數據抽樣的影響“壞數據”對于部分算法,樣本內外誤差偏差極大3.1壞數據上限即,如果 的假設集的大小M是有限的,當N足夠大時樣本內誤差與樣本外誤差的差距就會足夠小訓練方法能夠保證??MN差距夠小,那么??MN做的足夠小,如果又能保證??OPQ與也就完成了真正的機器學習3.1為什么如此關心這件事兒未知目標函數??:

??

??部分數據=訓練集??

=

{

????,

????

,

,

(????,

????)}學習算法集合??計算結果??

??假設集合??未知的一部分數據P

on

????MN與??RST差距是否足夠小??MN是不是能夠做的足夠小??MN(??)

0??OPQ(??)

03.1關于M:假設集的大小M實際上包含兩部分信息:納入分析的變量

變量間的組合關系M小的時候,很容易保證樣本內誤差與樣本外誤差差距很小,但是很難使樣本內誤差足夠小M大的時候,很容獲得高的樣本內誤差,但是壞數據帶來的影響會非常大3.1再議M,從何而來3.1真實情況下,M如何3.1M的增長:Breaking

point3.1M的增長:Breaking

point之后如果k=2

N=3,會怎樣?3.1M的增長:一個更合適的表達

B(N,k)B(N,k)123456123344563.1M的增長:一個更合適的表達

B(N,k)B(N,k)123456112222228841151633.1M的增長:B(N,k)的推導:B(4,3)3.1M的增長:B(N,k)的推導:B(4,3)3.1M的增長:VC定理3.1VC定理的含義??WX

?

??????????????

??

??.

??.

??b?? =

2

c3.1VC

dimension??WX

?

??????????????

??

??.

??.

??b?? =

2

c3.1VC

線性可分3.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論