




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習及其應用
黃大威
2014年5月
機器學習是新興學科演化的產物機器學習的主要內容機器學習的基本方法機器學習的應用中醫脈診金融時間序列總結天下大勢,合久必分,分久必合。自然哲學(前科學)數學物理化學西醫中醫算學歷法西方中國農業工業概率統計信息時代是一個需要和產生通才的時代。機器學習是需要和培養通才的領域。信息化時代信息生物學計量經濟學生物力學數量金融工程生物光子學…………數字信號處理新興交叉學科生物物理生物化學生物統計機器學習機器學習演化及聯系凡是從數據中自動分析獲得規律,并利用規律對未知數據進行預測的方法都在機器學習的研究范圍中。無論是獲得規律,還是利用規律做預測,主要對象是隨機現象,因此統計方法是機器學習的主要工具。然而,作為交叉學科,與信息論,計算機科學及它們衍生的應用學科都有關聯;作為研究和使用規律的學科,機器學習比這些應用學科研究對象(如數據挖掘)更廣。反過來,由于信息及計算機科學與應用方面的參與,機器學習也創造了很多新方法,促進了統計的發展。概率論統計信息論數字信號處理通訊……計算機科學神經元網絡人工智能數據挖掘機器學習統計機器學習:實踐與理論的互動循環抽象思維的演繹能力使人類得以構建理論王國。她是有用的,在信息時代也是客觀存在的。建于0-1邏輯及存儲基礎上的計算機就是一個嚴格的理論世界。各種軟件都是基于0-1邏輯基礎上演繹出來的。演繹的結果是否正確,取決于前提假設。正確的假設只能從實際中歸納出來。假設是否正確,可由她演繹出來的結果與實際是否相符來檢驗。機器學習既能幫我們從數據中歸納出假設(無監督學習),也能幫我們在數據和假設的基礎上演繹出數學模型來(有監督學習)。同時,她在建模的過程中就強調驗證,用驗證來選擇模型。模型最終是否正確,還要新數據來檢驗。演繹概率論統計歸納數據假設數學模型驗證機器學習仍舊需要假設,但它又時時對所做假設抱有懷疑態度,在建模中就不斷用數據檢驗,最終以是否符合新的數據為標準。機器學習大觀無監督學習有監督學習數字信號處理生物信息學計量經濟學……增強學習數據展示畫圖聚類(cluster)主元素分析……我們教機器學習機器幫我們學習回歸與分類(classification)最小二乘,k近鄰法嶺回歸,Lasso交叉驗證,Bootstrap樹狀圖,AdaBoost隨機森林神經元網絡……考慮效果與控制規劃方法介紹1:最小二乘與K近鄰法最小二乘源于統計,是線性模型在高斯白噪聲情況下均方誤差意義最優解,在很一般性質噪聲情況下也有相容解。K近鄰法源于工程,但廣泛條件下它收斂于條件期望,后者是最小均方誤差意義下的最優估計。兩種方法均用于機器學習,優劣不可一概而論。一般而言,最小二乘適用于簡單問題,K近鄰法適用于復雜問題。方法介紹2:線性模型估計與認證傳統統計主要用最小二乘做參數估計;機器學習介紹了Ridge及Lasso等收縮估計以避免過擬合,具有魯棒性。傳統統計對變量選取有大量研究,如t-或F-檢驗,逐步回歸;較近代有AIC,BIC,MDL等。機器學習更多使用交叉認證及Bootstrap,但也不排除使用前述方法。交叉認證傳統統計得到估計量后常研究它對真實參數的收斂性;機器學習往往不假定真實模型的存在。個人看法:應假定隨尺度而變的近似模型。方法介紹3:決策樹在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。例子:根據屬性X1和X2對對象Y分類:Y=1超重,Y=2正常,X1
為飯量,X2為運動量。決策樹超重正常正常超重實例:檢測垃圾郵件From“Theelementsofstatisticallearning”byHastieetc.建樹方法選擇垃圾郵件中最可能出現的關鍵字符,例如$,hp,!,….根據歷史數據中這些字符在垃圾郵件和正常郵件中出現的頻率,制定相應規則(rule):當該字符出現頻率大于(或小于)某個值,就認為該郵件是垃圾或正常郵件。決策樹由一系列規則串聯組成,形成一個倒垂的樹狀結構。要點如何選擇關鍵字符?如何選擇變量和閾值?樹延伸到何處停止?常用算法CART(ClassificationandRegressionTree),ID3,C4.5,C5.0,…方法創新:主元素純潔樹PPT結構:二元樹,數據分為目標T與
背景B。規則:用主元素分析的方法在有監督學習中分步剔除B。選擇:用主元素法選取能最大限度剔除B的自變量(參數、屬性)組合。檢驗:用預留數據檢查樹的效能,決定樹的修剪和停止。軟決策:用近鄰法給出各個樣本屬于T類的概率估計。RootBB+TBB+TBB+TMakeTree:TrainingRootB+TB+TB+TB+TB+TB+TTestandUseTree:TestingT我個人應用機器學習的一點經驗基于脈博信號的中醫診斷數據模型特征信息提取數據展示(無監督學習)分類算法(有監督學習)軟件演示金融時間序列分析問題的數學與統計表述數據展示(無監督學習)分類算法(有監督學習)軟件演示如何用機器學習方法來從無確定性基本規律的現象中做科學的歸納和演繹?基于脈博信號的中醫診斷數據模型對大量不同人群用脈診儀對脈搏信號取樣,數字化后輸入計算機用計算機從脈搏信號中提取屬性,包括脈數(脈搏跳動次數)及左右手寸關尺六部的脈位、脈力、各諧波的能量和相位等等,共193個參數用我們開發的實現PPT算法的軟件平臺,從這些參數中提取有用信息來判斷是否是正常人?高血壓?肝硬化?妊娠?等等。軟件隨機選取80%的樣本建模,20%用于測試。中醫診脈方法簡介脈診的起源可追溯到公元前七世紀之前。“至今天下言脈者,由扁鵲也。”《史記》遵循中醫“人體是一個由經絡相連的整體”以及天人合一的觀點,通過“師承授受”的教育模式,逐步發展為以形象口訣(如盤走珠,如按蔥管,…)為特征的28脈理論。BC300AD200AD1400AD1700從三部九候到獨取寸口已有脈象數據分析方法:時間域
費兆馥等編著的“現代中醫脈診學”人民衛生出版社06年1月版圖2.5.2-2脈圖的幅值和時值h1:主波幅值;h3:重搏前波幅值;h4:降中峽幅值;h5:重搏波幅值;t1:急性射血期時值;t4:收縮期時值;t5:舒張期時值;t:脈動周期時值;W:主脈在h1上1/3處的時值等。28脈及其像圖、傳感器及計算機系統、實驗研究、臨床研究重博波潮波主波單個脈象周期的特征參數提取對劃分后的周期信號減去均值后,根據它的周期構造前W(不超過12)次諧波,用DFT得到Fourier系數。由Fourier系數即可構成單個周期的模型。基波振幅基波相位二次諧波振幅二次諧波相位均值最終特征參數12個諧波的能量分布(%)及相位脈數(心率)、脈位(周期起始值)和脈力(h1)時域參數t1,t4,h4/h1,t5,h5/h1每個案例中,使用同一的脈數,但左右手、寸關尺六部位上各取一個上述參數,共有6x32+1=193個參數優點:利用頻域參數及心率可相當準確地復原脈圖,從而可產生任何時域參數比簡單傅里葉變換更精確缺點:參數的醫學生物物理意義不明確使用無創、方便、簡易、便攜的診斷方法將是各國醫改成功的關鍵!探測金融市場的變化趨勢經濟學理論對市場有不同認識,如2013年諾貝爾經濟獎。我們的研究結果支持市場還是在一定程度上可預測的。普遍運用的技術分析(TechnicalAnalysis)方法是這一研究方向上的前驅,正在興起的量化方法(QuantitativeAnalysis)就是將機器學習和數據挖掘的方法運用于金融大數據中的試嘗。JamesSimons的故事。在本例中,我們運用PPT方法分析目標(價格波動的頂和底)對屬性(各種技術分析中使用的指標,如具有不同參數的滑動平均MA,RSI,MACD,RSV,…,等等共54xK個,K為延遲)的關系,從而預測金融市場價格波動的頂和底。金融市場數據分析的軟件平臺總結:機器學習方法示意圖理想王國現實世界概率分布目標函數模型數據專業知識真實參數驗證測試數據數據InGodwetrust,allothersbringdata.W.E.Deming我們信奉理論,但理論也需要實踐來檢驗。參考資料統計學習基礎:數據挖掘、推理與預測,黑斯蒂等,電子工業出版社,2007“Theelementsofstatisticallearning–Datamiming,inferenceandprediction”byHastie,TibshiraniandFriedman,2ndEdition,Springer,2009機器學習導論(計算機科學叢書)EthemAlpaydm,機械工業出版社2009/teacher_1688.shtml:83/videoinfo.asp?id=1727Basicrule:LetPTbethePCAtransformmatrixoftheTARGETdataclass,Xbethetotaldata,theacceptregionistheparallelgram:Forallcombinationsof2indicators,weusetheaboveruletocalculatethepuritydensityoftargetinR,thenchoosethetwopredictorswhichhasthehighestdensityforthecurrentnode.KeepaboveprocedureongoingwiththeselecteddataB+Ttillstop.Fromp(p-1)/2combinationschoosetheonewithhighestpuritydensityPPT的規則RootBB+TBB+TTB+TBFeatureSelectionPPT的自變量選擇Weuse54(1+d)technicalindicators,includingMACD,MAd,RSIandRSVwithdifferentparameters,asthepredictorsforpeaksortroughs,heredisthedelaytimeunit(day).Foreachk(=2)combinationofthesepredictors,findthetightregionroundingupalltargetsbyitsPCAtransform.Exhaustivesearchforallcombinationstogetthebestpredictorcombinationwithhighestpuritypercentagefortargetsinsidetheregion.parallelogramRisconstructedbythemaximaandminimaofPCAtransformPPT的檢驗Applytherulefortrainingdataandexaminethetworatios:
P(T|R)=NumberofTargetsinR/TotalNumberinR P(T|N)=NumberofTargetsinR/TotalNumberofTTestingP(T|R)measurestherandomnessoftargets,whiletestingP(R|T)examinesif“Historyrepeatsitself”or“Historyvalidforcurrent”.B
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 秋色中考語文作文
- 移動網絡安全防護與加密技術考核試卷
- 礦產勘查樣品處理與分析質量控制考核試卷
- 淀粉在寵物食品的營養配比考核試卷
- 企業安全生產培訓教材考核試卷
- 客運站服務創新與差異化發展考核試卷
- 烘焙食品銷售策略考核試卷
- 社交電商平臺的多元化發展與創新模式探索考核試卷
- 無線廣播電視傳輸中的信號傳輸距離擴展考核試卷
- 教案新人教版高一語文必修一第1單元檢測題
- 《中國鐵路發展簡史》課件
- 2024 Roadmap模板 真實項目案例 P PT可編輯 附配套方案【營銷干貨】
- 溫泉度假酒店項目可行性分析報告
- 文化產業股東權益合作協議書
- 數字華容道+課時2
- 2024年醫療器械經營質量管理規范培訓課件
- 小學語文教材的變遷
- 多式聯運智慧物流平臺構建方案
- 2024年21起典型火災案例及消防安全知識專題培訓(消防月)
- 2024年個人之間清賬協議書模板
- GB/T 36187-2024冷凍魚糜
評論
0/150
提交評論