人工智能 課件 第五章 機器學習_第1頁
人工智能 課件 第五章 機器學習_第2頁
人工智能 課件 第五章 機器學習_第3頁
人工智能 課件 第五章 機器學習_第4頁
人工智能 課件 第五章 機器學習_第5頁
已閱讀5頁,還剩74頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能第5章機器學習本章提綱5.1機器學習基礎5.2神經網絡5.3深度神經網絡5.5機器學習在電力工程中的應用5.4學習技巧本章提綱5.1機器學習基礎5.2神經網絡5.3深度神經網絡5.5機器學習在電力工程中的應用5.4學習技巧5.1.1機器學習的基本概念什么是學習系統改進其性能的過程獲取知識的過程技能的獲取事物規律的發現過程綜合來看,學習是一個有特定目的的知識獲取過程,具體表現為對知識、經驗、規律進行學習,以達到性能優化、環境適應和自我完善。機器學習使計算機完成上述的學習功能,通過自動或被動的知識、技能獲取,為之后的人工智能應用進行準備。5.1.2機器學習的研究歷史20世紀50年代中期研究工作:應用決策理論的方法研制可適應環境的通用學習系統基本思想:給系統一組刺激、一個反饋源和修改自身組織的自由度,系統就可以自適應地趨向最優組織代表:羅森布拉特(Rosen-blatt)的感知器20世紀70年代中期研究方向:用邏輯的演繹及歸納推理代替數值的或統計的方法重要成果舉例:斯托夫的指導式學習、溫斯頓和卡鮑尼爾的類比學習以及米切爾等人提出的解釋學習20世紀80年代到21世紀初研究特點:符號學習和連接學習取得較大進展,開始把符號學習與連接學習結合起來進行研究重要成果舉例:里奇(E.Rich)開發的集成系統5.1.3機器學習的分類演繹學習以演繹推理為基礎的學習非監督學習在不提供或不足量提供顯式反饋的情況下,完成對輸入分布的學習可分為無監督學習、半監督學習和自監督學習(1)無監督學習不依賴任何標簽值,通過挖掘數據本身的結構或特征完成任務主要包括:①聚類(K-means,譜聚類等)②降維(線性降維:PCA等;非線性降維:SOM、KernelPCA等;圖上降維:圖嵌入等)③離散點檢測(主要應用于異常檢測)5.1.3機器學習的分類非監督學習(2)半監督學習讓學習器不依賴外界交互,自動利用未標記樣本提升學習性能分類:①無標簽數據預訓練網絡后有標簽數據微調②利用從網絡得到的深度特征來做半監督算法(3)自監督學習標注源于數據本身,而非人工標注主要用于特定類型數據的生成,其生成的數據可用于預測、調試優化模型等強化學習人工智能在強化序列(獎賞和懲罰組合的序列)中學習5.1.3機器學習的分類監督學習

本章提綱5.1機器學習基礎5.2神經網絡5.3深度神經網絡5.5機器學習在電力工程中的應用5.4學習技巧5.2.1神經網絡的基本特點感知器

神經網絡結構構成:輸入層、隱藏層、輸出層組成單元:感知器學習過程:輸入數據的前向傳遞、損失值的反向傳播和梯度優化。5.2.2激活函數

Sigmoid函數5.2.2激活函數

ReLU函數5.2.3神經網絡的學習機理輸入數據在神經網絡中的前向傳遞損失值在神經網絡中的反向傳播基于反向傳播梯度的可訓練參數優化神經網絡的學習步驟

輸入數據在神經網絡中的前向傳遞5.2.3神經網絡的學習機理損失值在神經網絡中的反向傳播反向傳播時,根據損失函數對各w和b的導數,可以判斷每個參數的變化方向,再乘以學習率就可以獲得每個參數的更新方式。以一個三層神經網絡為例:輸出為:損失為:以第一層為例求取損失對網絡參數的導數:結合預設的學習率進行參數更新:5.2.3神經網絡的學習機理基于反向傳播梯度的可訓練參數優化傳統梯度下降法存在著兩點缺陷:訓練速度慢:每一步都要計算調整下一步的方向,下山速度變慢容易陷入局部最優解:當落入鞍點時梯度為0,參數不再繼續更新批訓練對于含有n個訓練樣本的數據集,每次參數更新,選擇一個大小為m的樣本集作為更新參數的依據特點:既保證了訓練的速度,又能保證最后收斂的準確率隨機梯度下降法每次利用SGD法更新參數時,隨機選取一個計算梯度特點:在樣本量很大時也有較快地訓練速度;每次迭代方向具有隨機性;不能保證很好的收斂性5.2.3神經網絡的學習機理自適應學習率算法

學習率學習率是對訓練影響最大的超參如果學習率太小,則梯度很大的參數會有一個很慢的收斂速度如果學習率太大,則參數可能會出現不穩定的情況對于同一模型中的不同參數,最合適的學習率很可能并不相同自適應學習率算法主要有:AdaGrad、RMSProp、AdaDelta、Adam算法及其變體等5.2.3神經網絡的學習機理自適應學習率算法

5.2.3神經網絡的學習機理自適應學習率算法

5.2.4線性分類器神經網絡在有監督的分類任務中的作用機制以簡單線性模型為例

本章提綱5.1機器學習基礎5.2神經網絡5.3深度神經網絡5.5機器學習在電力工程中的應用5.4學習技巧5.3.1神經網絡的結構前饋神經網絡每個神經元只與前一層的神經元相連,各層神經元之間無連接各層間沒有反饋,數據正向流動不考慮輸出與輸入在時間上的滯后效應,只表達映射關系學習主要采用誤差修止法(如BP算法),計算過程較慢,收斂速度也較慢反饋神經網絡又稱遞歸網絡、回歸網絡層間神經元有連接數據可以在同層間流動或反饋至前層考慮輸出與輸入間在時間上的延遲,需要動態方程描述系統的模型主要采用Hebb學習規則,一般情況下計算的收斂速度很快更適合應用在聯想記憶和優化計算等領域5.3.1神經網絡的結構循環神經網絡當前使用最廣泛的反饋神經網絡模型例: Ilikeeatingapple!

TheAppleisagreatcompany!

通過對上下文的綜合考慮,正確識別apple的語義應用領域:①自然語言處理②機器翻譯③語音識別④圖像描述生成⑤文本相似度計算⑥音樂推薦、商品推薦、視頻推薦等代表性模型:門控循環神經網絡、長短期記憶神經網絡5.3.1神經網絡的結構生成對抗網絡(GenerativeAdversarialNetwork,GAN)通過分別訓練生成模型G和判別模型D,實現更準確的生成生成模型G:生成看起來自然真實的、和原始數據相似的實例判別模型D:判斷實例是真實的還是偽造的不需要人為標注的樣本一般用于非監督學習的樣本生成若實現利用標簽、文本生成圖片等較為復雜的工作,則需要人為標注來控制模型的學習方向5.3.2前饋神經網絡——卷積神經網絡

卷積層5.3.2前饋神經網絡——卷積神經網絡權值共享:在每個深度切片上的結果都使用同樣的權重和偏差擴張:讓濾波器中元素之間有間隙,可以使有效感受野迅速增長卷積層卷積層大小選擇(1)幾個小濾波器卷積層的組合比一個大濾波器卷積層好(2)輸入層應該能被2整除很多次。如32,64,96或224,384和5125.3.2前饋神經網絡——卷積神經網絡作用:逐漸降低數據體的空間尺寸,減少網絡參數的數量;使得計算資源耗費變少;有效控制過擬合池化方式:最大池化、平均池化、L-2范式池化等反向傳播:池化層5.3.2前饋神經網絡——卷積神經網絡作用:將卷積層、池化層學到的“分布式特征表示”映射到樣本標記空間全連接層5.3.3前饋神經網絡——圖神經網絡

圖的定義圖神經網絡旨在將卷積推廣到圖領域。在這個方向上的進展通常分為頻譜方法(SpectralMethod)和空間方法(SpatialMethod)。圖神經網絡5.3.3前饋神經網絡——圖神經網絡方法原理:通過計算圖拉普拉斯算子的特征分解,在傅立葉域中定義卷積運算。將原始的處于空域的圖信號變換到頻域上之后,對頻域屬性進行濾波,然后再恢復到原來的圖信號所在的空域中,從而完成了對圖信號的降噪與特征提取的功能。關鍵缺陷:需要將整個圖的信息載入內存中,這使得其在大規模的圖結構上不能有效的進行應用。頻譜方法方法原理:只在空間相鄰的鄰居上進行計算,瞄準圖中的每個子圖,而不是整張圖,在處理大規模網絡時更不容易陷入局部最優或過擬合。挑戰:針對不同節點度的節點組成的子網,需要分別設計卷積核,當前有四種常用的網絡類型,分別是NeuralFPS、LGCN、MoNeT和GraphSAGE。空間方法5.3.3前饋神經網絡——圖神經網絡(1)NeuralFPS方法:對度不同的節點,使用不同的權重矩陣。缺點:不能應用在大規模圖結構中,因為它的節點具有很多不同的度。空間方法(2)LGCN方法:LGCN基于可學習圖卷積層(LGCL)和子圖訓練策略。LGCL利用CNN作為聚合器。它對節點的鄰域矩陣進行最大池化,以獲取前k個要素元素,然后應用1-D卷積來計算隱藏表示。5.3.3前饋神經網絡——圖神經網絡(3)MoNet首先對圖中的每個節點進行特征表示。然后為每個節點計算偽坐標,這些坐標考慮了節點及其鄰居節點的特征。MoNet為節點與其鄰居之間的關系確定不同的權重,這些權重基于節點特征通過學習得到。通過加權求和鄰居節點的偽坐標,更新每個節點的特征表示,從而捕捉節點間的復雜關系。MoNet方法流暢連貫的處理方式使其能夠適應不同的圖結構和應用需求,實現高效的圖卷積操作??臻g方法5.3.3前饋神經網絡——圖神經網絡(4)GraphSAGE首先在目標節點的鄰居中進行隨機采樣,以此降低計算量并捕捉局部圖結構。隨后,這些鄰居節點的特征與目標節點自身的特征相結合,通過一個可學習的聚合函數進行特征融合。得到的聚合特征隨后被送入一個轉換層,以生成目標節點的新特征表示。最終,每個節點都被賦予一個固定大小的嵌入向量。GraphSAGE的優勢在于其對大型圖數據集的高效處理能力以及生成的節點嵌入的高質量。空間方法5.3.3前饋神經網絡——圖神經網絡在傳播過程引入注意力機制,這允許模型動態地關注不同鄰居節點的不同程度。節點-鄰居對的計算是可并行化的,運算效率很高可以處理不同程度的節點,并為其鄰居分配相應的權重可以很容易地應用于歸納學習問題。是一種局部網絡,無需了解整個圖結構,只需知道每個節點的鄰節點即可。圖注意力網絡(GraphAttentionNetworks,GAT)5.3.4反饋神經網絡反饋神經網絡中,神經元可以互連,有些神經元的輸出會被反饋至同層甚至前層的神經元。代表性網絡:Hopfield神經網絡、Elman神經網絡、玻爾茲曼機等。Hopfield神經網絡一種單層對稱全反饋網絡,該網絡為一種基于能量的的模型。能量函數保證了向局部極小的收斂,使神經網絡運行穩定性的判斷有了明確的可靠的依據。根據激活函數不同,分為兩種:離散HopfieId網(DHNN)和連續Hopfield網(CHNN)。DHNN主要用于聯想記憶,輸入部分信息即可聯想到完整的輸出,即具有容錯性;CHNN主要用于優化計算,如旅行商TSP、調度等。5.3.4反饋神經網絡Hopfield神經網絡

5.3.4反饋神經網絡Hopfield神經網絡

離散Hopfield網絡可以用于聯想記憶,因此又稱聯想記憶網絡。Hopfield網絡實現聯想記憶需要兩個階段:(1)記憶階段:外界輸入數據使系統自動調整網絡權值,最終使系統具有若干個穩定狀態,即吸引子。吸引域半徑越大,說明聯想能力越強。(2)聯想階段:在聯想階段,對于給定的輸入模式,系統最終穩定收斂于某個吸引子。每個神經元的輸出都成為其他神經元的輸入,每個神經元的輸入都來自于其他神經元。5.3.4反饋神經網絡Elman神經網絡承接層:作為一步延時算子,達到記憶的目的,從而使系統具有適應時變特性的能力,增強了網絡的全局穩定性;關聯層:從隱含層接收反饋信號,每一個隱含層節點都有一個與之對應的關聯層節點連接。通過聯接記憶將上一個時刻的隱層狀態連同當前時刻的網絡輸入一起作為隱層的輸入,相當于狀態反饋。5.3.4反饋神經網絡門控循環神經網絡(GRU)提出目的:解決長期記憶和反向傳播中的梯度等問題

5.3.4反饋神經網絡長短期記憶神經網絡(LSTM)提出目的:解決門控循環神經網絡訓練過程中的梯度消失和梯度爆炸問題

5.3.4反饋神經網絡長短期記憶神經網絡(LSTM)

本章提綱5.1機器學習基礎5.2神經網絡5.3深度神經網絡5.5機器學習在電力工程中的應用5.4學習技巧5.4.1自監督學習自監督預訓練預訓練的效果主要取決于5個方面,分別是①準備語料庫;②語料符號化;③設計預訓練任務;④選擇預訓練模型;⑤選定預訓練學習方案。(1)語料庫方面:不同類型的語料庫,其文本特征也不盡相同。官方新聞、百度百科、維基百科等語料的噪音較小,而社交媒體的文本中會有較大的噪聲。此外,許多特定的領域包含許多特定詞匯。因此必須根據目標領域選擇預訓練語料庫,以達到良好的效果。(2)語料符號化方面:語料在符號化后會生成針對預訓練模型的字典,其中,每個特定的語料都會對應一種符號(1-hot向量)。符號化可以分為四類,詞語符號化、字母序列符號化、子詞符號化以及混合符號化。5.4.1自監督學習自監督預訓練(3)預訓練任務方面:預訓練任務是自我監督的,這些任務利用了偽標簽。數據屬性和預訓練任務的定義決定了偽標簽。預訓練任務的指定標準是在有足夠挑戰性的同時,與下游任務能較好的銜接。常用的預訓練任務包括:因果語言建模(CLM);掩蔽語言建模(MLM);替換符號檢測(RTD);混亂符號檢測(STD);隨機符號替換(RTS);翻譯語言建模(TLM);交換語言建模;下句預測(NSP);句序預測(SOP)等。5.4.1自監督學習自監督預訓練(4)預訓練模型方面:預訓練模型指的就是預訓練任務所用的神經網絡。Transformer是一個編碼-解碼結構的神經網絡,其中編碼過程用到了復數個編碼器。每次編碼都會將所有輸入數據輸入編碼器,得到一個或多個輸出,這個輸出將作為下一個編碼器的輸入。依次迭代,最終得到表征輸入數據的特征向量或矩陣。解碼部分的每個輸出都會與輸入相拼接,共同作為下一個解碼器的輸入。預訓練模型分為三種,一種只用編碼部分,一種只用解碼部分,還有一種兩個部分都用。5.4.1自監督學習自監督預訓練(5)學習方案方面:①從頭開始訓練:對沒有任何預處理的、參數隨機初始化的預訓練模型進行預訓練;對語料庫規模和訓練成本有著極大的需求。②連續預訓練:利用不對稱的專業語料對常見語料訓練出的預訓練模型進行進一步預訓練。③同時預訓練:在專業語料過少的情況下,從頭對通用語料和專業語料并行預訓練,用通用語料輔助訓練專業語料。④知識繼承訓練:將專業語料庫和已有通用語料預訓練模型的輸入輸出對共同用于訓練一個較小的預訓練模型。5.4.1自監督學習自監督預訓練預訓練模型適應下游任務的方法:(1)直接將預訓練模型的輸出作為下游任務的輸入特征;(2)將模型部分神經層進行微調后與下游任務的模型進行結合;(3)利用提示法對預訓練模型進行微調。GPT系列使用的方法就是提示法微調。具體做法為:將人為的規則給到預訓練模型,使模型可以更好地理解人的指令,以便更好地利用預訓練模型。例:輸入為"Ilovethismovie.",希望輸出的是"positive/negative"設置提示形如:"Themovieis___",然后讓模型用來表示情感狀態的答案(label),如positive/negative,甚至更細粒度一些的“fantastic”、“boring”等,將空補全作為輸出。5.4.1自監督學習自監督預訓練提示方法與微調方法的特點:提示更依賴預訓練模型中的任務;微調更依賴下游任務模型的再訓練。微調方法中:預訓練語言模型“遷就“各種下游任務。引入各種輔助任務損失值,將其添加到預訓練模型中,然后繼續預訓練,以便讓其更加適配下游任務。這個過程中,預訓練語言模型做出了更多的犧牲。提示方法中:利用各種下游任務使預訓練語言模型“回憶起”學習過的內容。需要對不同任務進行重構,使得它達到適配預訓練語言模型的效果,這個過程中,是下游任務做出了更多的犧牲。5.4.1自監督學習自監督預訓練提示方法的優點:給定一組合適提示,以完全無監督的方式訓練的單個語言建模就能夠用于解決大量任務。提示方法的設計:從提示的位置數量、模板的設計方法兩個方面完成。位置數量:主要取決于任務的形式和模型的類別。設計方法:手工設計一般基于人類自然語言知識,力求得到語義流暢且高效的模板;自動學習模板可以利用計算機技術自動學習并設計適配目標任務的模板,其中又可分為離散提示和連續提示。自動生成離散提示:自動生成由自然語言的詞組成的提示,因此其搜索空間是離散的。GPT系列模型使用的使離散生成提示。連續生成提示:直接用字典中的標記作為提示,將提示變成了可以簡單梯度下降求解的連續參數問題,實現機器對提示更直接的理解。5.4.1自監督學習自監督預訓練指示調整(instructiontuning)指示學習的問題更接近于選擇題,它的選項來自一個更小的集合,對于GPT-3.5而言,這個選項由GPT-3生成,通過人為標注GPT-3給出推測結果的準確性,并將這一結果凝聚成樣本,最終能用于GPT-3.5的學習。這種微調給模型來了更強大的能力,分別是:①能對人類的指令做出響應②能對未見過的指令進行反應③利用思維鏈進行推理的能力5.4.1自監督學習自監督降維

5.4.1自監督學習自監督生成

5.4.2半監督訓練目標:嘗試將大量的無類標簽的樣例加入到有限的有類標簽的樣本中一起訓練來進行學習,期望能對學習性能起到改進的作用,作用:避免了數據和資源的浪費,同時解決了監督學習的模型泛化能力不強和無監督學習的模型不精確等問題。形式:①歸納式半監督學習:假定訓練數據中的未標記樣本并非待測的數據;②直推式半監督學習:假定學習過程中所考慮的未標記樣本恰是待預測數據,學習的目的就是在這些未標記樣本上獲得最優泛化性能。5.4.2半監督訓練(1)平滑假設:位于稠密數據區域的兩個距離很近的樣例的類標簽相似;(2)聚類假設:當兩個樣例位于同一聚類簇時,它們在很大的概率下有相同的類標簽;(3)流形假設:將高維數據嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。從本質上說,這三類假設是一致的,只是相互關注的重點不同。其中流形假設更具有普遍性。預測樣例和學習目標之間的三種假設5.4.2半監督訓練(1)自訓練算法分為簡單自訓練、協同訓練與半監督字典訓練;簡單自訓練:用有標簽數據訓練一個分類器,然后用這個分類器對無標簽數據進行分類,這樣就會產生偽標簽或軟標簽。挑選你認為分類正確的無標簽樣本,把選出來的無標簽樣本用來訓練分類器。協同訓練:假設每個數據可以從不同的角度進行分類,不同角度可以訓練出不同的分類器,然后用這些從不同角度訓練出來的分類器對無標簽樣本進行分類,再選出認為可信的無標簽樣本加入訓練集中。半監督字典學習:先用有標簽數據作為字典,對無標簽數據進行分類,挑選出你認為分類正確的無標簽樣本,加入字典中。半監督學習算法5.4.2半監督訓練(2)基于圖的半監督算法最為廣泛應用的方法是標簽傳播算法。通過構造圖結構(數據點為頂點,點之間的相似性為邊)來尋找訓練數據中有標簽數據和無標簽數據的關系。是一種直推式的半監督算法,即只對訓練集中的無標簽數據進行分類。(3)半監督支持向量機利用結構風險最小化來分類;還用上了無標簽數據的空間分布信息,即決策超平面應該與無標簽數據的分布一致。半監督學習算法5.4.2半監督訓練(1)無標簽數據預訓練網絡后有標簽數據微調;(2)有標簽數據訓練網絡,利用從網絡中得到的深度特征來做半監督算法。半監督學習基本方法框架含義:運用已有的知識來學習新的知識,核心是利用已有知識和新知識之間的相似性,對新知識進行高效率的學習在機器學習領域中,遷移學習研究如何將已有模型應用到新的不同的、但是有一定關聯的領域中按學習方式可分為:基于樣本的遷移,基于特征的遷移,基于模型的遷移,基于關系的遷移。如果源域和目標域之間相似度不夠,則遷移結果并不理想,出現負遷移。遷移學習5.4.3特征嵌入定義:利用自監督學習技術實現輸入數據降維,為下游任務提供分布更合理數據的任務。必要性:(1)圖上數據只能使用數學、統計和機器學習的特定子集進行分析,而向量空間有更豐富的方法工具集;(2)嵌入是壓縮的表示,完成嵌入后的數據有更強的經濟性。分類:(1)頂點嵌入:每個頂點(節點)都用自己的向量表示進行編碼,通常用于在頂點級別執行可視化或預測;(2)圖嵌入:用單個向量表示整個圖。此嵌入用于在圖形的級別進行預測,在該級別可以比較或可視化整個圖形。挑戰:(1)屬性選擇:選擇嵌入應保留哪些圖形屬性;(2)可擴展性:嵌入方法應具有可擴展性,能夠處理大型圖;(3)嵌入的維數:實際嵌入時很難找到表示的最佳維數。圖嵌入5.4.3特征嵌入一種將單詞轉換為嵌入向量的嵌入方法。利用語義窗口來捕捉每個句子中的語義上下文,并通過對語義窗口進行滑動,學習每一個句子序列中不同語義上下文窗口中的單詞embedding。每個詞語都關聯著兩個詞向量,分別為中心詞向量和背景詞向量Skip-gram模型通過中心詞最大化背景詞出現的聯合概率分布,實現有效的詞嵌入表示。Word2vec通過引入負采樣和層次Softmax優化訓練,解決預測復雜度問題。負采樣在最大化背景詞出現概率的同時,最小化噪聲詞出現概率。5.4.3特征嵌入第一階段中采用截斷式隨機游走,把圖中每個節點的局部拓撲結構轉換成序列信息;第二階段中把Word2vec模型應用于階段一產生的序列數據,學習序列中每個節點的embedding表示DeepWalk模型5.4.3特征嵌入在圖結構中,節點間的相性存在兩種形態:(1)和近鄰節點之間的同質性;(2)和擔任類似結構角色的節點之間的結構性。有偏的隨機游走(BiasedRandomWalk)策略Node2vec模型p控制著返回上一跳節點的概率。當p取值小于1時,隨機游走生成的序列傾向于在同一節點附近徘徊,接近于BFS遍歷。q控制著游走到更遠節點的概率。當q取值小于1時,隨機游走生成的序列傾向于向更遠的結構進行探索,接近于DFS遍歷。5.4.3特征嵌入一階親密度和二階親密度:一階親密度代表圖中存在邊連接的節點之間的關系,二階親密度代表共享大部分鄰居的節點之間的關系。Line模型節點i和j之間的一階親密度建模(最小化節點間經驗分布和聯合分布之間的距離):二階親密度建模:實際使用的時候,對一階近鄰和二階近鄰分別訓練,然后將兩個向量拼接起來作為節點的向量表示。5.4.3特征嵌入Graph2vec方法包括三個步驟:(1)從圖中采樣并重新標記所有子圖。子圖是在所選節點周圍出現的一組節點。子圖中的節點距離不超過所選邊數。(2)訓練跳躍圖模型。圖類似于文檔。由于文檔是詞的集合,所以圖就是子圖的集合。在此階段,對跳躍圖模型進行訓練。它被訓練來最大限度地預測存在于輸入圖中的子圖的概率。輸入圖是作為一個熱向量提供的。(3)通過在輸入處提供一個圖ID作為一個獨熱向量來計算嵌入。嵌入是隱藏層的結果。由于任務是預測子圖,所以具有相似子圖和相似結構的圖具有相似的嵌入。Graph2vec模型5.4.4多任務學習定義:指同時學習多個相關任務,讓這些任務在學習過程中共享知識,利用多個任務之間的相關性來改進模型在每個任務上的性能和泛化能力。主要挑戰:如何設計多任務之間的共享機制常見共享模式:(1)硬共享模式(2)軟共享模式(3)層次共享模式(4)共享-私有模式5.4.4多任務學習多任務學習通常可以獲得比單任務學習更好的泛化能力,主要有以下幾個原因:(1)多任務學習比單任務學習的訓練集更大。由于多個任務之間有一定的相關性,因此多任務學習相當于是一種隱式的數據增強,可以提高模型的泛化能力。(2)多任務學習中的共享模塊需要兼顧所有任務,在一定程度上避免了模型過擬合到單個任務的訓練集,可以看作是一種正則化。(3)一個好的表示通常需要適用于多個不同任務,多任務學習的機制使得它會比單任務學習獲得更好的表示。(4)在多任務學習中,每個任務都可以“選擇性”利用其他任務中學習到的隱藏特征,從而提高自身的能力。5.4.5集成學習定義:組合多個弱監督模型以得到一個更好更全面的強監督模型Bagging(bootstrapaggregating)Bootstrap方法:是一種有放回的抽樣方法,目的為了得到統計量的分布以及置信區間。具體步驟為:1)采用重抽樣方法從原始樣本中抽取一定數量的樣本;2)根據抽出的樣本計算想要得到的統計量;3)重復上述步驟N次得到N個統計量T;4)根據這個統計量,計算出統計量的置信區間。利用bootstrap方法從整體數據集中采取有放回抽樣得到N個數據集,在每個數據集上學習出一個模型,最后的預測結果利用N個模型的輸出得到。例:隨機森林(RandomForest)由很多的決策樹組成,每一棵決策樹之間是沒有關聯的。預測的時候,每一棵樹的都對輸入進行預測,最后進行投票,哪個類別多,輸入樣本就屬于哪個類別。5.4.5集成學習Boosting主要也是學習一系列弱分類器,并將其組合為一個強分類器。AdaBoost(Adaptiveboosting)算法:剛開始訓練時對每一個訓練例賦相等的權重,然后用該算法對訓練集訓練t輪,每次訓練后,對訓練失敗的訓練例賦以較大的權重,讓學習算法在每次學習以后更注意學錯的樣本,從而得到多個預測函數。Stacking指訓練一個模型用于組合其他各個模型。首先訓練多個不同的模型,然后把之前訓練的各個模型的輸出為輸入來訓練一個模型,以得到一個最終的輸出。理論上,Stacking可以表示上面提到的兩種Ensemble方法,只要采用合適的模型組合策略即可。但在實際中,通常使用logistic回歸作為組合策略。5.4.6聯邦學習聯邦學習定義了機器學習框架,在此框架下通過設計虛擬模型解決不同數據擁有方在不交換數據的情況下進行協作的問題。在聯邦機制下,各參與者的身份和地位相同,可建立共享數據策略。由于數據不發生轉移,因此不會泄露用戶隱私或影響數據規范。為了保護數據隱私、滿足合法合規的要求。聯邦學習構成要素:數據源、聯邦學習系統、用戶。根據參與各方數據源分布的情況不同,聯邦學習可以被分為三類:橫向聯邦學習、縱向聯邦學習、聯邦遷移學習。5.4.6聯邦學習定義:在兩個數據集的用戶特征重疊較多而用戶重疊較少的情況下,把數據集橫向切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數據進行訓練。例:業務相同但是分布在不同地區的兩家企業,它們的用戶群體交集很小,但是用戶特征相同。此時,就可以使用橫向聯邦學習來構建聯合模型。工作節點代表的是模型訓練的數據擁有方,對本地的數據具有完全的自治權限,可以自主決定何時加入聯邦學習進行建模。在參數服務器中,中心節點始終占據著主導地位。聯邦學習則強調模型訓練過程中對數據擁有方的數據隱私保護。橫向聯邦學習5.4.6聯邦學習定義:在兩個數據集的用戶重疊較多而用戶特征重疊較少的情況下,把數據集按照縱向切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數據進行訓練。例:一家銀行,與同一個地方的電商。它們的用戶群體交集較大。用戶特征交集較小??v向聯邦學習將這些不同特征在加密的狀態下加以聚合,以增強模型能力??v向聯邦學習定義:在用戶與用戶特征重疊都較少的情況下,不對數據進行切分,而可以利用遷移學習來克服數據或標簽不足的情況。例:一家位于中國的銀行,和一家是位于美國的電商,兩家機構的用戶群體交集很小,數據特征也只有小部分重合。引入遷移學習解決單邊數據規模小和標簽樣本少的問題,從而提升模型的效果。聯邦遷移學習5.4.7自動化機器學習自動化機器學習,即一種將自動化和機器學習相結合的方式,是一個新的研究方向,它可以使計算機獨立完成更復雜的任務,從而解放人類的雙手。相較于傳統的機器學習方法,自動化機器學習有如下優勢:(1)自動化機器學習可以完全不用依賴經驗,由完整的數學推理的方式來證明。通過數據的分布和模型的性能,自動化機器學習會不斷評估最優解的分布區間并對這個區間再次采樣。所以可以訓練縮短時間,提升模型訓練效率。(2)自動化機器學習可以降低使用機器學習的門檻。本章提綱5.1機器學習基礎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論