大語言模型通識微課課件:大模型的微調_第1頁
大語言模型通識微課課件:大模型的微調_第2頁
大語言模型通識微課課件:大模型的微調_第3頁
大語言模型通識微課課件:大模型的微調_第4頁
大語言模型通識微課課件:大模型的微調_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型通識微課

大模型的微調有監督微調,又稱指令微調,是指在已經訓練好的語言模型的基礎上,通過使用有標注的特定任務數據做進一步的微調,使模型具備遵循指令的能力。通常,要對大模型進行微調,有以下一些原因:(1)因為大模型的參數量非常大,訓練成本非常高,每家公司都去從頭訓練一個自己的大模型,這個事情的性價比非常低;(2)提示工程是一種相對來說比較容易上手的使用大模型的方式,通常大模型的實現都會對輸入序列長度有限制,而提示工程會把提示搞得很長。提示越長,大模型的推理成本就越高。相對來說微調是更優方案。微課8.2大模型的微調(3)提示工程的效果如果達不到要求,企業又有比較好的自有數據,能夠更好的提升大模型在特定領域的能力。這時候微調就非常適用。(4)要在個性化的服務中使用大模型的能力,這時候針對每個用戶的數據,訓練一個輕量級的微調模型是個不錯的方案。(5)數據安全。如果數據不能傳遞給第三方大模型服務,那么搭建自己的大模型就非常必要。通常這些開源的大模型都需要用自有數據進行微調,才能夠滿足自身業務的需求。微課8.2大模型的微調微調的最終目的,是在可控成本的前提下,盡可能地提升大模型在特定領域的能力。從成本和效果的角度綜合考慮,PEFT(參數高效微調)是比較流行的微調方案。8.2.1微調技術路線從參數規模的角度,大模型的微調技術路線分成兩條。(1)對全量參數進行訓練,這條路徑叫全量微調(FFT),是用特定的數據對大模型進行訓練,這在特定數據領域的表現會好很多。但FFT訓練成本高;另外存在災難性遺忘,用特定訓練數據進行微調可能會表現變好,但也可能會把原來表現好的別的領域的能力變差。(2)只對部分參數進行訓練,這條路徑叫參數高效微調(PEFT)。PEFT主要想解決的是FFT存在的兩個主要問題,是比較主流的微調方案。8.2.1微調技術路線從訓練數據來源以及訓練方法看,大模型微調有以下幾條技術路線:(1)監督式微調,用人工標注的數據,通過傳統機器學習中監督學習的方法,對大模型進行微調;(2)基于人類反饋的強化學習微調,把人類反饋通過強化學習方式引入對大模型的微調中去,讓大模型生成的結果更符合人類的期望;(3)基于人工智能反饋的強化學習微調,這是想解決反饋系統的效率問題,因為收集人類反饋相對來說成本會比較高、效率比較低。不同的分類角度只是側重點不一樣,可以多個方案并舉。8.2.1微調技術路線提示微調的出發點是基礎模型的參數不變,為每個特定任務,訓練一個少量參數的小模型,在具體執行特定任務的時候按需調用。其基本原理是在輸入序列X之前,增加一些特定長度的特殊詞元,以增大生成期望序列的概率。具體是在Transformer模型的嵌入環節。將大模型比做一個函數,提示微調是在保證函數本身不變的前提下,在X前面加上一些特定的內容,而這些內容可以影響X生成期望中Y的概率。8.2.2提示微調前綴微調的靈感來源是提示工程的實踐,在不改變大模型的前提下,在提示的上下文中添加適當的條件,引導大模型有更加出色的表現。前綴微調的出發點跟提示微調是類似的,只不過在具體實現上有一些差異。提示微調是在嵌入環節,而前綴微調是在Transformer的編碼器和解碼器網絡中都加了一些特定的前綴,它也保證基座模型本身沒有變,只是在推理過程中,按需要在前面拼接一些參數。8.2.3前綴微調LoRA方法走了另一條技術路線,可以媲美全量微調的效果。LoRA有一個假設:現在看到的這些大模型都是被過度參數化的,其背后有一個低維的本質模型。通俗地說,大模型參數很多,但并不是所有的參數都發揮同樣作用。大模型的部分參數是影響生成結果的關鍵,這就是低維的本質模型。LoRA的基本思路是:首先,適配特定的下游任務,訓練一個特定的模型,里面主要是微調要得到的結果;其次進行低維分解;接著用特定訓練數據訓練。用LoRA適配不同的場景切換也非常方便,做簡單的矩陣加法即可。8.2.3LoRA方法量化是一種在保證模型效果基本不降低的前提下,通過降低參數的精度,來減少模型對于計算資源的需求的方法,其核心目標是降成本,降訓練成本,特別是降后期的推理成本。QLoRA就是量化版的LoRA,它是在LoRA的基礎上進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論