




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大模型微調-第7章計算機科學與技術學院智周萬物?道濟天下o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2o
大模型訓練包括“預訓練”和“微調”兩個關鍵階段在預訓練階段,大模型通過在大量數據上進行訓練學習,已經掌握了豐富的語言規則、知識信息以及視覺模式。然而,在大規模(公開)數據上通過自監督學習訓練出來的模型雖然具有較好的“通識”能力(稱為基礎模型),卻往往難以具備“專業認知”能力(稱為專有模型/垂直模型)。大模型的預訓練成本非常昂貴,龐大的計算資源和數據讓普通用戶難以從頭開始訓練大模型。充分挖掘這些預訓練大模型的潛力,針對特定任務的微調不可或缺。大模型微調是將預訓練好的大模型參數作為起點,利用少量有標簽的數據進一步調整大模型參數,以適應特定的任務,使得大模型不僅僅停留在理解通用知識的層面,更能夠針對特定問題提供精準的解決方案。
大模型微調4o
有監督微調分為:全參數微調和參數高效微調全參數微調指的是在特定任務上對整個預訓練模型的所有參數進行更新。這種技術簡單直接,可以使模型適應新的任務。但是隨著模型參數規模變得越來越大,更新所有參數需要大量的計算資源。同時,當特定任務的數據量不足時,全參數微調容易導致過擬合。參數高效微調(Parameter-EfficientFine-Tuning,PEFT)是指固定預訓練模型的大部分參數,僅微調少量或額外的模型參數來達到與全參數微調接近的效果,甚至在某些情況下比全參數微調有更好的效果,更好地泛化到域外場景。
大模型微調o
指令微調過少量的、精心設計的指令數據來微調預訓練后的大模型,使其具備遵循指令和進行多輪對話的能力,以提高其在處理命令式語言和指令性任務時的性能和適應性。o
基于人類反饋的強化學習(ReinforcementLearningHumanForward,RLHF)微調:以人類的偏好作為獎勵信號,通過強化學習與人類反饋相結合的方式,指導模型的學習和優化,從而增強模型對人類意圖的理解和滿足程度。主要包括:獎勵模型微調和強化學習微調兩個階段。獎勵模型微調階段通過學習人類對模型輸出的評價(如喜好、正確性、邏輯性等)提供一個準確評價模型行為的標準。強化學習微調階段則基于獎勵模型來指導優化模型的行為。通過這種方式,基于人類反饋的強化學習微調能夠有效地將人類的智慧和偏好整合到模型訓練過程中,提高模型在特定任務上的性能和可靠性。o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2參數高效微調-增量式微調o
參數高效微調參數高效微調(PEFT)是在保持模型性能的同時,以最小的計算成本對模型進行微調,以適應特定任務或數據集的技術?,F有的參數高效微調可以大體分為增量式微調、指定式微調、重參數化微調三大類。o
增量式微調增量式(Addition-based)微調是在預訓練模型基礎上,僅僅調整少量添加的額外可訓練的層或參數,使模型能夠快速地適應新任務或數據集的技術。根據添加的額外參數的位置或方式不同,增量式微調技術可以分為適配器微調和前綴微調。適配器微調通常是指在預訓練模型的中間層或特定層中插入額外的小型網絡模塊(適配器),進行特定任務的優化。前綴微調指的是在模型的輸入端添加一個連續的任務特定向量序列(稱為前綴),這個向量序列與原始輸入一起進入模型,在參數微調時模型能夠“關注”這個前綴,從而引導模型生成更符合任務需求的輸出。參數高效微調-增量式微調-適配器(Adapter)微調o
適配器微調適配器微調(AdapterTuning)是一種在預訓練后的大模型中間層中,插入適配器(小型網絡模塊)來適應新任務的技術。在微調時將大模型主體凍結,僅訓練特定于任務的參數,即適配器參數,減少訓練時算力開銷。以Transformer架構為例,如左圖所示:o
圖解:在多頭注意力的投影和第二個前饋網絡的輸出之后分別插入適配器模塊。其中,每個適配器模塊主要由兩個前饋(Feedforward)子層組成,第一個前饋子層以Transformer塊的輸出作為輸入,將原始輸入維度(高維特征)投影到(低維特征)。在兩個前饋網絡中,安插了一個非線性層。在輸出階段,通過第二個前饋子層還原輸入維度,映射回原始維度,作為適配器的輸出。同時,通過一個跳躍連接將Adapter的輸入重新加到最終的輸出中,這樣可以保證,即使適配器一開始的參數初始化接近0,適配器也由于跳躍連接的設置而接近于一個恒等映射,從而確保訓練的有效性。加入適配器后的Transformer層主體架構以及適配器模塊結構,微調時處理適配器的參數,其余參數均凍住參數高效微調-增量式微調-前綴(Prefix)微調o
前綴微調前綴微調(PrefixTuning)在資源有限、任務多樣化的場景下具有顯著的優勢。它是基于提示詞前綴優化的微調技術,其原理是在輸入token之前構造一段與任務相關的虛擬令牌作為前綴(Prefix),然后訓練的時候只更新前綴的參數,而預訓練模型中的其他參數固定不變。以Transformer架構為例,如上圖所示:o
圖解:圖中展示了使用前綴微調技術實現表格轉換成文本(Table-to-Text)、總結(Summarization)和翻譯(Translation)這三個下游任務。以表格轉換成文本任務為例,輸入任務是一個線性化的表格“name:Starbucks|type:coffeeshop”,輸出是一個文本描述“Starbucksservescoffee.”。在輸入序列之前添加了一系列連續的特定任務向量表示的前綴參與注意力計算。前綴微調能夠有效地訓練上游前綴以指導下游語言模型,實現單個基礎模型同時支持多種任務的目標。前綴微調適用于涉及不同用戶個性化上下文的任務中。通過為每個用戶單獨訓練的前綴,能夠避免數據交叉污染問題,從而更好地滿足個性化需求。參數高效微調-增量式微調-前綴(Prefix)微調針對不同的模型結構,前綴微調需要構建不同的前綴,如下圖所示:o
回歸架構模型:在輸入之前添加前綴,得到z=[PREFIX;x;y],合適的上文能夠在固定預訓練模型的情況下引導生成下文,如GPT-3的上下文學習。o
編碼器-解碼器架構模型:編碼器和解碼器都需要增加前綴,得到z=[PREFIX;x;PREFIX0;y]。編碼器端增加前綴用來引導輸入部分的編碼,解碼器端增加前綴用來引導后續token的生成。回歸架構模型和編碼器-解碼器架構模型構造前綴的方式對比示意圖o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2參數高效微調-指定式微調o
指定式微調適配器微調和前綴微調通過引入少量額外的可訓練參數,實現了高效的參數微調。然而,當模型規模較大時,會導致部署困難及參數修改方式不夠靈活等。為了避免引入額外參數帶來的復雜性增加問題,可以選取部分參數進行微調,這種方法稱為指定式(Specification-based)微調。指定式微調將原始模型中的特定參數設為可訓練狀態,同時將其他參數保持凍結狀態。o
代表性方法之一:BitFit(Bias-termsFine-tuning)一種更為簡單、高效的稀疏微調策略,訓練時只更新偏置的參數或者部分偏置參數。對于每個新任務,BitFit僅需存儲偏置參數向量(這部分參數數量通常小于參數總量的0.1%)以及特定任務的最后線性分類層。如下圖所示,在每個線性或卷積層中,權重矩陣W保持不變,只優化偏置向量b。對于Transformer模型而言,凍結大部分Encoder參數,只更新偏置參數跟特定任務的分類層參數。涉及的偏置參數有注意力模塊中計算Query、Key、Value與合并多個注意力結果時涉及的偏置參數、MLP層中的偏置參數、歸一化層的偏置參數。BitFit需要更新的偏置參數示意圖o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2參數高效微調-重參數化微調o
重參數化微調(Reparametrization-based)重參數化微調通過轉換現有的優化過程,將其重新表達為更有效的參數形式。在微調任務中,微調權重與初始預訓練權重之間的差異經常表現出“低本征秩”的特性。這意味著它們可以被很好地近似為一個低秩矩陣。低秩矩陣具有較少的線性獨立列,可以被理解為具有更低“復雜度”的矩陣,并且可以表示為兩個較小矩陣的乘積。這一觀察引出了一個關鍵的點,即微調權重與初始預訓練權重之間的差異可以表示為兩個較小矩陣的乘積。通過更新這兩個較小的矩陣,而非整個原始權重矩陣,可以大幅提升計算效率。基于此思想,低秩適配(Low-RankAdaptation:LoRA)微調方法被提出,并引發了廣泛關注。o
LoRA微調LoRA微調指通過在預訓練模型中引入低秩結構來實現高效的參數微調。其核心思想是通過低秩分解來修改模型的權重矩陣,使其分解為較低維度的因子,從而減少在微調過程中需要更新的參數數量。參數高效微調-重參數化微調-LoRA全參數微調與LoRA微調的參數構成示意圖
參數高效微調-重參數化微調-LoRA變體o
自適應預算分配的參數高效微調(AdaptiveBudgetAllocationforParameter-EfficientFine-Tuning:AdaLoRA)由于LoRA為所有的低秩矩陣指定了唯一秩的設置,忽視了不同模塊、不同層參數在特定任務中的重要性差異,導致大模型的效果存在不穩定性。針對這一問題,自適應預算分配的參數高效微調(AdaLoRA)方法被提出,它在微調過程中根據各權重矩陣對于下游任務的重要性來動態調整秩的大小,以減少可訓練參數數量的同時保持或提高性能。o
量化高效(EfficientFine-TuningofQuantizedLLMs:QLoRA)微調量化高效微調(QLoRA)是大模型微調中一種提升模型在硬件上運行效率的技術。隨著大模型參數量的不斷增加,如擁有660億一個參數的超大模型LLaMA,其顯存占用高達300GB。在這樣的情況下,傳統的16bit量化壓縮存儲微調所需的顯存甚至超過了780GB,使得常規的LoRA技術難以應用。面對這一挑戰,QLoRA微調基于LoRA微調的邏輯,通過凍結的4bit量化預訓練模型來傳播梯度到低秩適配器。下圖展示了不同于LoRA微調和全參數微調QLoRA的創新之處,即它巧妙地結合了量化技術和適配器方法,以在資源受限的情況下提高模型的可訓練性和性能。o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2參數高效微調-混合微調
UniPELT方法示意圖參數高效微調-小結不同參數高效微調方法對比示意圖左圖展示了4種微調方法在Transformer模塊上的應用方式:適配器微調:設計適配器結構,在模型的適當位置插入適配器,僅微調適配器部分的參數。前綴微調:在輸入序列之前添加一個連續向量,僅微調前綴部分的參數。BitFit:僅調整模型的偏置參數。LoRA微調:引入低秩分解的矩陣,新增的矩陣權重可以與原始權重合并。適配器微調、前綴微調屬于增量式微調方法,它們通過引入額外的結構來微調參數;BitFit屬于指定式微調方法,專注于調整模型中的部分參數;LoRA微調屬于重參數化微調方法,將原始權重重參數化為原始矩陣與新增低秩矩陣的乘積權重之和。參數高效微調-小結名稱優點缺點適用場景適配器微調較低的計算成本和較好的性能增加模型層數,導致模型的參數數量和計算量增加,影響模型的效率,延長推理時間。當訓練數據不足或者適配器的容量過大時,可能會導致適配器過擬合訓練數據,降低模型的泛化能力適用于處理小數據集前綴微調只微調預訓練模型的前綴,就能達到與全參數微調相當的性能,減少了計算成本和過擬合的風險前綴token會占用序列長度,有一定的額外計算開銷適用于各種需要添加特定前綴的自然語言處理任務,如文本分類、情感分析等BitFit訓練參數數量極小
(約
0.1%)在大部分任務上的效果差于適配器微調、LoRA微調等方法適用于處理小規模到中等規模的數據集LoRA微調無推理延遲,可以通過可插拔的形式切換到不同的任務,易于實現和部署,簡單且效果好低秩矩陣中的維度和秩的選擇對微調效果產生較大影響,需要超參數調優適用于需要快速收斂且對模型復雜度要求較高的任務,如機器翻譯和語音識別等UniPELT多種微調方法混合涉及模型的不同部分,使得模型的魯棒性更好相比于單個微調方法訓練參數數量大,推理更耗時在低數據場景中相對于單個微調方法提升更顯著參數高效微調方法能夠有效減少微調所需的計算資源和時間,保持模型的整體性能穩定,不會對整個模型結構做出重大改變,可以在實際應用中幫助研究者更加輕松地優化大模型。參數高效微調方法具體分為增量式微調方法、指定式微調方法、重參數化微調方法以及多方法并用的混合微調方法。下表總結了常用的參數高效微調方法的優缺點及適用場景。在實際應用中,需要根據預訓練模型、具體任務和數據集等因素選擇合適的微調方法。o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2指令微調o
指令微調(InstructionTuning)模型在訓練階段存在一個關鍵問題,即訓練目標和用戶目標之間的不匹配問題。例如,大模型通常在大型語料庫上,通過最小化上下文詞預測誤差進行訓練,而用戶希望模型有效且安全地遵循他們的指令。為了解決這個問題,研究人員提出了指令微調技術,使大模型與人的任務指導或示例進行交互,根據輸入和任務要求進行相應調整,從而生成更準確、更合理的回答或輸出。指令微調利用<指令,輸出>數據集,以監督的方式進一步訓練大模型,彌合大模型的預測目標與用戶讓大模型遵循人類指令的目標之間的差距,讓大模型更好地適應特定應用場景或任務,提高輸出的質量和準確度。這里,指令代表人類提供給大模型的指令,即指定任務的自然語言文本序列,如“寫一篇關于某某主題的發言稿”“為游客出一份某某景點的旅游攻略”等;輸出代表遵循指令的期望輸出。也就是說,指令微調其實是一種特殊的有監督微調技術,特殊之處在于其數據集的結構,即由人類指令和期望輸出組成的配對,這種結構使得指令微調專注于讓模型理解和遵循人類指令。指令微調主要包含構建指令數據集和指令微調兩個關鍵步驟,如下圖所示:指令微調的通用架構指令微調-指令數據集構建o
指令數據集兩種構建方法:來自帶注釋的自然語言數據集的數據集成(DataIntegration),即從帶注釋的自然語言數據集,使用模板(Template)技術將文本標簽對(Text-labelPairs)轉換為<指令,輸出>對(Instruction-OutputPairs)。例如,Flan和P3數據集就是通過數據集成策略構建的。利用大模型基于指令生成輸出,例如,可以使用GPT-3.5-Turbo或GPT-4等大模型收集輸出。此方法包含兩個步驟:(1)通過人工收集的方式得到指令,或者先手寫少量指令然后用大模型來擴充指令;(2)將收集到的指令輸入大模型中以獲得輸出。InstructWild和Self-Instruct等數據集就是通過這種技術構建的。另外,對于多回合會話指令微調數據集,可以讓大模型扮演不同的角色(如用戶、AI助手)來生成會話格式的消息。目前,根據上述兩種方法構建的指令數據集一般可以分為三類:①泛化到未見任務:這類數據集通常包含多樣化的任務,每個任務都有專門的指令和數據樣例。模型在這類數據集上訓練后,可以泛化到未見過的新任務上。②在單輪中遵循用戶指令:這類數據集包含指令及其對應的響應,用于訓練模型單輪回復用戶指令。訓練后,模型可以理解指令并做出回復。③像人類一樣提供幫助:這類數據集包含多輪閑聊對話。訓練后,模型可以進行多輪交互,像人類一樣提供幫助。總體來說,第一類數據集側重任務泛化能力,第二類數據集側重單輪指令理解能力,第三類側重連續多輪對話能力。研究人員可以根據所需的模型能力選擇不同類型的數據集進行指令調優。o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2指令微調-指令微調技術o
指令微調階段基于構建好的高質量指令數據集對基礎大模型進行微調。指令微調的架構參考參數高效微調技術,即利用一小部分參數的更新來使得模型達到訓練效果。其主要技術如下表所示:o
參數高效微調技術方法原理優勢缺點LoRA將模型權重分解為低秩分量進行更新,使調優局限在相關任務子空間減少調優的參數數量,降低計算內存低秩分解可能削弱模型表征能力HINT使用超網絡根據指令和少量樣例生成參數化模塊進行模型調優可以處理長指令,避免重復計算調優模塊性能可能弱于全量調優Qlora對模型權重進行量化,只調整低秩適配器參數減少參數內存,兼容量化量化會損失部分精度LOMO融合梯度計算和更新,避免完整梯度存儲減少梯度內存占用需要精心設計保證收斂穩定Delta-tuning將調優參數限制在低維流形上。提供理論分析,參數高效。低維流形假設可能不夠準確o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2基于人類反饋的強化學習微調經過有監督微調,大模型已經初步具備完成各種任務的能力。但有監督微調的目的是使得模型輸出與標準答案完全相同,不能從整體上對模型輸出質量進行判斷。因此,模型不適用于解決自然語言及跨模態生成的多樣性問題,也不能解決微小變化的敏感性問題。強化學習將模型輸出文本作為一個整體進行考慮,其優化目標是使得模型生成高質量回復?;谌祟惙答伒膹娀瘜W習(ReinforcementLearningfromHumanFeedback,RLHF)是一種特殊的技術,用于與其他技術(如無監督學習、有監督學習等)一起訓練AI系統,使其更加人性化?;谌祟惙答伒膹娀瘜W習微調如下圖所示,其在多種常見的大語言模型(InstructGPT、ChatGPT等)上取得了很好的表現?;谌祟惙答伒膹娀瘜W習微調基于人類反饋的強化學習微調原始網絡數據,萬億級別token/word;公開數據集,比如CommonCrawl、Github代碼數據、維基百科等;數據量大、質量低名稱預訓練算法/任務/目標函數獎勵建模有監督微調強化學習數據集訓練模型備注模型準備:隨機初始化的GPT。語言建模經典的預訓練任務Next-Token-Prediction基線模型GPT3:幾千張V100GPU訓練幾個月,花費幾百萬美元。LLaMA:2048個A100GPU訓練了21天,花費500萬美元。模型準備:第一階段預訓練好的GPT模型語言建模預測下一個token模型準備:采用SFT訓練好的模型,訓練RM模型的時候,SFT模型參數凍結。二值分類預測與偏好一致的獎勵模型準備:監督微調模型+訓練好的獎勵模型,強化學習對監督微調后的模型繼續訓練。強化學習生成最大化獎勵的tokens比較模式獲取數據集,數據是問題模板+響應回答,回答由監督微調模型生成,生成多個回答,人工標注這些回答的排序,排序標注可能會很難且漫長,存在耗費幾個小時完成一個提問的回答排序。低數量、高質量監督微調模型獎勵模型,即一個打分模型,用來給GPT輸出的responses打分排序有監督微調后的GPT模型大約100張GPU訓練幾天即可完成,例如:基于LLaMA訓練的Vicuna-13B大約不到100張GPU訓練幾天。大約不到100張GPU訓練幾天例如:ChatGPT,Claude少量但是高質量的提問、回答數據,數量大約1w~10w條與RM模型訓練時一樣為比較模式,數據也是問題模板+響應回答的形式,回答由監督微調模型生成,并且生成多個,由獎勵模型對其進行打分指導(強化學習)基于人類反饋的強化學習(ReinforcementLearningfromHumanFeedback,RLHF)完整流程如下圖所示,包括預訓練、有監督微調、獎勵建模以及最后一步強化學習微調,接下來主要介紹獎勵建模和強化學習微調部分?;谌祟惙答伒膹娀瘜W習微調-獎勵建模o
獎勵建模獎勵模型源于強化學習中的獎勵函數,能對當前的狀態刻畫一個分數,來說明這個狀態產生的價值有多少。不同于基線模型和有監督微調模型,獎勵模型本身并不能直接提供給用戶使用,而是通過模型擬合人類打分結果,給出關于結果質量的反饋。香蕉是什么?A:一種酸水果C:一種猴子愛吃的...B:裝飾品...D:香蕉是一種黃色...從問題庫中選擇問題重復生成4次回答人工排序利用排序結果訓練獎勵模型DCAB>>=獎勵模型DCAB>>=(a)利用人工排序結果訓練獎勵模型排序后的輸出生成文本獎勵模型人工排序文本
........(b)獎勵模型訓練詳圖獎勵建模首先利用有監督微調模型生成回答數據,然后對這些回答進行人工排序,如圖(a)所示;然后基于數據和排序結果訓練獎勵模型,如圖(b)所示。獎勵模型的數據集以問題模板+響應回答的形式,由有監督微調模型生成多個響應回答,然后人工標注這些響應回答之間的排名順序。獎勵模型通過由人類反饋標注的偏好數據來學習人類的偏好,是一種模擬人類評估的過程。將有監督微調模型最后一層的非嵌入層去掉,剩余部分作為初始的獎勵模型。訓練模型的輸入是問題和答案,輸出是一個標量獎勵值(分數)。樣本質量越高,獎勵值越大?;谌祟惙答伒膹娀瘜W習微調-獎勵建模
o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2基于人類反饋的強化學習微調-策略優化
基于人類反饋的強化學習微調-PPO微調模型結構x:Adogis...初始化大模型........微調大模型(強化學習策略)........強化學習更新(例如:PPO算法)
獎勵模型文本
........
+凍住參數提示文本數據集基線文本y:afurrymammal××××××××RLHF微調文本y:man’sbestfriend××××××××基于人類反饋的強化學習微調-策略優化
o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2基于人類反饋的強化學習微調-案例講解
基于人類反饋的強化學習微調-案例講解
o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重參數化(Reparametrization-based)微調技術l
混合微調技術o
指令微調技術l
指令數據集構建l
指令微調技術o
基于人類反饋的強化學習微調技術l
獎勵建模l
強化學習微調-策略優化l
案例講解o
思考o
習題
目錄2思考參數高效微調、指令微調以及基于人類反饋的強化學習微調技術,構成了將預訓練的基礎大型模型有效應用于垂直領域的基石。目前,大模型通過微調技術已經取得了顯著進展。以人類所能理解的方式解釋大模型的行為,是可信地使用它們的基礎。然而,大模型仍然存在許多難以解釋的方面,這引發了人們對其應用和可信度的疑問。首先,當前大模型的工作原理很大程度上是一個黑盒,這意味著無法準確理解其內部運行機制。雖然有監督微調技術可以提升模型性能,但現有理論無法充分解釋“自監督預訓練+有監督微調+人類反饋對齊”方式所產生的大模型的強大能力和幻覺錯誤。因此,需要更多的基礎理論和方法來解釋大模型的行為,以使其更可信地應用于實際問題中。其次,針對大模型系統的可信度問題也需要深入思考。盡管大模型在許多任務中表現出色,但仍然需要解決如何確保在關鍵應用中使用這些模型時的可靠性和安全性。這可能涉及對模型的驗證和審計,以及對模型輸出的解釋和解釋能力的提高。最后,需要建立更深入的理解,以解釋大模型智能涌現現象。這些現象指的是模型在面對新任務或環境時表現出的出乎意料的智能和創造力。通過深入研究這些現象背后的原理,人們可以更好地理解模型的工作方式,并為未來的研究和應用提供更多的啟示,以更好地發揮大模型的潛力,推動AI技術的發展和應用。o
大模型微調概述l
研究背景o
參數高效微調技術l
增量式(Addition-based)微調技術l
指定式(Specification-based)微調技術l
重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國兒童牙刷行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國保險杠模具行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國余熱鍋爐行業市場深度調研及前景趨勢與投資研究報告
- 2025-2030中國傳統白板行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國人力資源管理(HRM)行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國二十二碳六烯酸(DHA)行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國不銹鋼保溫杯行業市場發展分析及發展趨勢與投資風險研究報告
- 2025-2030中國一氧化碳氣體報警器市場現狀調研與投資價值評估研究報告
- 2025-2030中國一次性雙層剃須刀行業市場發展狀況及發展趨勢與投資前景研究報告
- 金融科技服務合作保密協議
- 2025年AR眼鏡行業市場規模及主要企業市占率分析報告
- 日常小學生防性侵安全教育課件
- 浙江首考2025年1月普通高等學校招生全國統一考試 歷史 含解析
- 市政城市環境管理
- 2025辦公樓租賃合同書范本
- 2025中國煤炭地質總局招聘784人筆試參考題庫附帶答案詳解
- 2025年高考英語二輪復習測試04 從句綜合+語法填空(測試)(原卷版)
- 春季肝膽排毒課件
- 第12課 遼宋夏金元時期經濟的繁榮 教案2024-2025學年七年級歷史下冊新課標
- 《安全生產治本攻堅三年行動方案》培訓
- 警車安全駕駛課件大全
評論
0/150
提交評論