




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第第頁對比解碼在LLM上的應用(深度學習)自然語言處理(原創)
:wkk
為了改進LLM的推理能力,UniversityofCalif(or)nia聯合Meta(AI)實驗室提出將ContrastiveDecoding應用于多種任務的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進論文一探究竟吧!
對比解碼(ContrastiveDecoding)
在走進論文之前首先介紹一下什么是對比解碼,其是由Li等人在2022年提出的一種文本生成方法,具有簡單、計算量小、訓練自由等特點。它通過查找到最大化強模型和弱模型之間可能性差異的字符串來生成文本,從而產生更多且更高質量的文本。在對比解碼中,弱模型可以是常規的貪心解碼方法,如一些簡單的采樣方法,強模型可以是經過訓練的大型語言模型。對比解碼可以在很多推理任務上表現出色,包括算術推理和多項選擇排名任務,可以提高語言模型的準確率。
本文創新點:探索對比解碼在LLM上的應用。具體地,通過最大化專家模型和較弱的業余模型之間存在的可能性誤差(如下圖所示)來搜索字符串,避免了專家模型中的不良影響和貪婪解碼會出現的采樣誤差問題。
實驗結論:通過在多種任務上的測試,本文證明了對比解碼可以提高大型語言模型在推理和文本生成問題上的性能,這是第一種同時在推理和文本生成問題上實現最先進結果的生成(算法)。此外,還分析了對比解碼的改進原因,并探討了該方法在常識推理和事實檢索方面的適用性。
實驗
實驗設置
模型:實驗采用LLaMA家族的原始模型,其中專家模型為LLaMA-65B,業余模型為具有1.5B的LLaMA模型。此外,在消融實驗中,本文還對FLAN-T5家族的模型進行實驗分析。
解碼(參數):α=0.1,為原始論文中相同的超參數:專家模型分配的最大概率的比例,任何標記都分配了較低的概率被屏蔽掉。β=0.5是對應于業余懲罰強度的超參數。將前導(1+β)系數包含在專家logits中,以將對比懲罰的強度與輸出logits的預期尺度解耦,描述了用于采樣的溫度的對比權衡之間的對比權衡。
prompt:對于生成任務使用8-shot的CoT。
數據集:聚焦代數問題的AQuA、ASDiv、GSM8K、SVAMP和MATH數據集,針對常識推理的CommonsenseQA、Stra(te)gyQA數據集以及AI2ReasoningChallenge、BooIQ、HellaSwag、MMLU、(PI)QA、SIQA和WinoGrande等基準數據集。
實驗結果
在GSM8K上的實驗表明,β=0.5能獲得更好的結果同時業余模型對于性能的提升可能大于專家模型。
對比解碼往往有助于全面完成具有CoT提示的算術推理任務。其中一個例外是MATH數據集,它被證明對標準解碼和對比解碼都具有挑戰性。推測因為對比解碼放大了專家比業余模型學得更好的技能,所以它對遠遠超出專家模型的任務沒有幫助。
在CommonsenseQA和StrategyQA數據集上實驗發現對比解碼會損害較小模型的性能。
對比解碼的影響
本文還進行了一系列附加實驗,研究表明,對比解碼可以在大型語言模型中提高推理能力。在算術推理和多項選擇排名任務上,包括LLaMA-65B這樣的大型模型,都有普遍的改進,這表明對比解碼可以使更大的模型受益。通過分析對比解碼改進的原因。實證表明,與貪婪解碼相比,對比解碼從提示中復制的表面層次較少,錯過的推理步驟也較少。這一結果表明,對比解碼通過減少模型分布中的短、重復或其他不良模式來起作用。
結論
使用對比解碼(ContrastiveDecoding)方法可以顯著提高大型語言模型在一系列推理任務中的準確性,這種方法不僅在生成文本方面表現優異,還可以在推理問題方面超越當前現有的各種模型。同時,該方法能夠減少模型分布中的短、重復或其他不良模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東科貿職業學院高職單招(數學)歷年真題考點含答案解析
- 2025年山西電力職業技術學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年山西旅游職業學院高職單招語文2019-2024歷年真題考點試卷含答案解析
- 2025年山東藝術設計職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年宣城職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 2025年寧夏幼兒師范高等專科學校高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年寧夏體育職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 腦梗死患者的護理教學查房
- 體態問題肌膚管理
- 思維課程對幼兒的好處
- 防流感班會課件
- 2025安徽蚌埠市國有資本運營控股集團有限公司招聘4人筆試參考題庫附帶答案詳解
- 2024年中國資源循環集團有限公司招聘筆試真題
- 2025年春季四年級下冊語文第15課《白鵝》課件(統編版)
- JGT266-2011 泡沫混凝土標準規范
- 宿舍教室報修維修登記表
- 核電廠運行規程3
- 現澆箱梁支架施工方案(共87頁結構圖多附現場照片)
- 自學考試——軍人心理咨詢與治療
- 實際問題與二元一次方程組說課稿12
- 上海名師應彩云_大班綜合活動+百家姓
評論
0/150
提交評論