




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
證券研究報告2023年4月27日行業:傳媒增持
(維持)GPT-4引領認知革命Deep
Speed加速行業發展——GPT系列專題之二主要觀點我們將“AI+傳媒”的研究框架體系定義為“通用大模型”+“行業小樣本”的技術架構,“AI+傳媒”在應用層表現效力優劣的關鍵取決于通用大模型對垂直應用的適配程度及迭代速度,1、適配程度是指:多模態的輸入及輸出是否匹配應用層的輸入及輸出。比如GPT-4屬于“圖+文”多模態輸入+“文”單模態輸出,因此輸入模態為“圖或文”且輸出模態為“文”的垂直應用更適配GPT-4。2、迭代速度是指:應用層產生的“行業小樣本”的數據量是否匹配大模型的迭代要求。根據我們對GPT模型的理解,比如BingAI產生的“行業小樣本”源自Bing的搜索結果,ChatGPT產生的“行業小樣本”源自用戶的反饋和互動。因此我們認為,對于超出GPT所使用的預訓練數據庫范圍(2021年9月前)的事實性表述,BingAI反饋的是搜索的結果,ChatGPT反饋的是用戶主動的觀點,BingAI反饋的效果比ChatGPT更好。我們認為“行業小樣本”的價值取決于數據數量及數據質量,數量大且質量高(多模態)的應用場景復用及迭代AI能力的效力更強,因此更進一步理解我們的研究框架,我們將“行業小樣本”的結構分層(中層小模型+下層應用及內容),并將“行業小樣本”的結合方式分類(調用+訓練):1、“行業小樣本”的數據集來自小模型或應用及內容:AI產業鏈包括上層大模型、中層小模型、下層應用及內容,包括應用及內容直接接入大模型或通過小模型接入大模型兩種方式,即“大模型+應用及內容”或“大模型+小模型+應用或內容”,其中具備特定功能的AIGC軟件產品及MaaS我們理解為“小模型”+“應用”的技術范式,本身具備較高質量的AI能力,若接入匹配的多模態大模型,有望實現能力上的質變突破。2主要觀點2、“行業小樣本”的結合方式包括“能力調用”及“能力訓練”兩類:(1)“能力調用”是指下游垂類場景直接調用通用大模型的通用能力,并基于垂類場景內產生的特性化數據不斷提升調用能力在垂類場景內的適配程度。我們認為現階段下游應用及內容主要采取此類方式接入大模型能力,此類方式可高效快速調用大模型先進能力,在時間上及成本上具備優勢。我們認為“能力調用”匹配“AI+傳媒”的第一層利好,即通過AI降本增效,大幅提高數據及內容的供給量。內容產業本質由供給決定需求,因此內容供給量的明顯提升將有效帶動傳媒基本面拐點及增量空間出現。(2)“能力訓練”是指下游垂類場景將通用大模型針對特性化數據集進行再訓練,從而形成垂類場景專屬大模型。例如利用自身豐富的金融數據源,基于開源的GPT-3框架再訓練,開發出了金融專屬大模型BloombergGPT。我們認為“能力訓練”匹配“AI+傳媒”的第二層利好,即下游垂類場景本身的數據或內容反過來“再訓練”通用大模型(或開源大模型),形成傳媒內容場景專屬大模型,形成更穩定且高質的內容輸出。我們認為訓練難度文本<圖片<視頻<影視<游戲,且內容數量逐步遞減但內容質量逐步遞增,即偏后端的影視、游戲在內容數量上訓練量級不足,因此高質量的內容形態首先通過“能力調用”輸出AIGC內容,再將AIGC內容“再訓練”大模型以解決高質量內容數量不足的問題(合成數據“再訓練”范疇)。3主要觀點從投資的角度,按照我們的研究框架,傳媒對應垂類場景的“行業小樣本”,其核心價值取決于數據與內容,第一層對應數據與內容的輸入模態是否匹配大模型的輸出模態;第二層對應數據與內容的數量及質量是否匹配大模型的能力再訓練:1、按照“模態匹配”的邏輯,AI+文本/虛擬人預計率先兌現案例及業績,其次AI+圖片可通過“大模型”+“小模型”組合方式實現(如GPT+StableDiffusion、GPT+Midjourney)。隨著未來GPT-5提供更多模態的輸入及輸出,下游垂類場景的適配范圍有望擴大,通過“能力調用”適配的應用及內容場景更為豐富,因此后續“AI+視頻/影視/游戲”的案例兌現度存在新的催化空間。OpenAI最新發布的GPT-4核心特征包括:(1)多模態輸入(圖+文),單模態輸出(文),可以閱讀并總結論文內容、解答較高難度的物理題目、具備較強的OCR能力(如識別網頁草稿并按要求反饋網頁代碼)、理解人類社會常識;(2)具備長文字處理及推理判斷能力,GPT-4上下文上限約2.5萬字,允許使用長格式內容創建、擴展對話以及文檔搜索和分析等,能夠閱讀并記憶更多信息,且具備更高的推理判斷能力;(3)可靠性大幅提升,分辨能力提高,有效減少“虛構”或“有害”信息輸出。2、按照“能力再訓練”的邏輯,AI+內容/IP預計空間及價值更大,其價值核心取決于數據與內容/IP的數量及質量的高低。微軟本周發布的DeepSpeed-Chat大幅提升大模型預訓練速度并大幅降低訓練成本,我們認為最核心意義為大幅降低垂類場景專屬大模型的訓練門檻,小模型層及應用層有望明顯受益。掌握數據及優質內容(多模態數據)的下游場景具備核心競爭力,因此內容及IP(
)的價值有望重估。DeepSpeed-Chat集成預訓練語言大模型完整三個步驟,其中針對第三步RLHF訓練集成了高效且經濟的DeepSpeed-RLHF系統,使復雜的RLHF訓練變得快速、經濟并且易于大規模推廣(相比現有系統提速15倍以上,且大幅降低算力要求及成本)。風險提示:宏觀經濟風險,地緣政治風險;技術發展不及預期;AIGC行業發展不及預期。4目錄Content一、GPT-4:多模態、高認知、更安全二、DeepSpeed:更快速、更經濟、更普及三、投資建議四、風險提示1.1
GPT-4:多模態、高認知、更安全u
深耕AIGC領域,AI滲透全方面、各領域。OPENAI致力于用AI改變工作和創意,除ChatGPT的語言模型外,還通過API平臺向開發者提供最新模型和指南,不斷提高應用性能和用戶活躍度。u
GPT-4是大型多模態模型。相較于只能接受文字/代碼輸入的GPT-3.5,GPT-4接受圖片+文字的多模態輸入+高認知的結合,并反饋文字輸出。GPT-4是OpenAI新一代自然語言處理模型,繼承了GPT-3.5的優點的同時改進了模型結構、訓練數據量和算法優化,應用范圍跨越數學、編碼、視覺、醫學、法律、心理學等領域,GPT-4模型多領域的廣泛運用和超高任務表現力接近甚至超越人類水平,因此GPT-4是AGI的開創性研究,也是邁向AGI的重要一步。圖1
ChatGPT3.5與4的主要區別最多回復3000字,如果你要求回復4000字,它會說“超過限制”,這時候就得分段提問ChatGPT4和3.5的主要區別67文字限制有害信息最多回復25000字ChatGPT-3.5ChatGPT-4.0如果提問醫療建議、自我傷害、違反道德的問題,
4.0拒絕回答有害信息的概率更高,不被允3.5有時會如實作答許的回答4.0則會直接拒絕12打字速度掉線頻率慢、高峰期更慢普遍說4.0更慢,但實際用起來差別不大對于想利用ChatGPT來進行二次開發的程序員、二次開發能力
運營者來說,3.5有很多不支持,以及調用接口次支持更多次數的api調用,支持更多的調用場景基本上每隔幾分鐘不用就會出現紅框、掉線。掉線后需要刷新網頁89基本不掉線數限制文本過長的時候,生成幾百字就自動停止了,分段生成能力
這時候回復:“繼續”,3.5就可以繼續生
4.0基本是完美的連貫生成成,但3.5的生成往往不夠連貫支持圖像輸入、分析圖像(例如拍照幫你做題)。支持圖片輸出,但是不是自己生成的,是網絡上有的圖34圖片能力無1小時100次提問,基本夠用,但是人多的使用頻率限制
時候,你即使用不到100次也會提示“當前
每3小時25次提問,不會受當前使用人數影響提問人數太多,請一小時后再試”10
聯網能力無,訓練數據庫到2021年無,訓練數據庫到2021年9月11
防止被誘導一般更難被誘導,拒絕被訓練成為壞壞的AI能記住大約相當于8000個詞之前的指令,但是再多,它就會忘記之前的話了12
連續對話能力能記住相當于大約64000個單詞和其他AI相比,chatgpt是公認的最強AI,
全球最頂尖的AI,沒有之一。能解決的問題種類基本能滿足我們的日常工作需要。但是和
比3.5多一些,同一個問題,4.0的回復會更好4.0相比,差距還是有的,目測能力值相當
一些。尤其是考試做題能力、邏輯推理能力、5回答質量26種語言,且語言水平普遍比3.5的更高,對中文的理解更是達到了和3.5對英語的理解一樣的水平理解不同語言水平13支持24種語言于4.0的70%吧角色扮演能力更強資料:
信息元公眾號,上海證券研究所61.2
多模態:接受圖片+文字形式輸入u
根據OpenAI技術文檔給出的案例,GPT-4,對于圖片的理解能力極強。1)同時識別多張圖片內容。如圖2,將3張圖片拼湊成1張,GPT-4能夠同時識別多張圖片的內容。2)根據圖片進行算數運算。如圖3,將題目發給GPT-4,它能根據圖片信息進行算數運算。圖2GPT-4可以同時識別多張圖片內容圖3GPT-4可以根據圖片信息進行推理運算用戶提問:這張圖片有什么有趣的地方?分圖片描述。用戶提問:格魯吉亞和西亞平均每日肉類消費量的總和是多少?在回答之前,請提供逐步推理。GPT-4從圖示3處地名識別出用戶要求的2處,然后進行算數推演,并得到正確答案。成功識別出上圖包含3張圖片,并分別描述了圖片內容。資料:《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所71.2
多模態:接受圖片+文字形式輸入u
3)閱讀并總結論文。如圖4、圖5,將論文中部分頁面截圖給GPT-4,即可閱讀并總結主要內容并回答用戶追加的相關問題。u
4)解答高難度物理題目。如圖6,將écolePolytechnique(巴黎綜合理工大學)物理考試題目傳給GPT-4,并指定其解答某一問題,即可順利識別任務并正確解答。圖4
GPT-4可以閱讀和總結論文圖5
GPT-4可以根據論文內容回答相關問題圖6
GPT-4可以根據圖片信息進行推理運算正確回答了é
colePolytechnique(巴黎綜合理工大學)物理考試中的題目,該考試主要面向數學和物理學科的頂尖本科和研究生。用戶提問:請按步驟解答第1小問用戶提問:請總結以下InstructGPT論文部分的內容GPT-4解釋了論文中某一圖表的推導步驟資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所81.2
多模態:接受圖片+文字形式輸入u
5)識別手寫網頁草圖,并根據草圖寫出網頁前端代碼。如圖7,將手寫“MyJokeWebsite”網頁樣式傳給GPT-4,GPT-4將反饋相應的前端代碼,該代碼不但可以順利運行,也完全符合手繪草稿要求的內容和樣式,具有極強的OCR(文字識別)能力。u
6)理解人類社會常識,可讀懂“網絡梗圖”,具有更明顯的“人性化”特征。如圖8,用戶提問“該圖片中有什么特別之處?”GPT-4回答“男人在移動的出租車車頂燙衣服”是不符合人類社會常識之處,展示出驚人的理解力。如圖9,用戶請GPT-4回答圖中的“梗”,GPT-4能夠將“雞塊”和“世界地圖”相聯系,展示出強大的聯想能力。圖7GPT-4可以根據手繪圖片返回網站代碼圖8GPT-4可以識別圖片中不符合常理之處用戶:圖片中有什么特別之處?圖9
GPT-4具有強聯想能力用戶提問:請解釋下圖中的“梗”GPT-4反饋相關代碼代碼成功運行后的網頁截圖GPT-4解釋了圖中的“梗”在于把雞塊擺放成世界地圖的樣子手寫網頁草稿這張圖片的不尋常之處在于,男人在移動的出租車的車頂上燙衣服,燙衣板也固定在車頂上。資料:差評公眾號,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所91.3
高認知:長文字處理+推理判斷能力u
GPT-4具有更強的長文字處理能力。GPT-4的上下文上限約為2.5萬字,是Chat
GPT的近8倍,允許使用長格式內容創建、擴展對話及文檔搜索和分析等,能夠閱讀并記憶更多信息。u
GPT-4有更高的推理判斷能力。如圖11、圖12,向Chat
GPT和GPT-4提出相同問題“給定3個人物各自的空閑時間,求3人的共同空閑時段以安排會議。”ChatGPT給出了錯誤答案,而GPT-4成功完成這一要求。圖10GPT-4可處理的上下文上限為2.5萬字圖11ChatGPT回答錯誤圖12
GPT-4給出了正確答案ChatGPT回答錯誤,Andrew下午四點沒有空閑時間。GPT-4給出了合理解答。資料:OpenAI官網,上海證券研究所資料:OpenAI官網,上海證券研究所資料:
OpenAI官網,上海證券研究所101.3
高認知:長文字處理+推理判斷能力u
GPT-4具有更高的認知水平。根據OpenAI給出的專業測試結果,GPT-4在高等數學、法律、生物、化學、英語、高級微觀經濟等學科的考試成績遠超GPT-3.5。u
GPT-4在多領域的專業認知超過平均水準。在律師資格考試中,GPT-4的分數排名可以達到所有考生的前10%,而GPT-3.5只能排倒數10%,是GPT-4優化幅度最大的科目。此外,在GRE、SAT、歷史、化學、生物、微觀經濟、宏觀經濟等科目中均超過至少80%以上的考生。編程能力(CodeforcesRating)反而是GPT-4最弱的科目,排名在倒數5%。圖13GPT-4在專業測試中的表現圖14GPT-4在專業測試中的排名80%50%資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所111.3
高認知:長文字處理+推理判斷能力u
GPT-4在評估語言模型的傳統基準上優于其他模型。在語言模型基準測試中,分別將GPT-4、GPT-3.5與現有最佳性能語言模型(LM
SOTA)和現有最佳模型(SOTA)的性能通過小樣本(few-shot)測試進行比對,除DROP(閱讀理解基準測試)外,GPT-4在多語言學習、常識推理、語音識別、人類評估測試均超越現有最佳模型。u
GPT-4擁有卓越的外語能力,包括英語和其他小語種。如圖16,GPT-4在包括英語在內的27種語言測試中準確率均達到62%以上。通過與GPT-3.5、PaLM、Chinchilla模型英語水平進行對比,GPT-4以85.5%的準確性遠超其他模型。圖15GPT-4顯著優于現有模型圖16GPT-4多語言能力更強多語言學習基于自然語言的常識推理測試人類評估除DROP(閱讀理解基準測試)外,GPT-4全方位超越現有最佳模型。語音識別資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所121.3
高認知:長文字處理+推理判斷能力u
GPT-4的高認知特征具體體現在以下方面:1)高常識推理能力。分別問ChatGPT和GPT-4“1+1什么情況等于3”時,ChatGPT只會從數學計算的角度思考,但GPT-4可以從常識推理的角度思考。2)高可塑性。與ChatGPT不同,GPT-4能夠以不同的語言風格與用戶交流。當被設定為某個角色時,GPT-4將不會聽從違背角色特征的指令。3)高解決問題能力。GPT-4能夠處理復雜問題,比如運用學習到的稅務知識幫助用戶解決稅務問題。結合稅法的高時效性與GPT-4的長文字處理能力,用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務籌劃問題。圖17
分別問Chat
GPT和GPT-4“1+1什么情況等于3”圖18
GPT-4具有較強的可塑性圖19
GPT-4能夠處理復雜問題設置角色:假設GPT-4是TaxGPT,運用內置的Tax知識幫助客戶解決稅務規劃問題設置角色:假設GPT-4是蘇格拉底風格的導師資料:APPSO公眾號,上海證券研究所資料:差評公眾號,上海證券研究所資料:知識分子公眾號,上海證券研究所131.4
更安全:分辨能力提高u
GPT-4的可靠性大幅提升。相較于GPT-3.5(會隨著持續迭代而改善),GPT-4顯著減少了“虛構”現象。在內部設計的對抗性準確度評估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在歷史和數學科目上的表現尤為突出。u
GPT-4的分辨能力有顯著提升,但仍存在改進空間。相較于GPT-3.5,GPT-4在公開基準測試TruthfulQA(測試模型真實性性能好壞的一個測試集)中取得了進步,體現為較高的分辨事實能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強化學習(RLHF)微調后的表現中,GPT-4均明顯優于GPT-3.5和Anthropic-LM,但GPT-4對TruthfulQA中的某些問題依然給出了錯誤的回答。圖20GPT-4在9個內部設計的對抗性準確度評估中的表現圖21GPT-4在TruthfulQA中的表現資料:《GPT-4TechnicalReport》,上海證券研究所資料:《GPT-4TechnicalReport》,上海證券研究所141.4
更安全:分辨能力提高u
GPT-4優化了安全性指標,能夠有效減少有害風險信息的提供。從響應率來看,GPT-4對違規內容(如制作炸彈的方法)請求的響應率相較于GPT-3.5降低了82%,對敏感內容請求(如醫療建議和自我傷害建議等)的響應率降低了29%,RLHF后的GPT-4的響應率則更低。從反饋“有害信息”的可能性來看,GPT-4在RealToxicityPrompts
數據集的測試中僅有0.73%的概率生成“有害信息”,而GPT-3.5的概率為6.48%。圖22敏感提示和禁用提示的錯誤行為比率資料:《GPT-4TechnicalReport》,上海證券研究所151.5
GPT-4仍存在不足之處結合對現有其他語言模型的研究,GPT-4仍存在信息迭代受限、準確性不足、反饋違規內容等不足之處。u
信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主動學習能力。根據GPT-4技術報告,由于模型于2021年9月預訓練完畢,GPT-4缺乏對此后事件的了解,且無法從經驗中學習新內容。ChatGPT通過植入插件系統形成了對世界新事物的“觸覺”。根據OpenAI官網介紹,Web瀏覽器插件將利用NewBing的API,通過在互聯網上搜索相關信息,給出用戶具體答案。u
準確性不足。GPT-4的回答準確性相較于GPT-3.5有較大提升,但仍存在虛構傾向。在TruthfulQA測試中,GPT-4在某些問題上依然給出了錯誤的回答。隨著GPT-4使用范圍的擴大,虛構傾向不僅會誤導用戶,更會降低模型本身的整體可信度。u
存在道德風險。GPT-4可能根據用戶發出的指令產生各種有害內容,包括違反OpenAI政策以及對不利于社會發展的內容。如歧視性內容、誤導性內容、策劃襲擊或暴力活動內容等。u
其他風險。結合對現有其他語言模型的研究,GPT-4還可能存在如侵犯隱私權、危害網絡安全、出現不受控的新能力、系統交互等潛在風險。162.1
DeepSpeed
更高速度
更大規模u
DeepSpeed是PyTorch的開源的兼容庫,在深度學習訓練和推理方面具有極高的速度和規模。DeepSpeed通過提高規模、速度、成本和可用性來改進大型模型訓練,可訓練超100億個參數的模型,實現了自然語言處理(NLP)和多模態(結合語言圖像、視頻和語音)等領域的突破。u
Deep
Speed
Chat基于微軟Deep
Speed深度學習優化庫開發而成。DeepSpeedChat可在模型訓練中加入完整RLHF流程,用于RLHF訓練的低成本開源解決方案,使得復雜的RLHF訓練變得快速、經濟、輕松訪問,實現類似ChatGPT模型的端到端RLHF訓練,從而幫助我們生成自己的高質量ChatGPT模型。相較于ChatGPT,DeepSpeedChat普及RLHF(基于人工反饋機制的強化學習)訓練到AI社區,削弱了ChatGPT的局限性。圖23
DeepSpeed三大創新支柱——訓練、推理、壓縮圖24
DeepSpeed
Chat——便捷快速的類chatgpt模型資料:DeepSpeed,上海證券研究所資料:Github,上海證券研究所172.2
不斷強化模型質量?
DeepSpeed支持在AMD?
通過DeepSpeed-MII實現亞秒級穩定的擴散圖像生成?
ZeRO推理:大眾化大規模模型推理GPU上進行高效的大型模型訓練2022.52022.92022.112021.102022.72022.102022.12?
DeepSpeed幫助訓練了176億個參數的BLOOM模型?
DeepSpeedCompression用于極端壓縮的可組合庫Azure?
DeepSpeed支持易于使用的高性能模型訓練?
實現推理(MII)深速模型?
DeepSpeed數據效率庫:實現更少的數據、更快的訓練和更高的模型質量?
DeepSpeed訓練了世界上最強大的語言模型:威震天-圖靈NLG530B182.3
Deep
Speed
三大核心功能在微軟開源DeepSpeed
Chat之后,普通用戶可通過簡單的操作,即可訓練類ChatGPT等大語言模型,降低了ChatGPT類模型使用的門檻和成本,主要通過以下三個核心功能來達到:u
簡化ChatGPT類型模型的訓練并強化推理體驗:DeepSpeed-Chat僅需一個腳本即可實現多個訓練步驟,如使用Huggingface預訓練模型、使用DeepSpeed-RLHF系統運行InstructGPT訓練的所有三個步驟、生成自己的ChatGPT模型。此外,在模型訓練后可以利用推理API進行對話交互測試。u
DeepSpeed-RLHF模塊:DeepSpeed-RLHF模塊復刻InstructGPT論文中的訓練模式,并確保監督微調
(SFT)、獎勵模型微調和人類反饋強化學習
(RLHF)的三個步驟與其一一對應,提供數據抽象和混合功能來支持開發者使用多個不同數據源進行訓練。u
DeepSpeed-RLHF系統:DeepSpeed-RLHF系統將DeepSpeed的訓練和推理能力整合成統一混合引擎
(DeepSpeed-HE)
中,用于RLHF訓練。DeepSpeedHybridEngine是為RLHF訓練提供更高性能和效率的混合引擎,它結合了DeepSpeed的訓練引擎和推理引擎,在訓練和推理模式之間自由切換,為RLHF的訓練和推理提供了更快的速度,也優化了內存和緩存數據。圖25
用于加速RLHF流程中最耗時部分的DeepSpeed混合引擎設計資料:Github,上海證券研究所192.4
DeepSpeed
Hybrid
Engine
優勢u
高效性和經濟性:DeepSpeed-HE提供高效的RLHF訓練模式,訓練速度較現有系統快15倍以上,使RLHF訓練快速且經濟實惠。u
卓越的擴展性:DeepSpeed-HE能支持訓練擁有數千億參數的模型,并在多節點多GPU系統上展現出其卓越的擴展性。因此,即使是擁有130億參數的模型,也僅需1.25小時即可完成訓練。對擁有1750億參數的龐大模型,使用DeepSpeed-HE進行訓練也只需不到一天的時間。u
普及RLHF訓練:DeepSpeed-HE憑借單個GPU即可支持訓練超1300億參數的模型,使無法多GPU系統的數據科學家既可以輕松創建輕量級的RLHF模型,又可以創建功能強大、能用于不同場景的的大型模型。圖26
單節點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費圖27
多節點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費圖28
DeepSpeed-HE支持單GPU大型模型資料:Github,上海證券研究所資料:Github,上海證券研究所資料:Github,上海證券研究所202.5
訓練步驟Deep
Speed
的訓練生成流程分為三個步驟:1)監督微調(SFT)。預訓練語言模型通過監督微調(SFT)進行微調,使用精選的人類回答來調整訓練的語言模型。2)獎勵微調模型。使用人類對同一查詢的多個答案打分的數據集,去訓練一個不同的(通常小于SFT)獎勵模型(RW)。3)RLHF訓練。使用近端策略優化(ProximalPolicyOptimization,PPO)算法,利用獎勵模型的獎勵反饋,進一步調整SFT模型。圖29
完整的RLHF訓練概述圖資料:Github,上海證券研究所212.6
訓練性能評估(1/2)與現有RLHF系統(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系統性能和模型可擴展性表現出色,DeepSpeed-HE的吞吐量提高了一個數量級以上,能夠在相同的延遲預算下訓練更大的模型。1)吞吐量方面:多GPU上比Colossal-AI
提速6
–
19倍,比HuggingFaceDDP提速1.4–10.5
倍單GPU上,DeepSpeed使RLHF訓練的吞吐量提升超10倍圖30
DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較圖31
訓練第三步:最耗時的端到端訓練吞吐量比較資料:Github,上海證券研究所資料:Github,上海證券研究所222.6
訓練性能評估(2/2)2)擴展性方面:Colossal-AI在單GPU和單A100
40G(服務器)節點上最大可分別運行1.3B和6.7B的模型;DeepSpeed-HE在同樣的硬件上可分別運行6.5B和50B模型,最大可達Colossal-AI的7.5倍。u
DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產階段的優化加速。利用DeepSpeed的高性能推理內核,DeepSpeed-HE在生產階段實現比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。圖32
1.3B參數模型在RLHF訓練的時間分解資料:Github,上海證券研究所232.7
Deep
Speed
Chat開源意義u
開源DeepSpeedChat,降低垂類場景大模型訓練門檻。ChatGPT只用了幾個月便席卷全球,成為史上用戶增長速度最快的消費級應用,推動世界的經濟發展和科技研發。但龐大的資金資源投入限制了很多企業和個人用戶的使用,微軟為解決這一限制,開源DeepSpeedChat模型。u
解決訓練類Ch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CCPITCSC 120-2023中國品牌影響力評價通則
- T/CCMA 0068-2018瀝青混合料攪拌設備專用振動篩
- T/CCEAT 001-2021電工(煤礦井工)崗位操作人員培訓規范
- T/CASTEM 1006-2022科技評估報告編制通用要求
- T/CAQI 362-2023寵物食品用益生菌通則
- T/CAQI 145-2020地理標志產品龍口粉絲
- T/CAPA 1-2019脂肪注射移植
- 京東2025年java開發測試面試題及答案
- 眾安保險java研三面試題及答案
- 定期疫苗檢查管理制度
- 試卷交接簽字單
- 高考化學答題技巧與規范課件
- 2022屆高考英語復習:最后一節英語課(13張PPT)
- 加強評標專家管理實施方案
- 初中畢業典禮畢業季博士帽藍色創意PPT模板
- 股票實戰技巧(一)薛斯通道_CCI_DMI經典指標組合
- 小學生德育教育ppt課件
- 配電箱系統圖
- 精選靜電感應現象的應用練習題(有答案)
- 初中音樂--人聲的分類--(1)pptppt課件
- 小作坊生產工藝流程圖(共2頁)
評論
0/150
提交評論