ChatGPT技術演進及研究框架分析報告_第1頁
ChatGPT技術演進及研究框架分析報告_第2頁
ChatGPT技術演進及研究框架分析報告_第3頁
ChatGPT技術演進及研究框架分析報告_第4頁
ChatGPT技術演進及研究框架分析報告_第5頁
已閱讀5頁,還剩36頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券研究報告

行業動態報告ChatGPT技術演進及研究框架發布日期:2023年3月3日核心觀點?

核心觀點:

Transformer

模型融合了詞向量、注意力機制和預訓練模式的諸多優勢,其出現標志著深度學習進入大模型時代。OpenAI

推出基于Transformer和人類反饋強化學習的ChatGPT以其強大的語義理解和生成能力引爆了市場。技術側重點理解大模型訓練中的核心四要素:模型參數、訓練數據、訓練方法以及訓練效率。隨著預訓練自然語言模型進入巨量化參數時代,模型算力需求邁上新臺階。相關投資機遇中,建議重點關注國產AI芯片供應鏈、海內外大模型相關垂直應用落地情況。?

核心技術發展推動自然語言處理逐步成熟。對詞向量的關注明確了訓練目標,構建起語義信息和數據之間的橋梁;注意力機制增強上下文理解能力,提高語義信息學習能力;Transformer等模型推動計算結構從串行走向并行,大幅提升算法和語言模型的訓練速度;預訓練明確了訓練思路,解決了數據量不足的問題,降低了模型應用的門檻。以上四點核心進展帶來了語言模型語言理解和生成能力的大幅提升,人工智能語言模型逐步走向預訓練大模型。對應行業發展,谷歌和OpenAI先后于2018年提出基于Transformer-Encoder的BERT和基于Transformer-Decoder的GPT。與此同時,國內外的其他技術巨頭也紛紛加快自然語言處理模型研發進程。?

訓練好大模型的四要素:模型參數、訓練數據、訓練方法以及訓練效率。在模型參數上,參數量越大,大模型性能往往越好,當參數量提升到一定程度后性能可能會產生跨越式提升;訓練數據方面,大模型對數據量和數據質量均提出了更高要求,高質量的數據集在模型訓練過程中帶來了更高的邊際收益;

在訓練方法上,一方面需要更充分的預訓練以及增大預訓練難度,另一方面使用Prompt或Fine-tune可以顯著提高模型在下游應用場景的表現;在訓練效率上,并行計算、顯存優化與模型稀疏性能顯著提升大模型訓練效率。?

隨著預訓練自然語言模型進入巨量化參數時代,模型算力需求邁上新臺階。當前大規模的自然語言模型進入了千億參數時代,模型的訓練算力顯著提升,例如GPT-3模型參數量為1750億,訓練算力需求為3.14E+23

flops,如采用1000塊英偉達A100芯片提供算力,需要不間斷訓練55天,可以估算單次訓練租用云服務器的成本是328萬美金。大模型在商業化落地之后,大量的客戶訪問還會帶來不菲的運行成本,近期ChatGPT官網每日訪客數量接近5000萬,估算云上月租金576萬美元/每月,頭部企業開發大模型競爭力更強。?

后續關注:國產AI芯片及大模型相關應用落地。算力端重點關注國產AI芯片、英偉達供應鏈、國內相關企業如

、百度及阿里等的大模型落地情況和相關垂直應用供應商,以及國內公司利用OpenAI技術在海外應用的產品進展。AI芯片昇騰供應鏈。算法應用端重點關注目錄一、NLP算法發展歷程介紹二、訓練好大模型的要素三、算力需求的展望四、投資邏輯梳理1.1

早期自然語言處理(NLP):基于規則方法/統計方法?

第一階段(1950s-1980s)基于規則的方法:基于語言學家制定的規則完成相關任務。優點:自由設計,靈活性強;不存在對于訓練數據的依賴缺點:研究強度大,泛化能力差;實踐性差,無法從訓練數據中學習和迭代?

第二階段(1980s-2000s)基于統計的方法:將語言問題轉化為概率問題進行模型構建。優點:數據驅動;相較于規則模型泛化能力強缺點:受訓練數據集的影響大;缺乏對于語言知識的考慮;模型可解釋性差圖表:基于規則的方法圖表:基于統計的方法語言規則(例):“from”

總是指某些東西最初來自哪里,所以我們用ORIGIN標記它。“to”總是指某些東西的去向是哪里,所以用DESTINATION標記它。資料:easyAI,中信建投資料:CSDN,中信建投1.2

四大核心進展推動神經網絡方法在NLP領域發展?

第三階段(2000s至今):基于神經網絡的方法逐步發展并得到大幅提升優點:數據驅動力更強,泛化能力更強,逐步挖掘語言知識缺點:數據需求大(質量/數量),訓練成本高;可解釋性有限?

核心進展:1)詞向量的應用明確了訓練目標,構建起語義信息和數據之間的橋梁2)LSTM/注意力機制增強上下文理解能力,提高語義信息學習能力3)Transformer推動串行走向并行優化計算結構,大幅提升算法和語言模型的訓練速度4)預訓練明確了訓練思路,解決了數據量不足的問題,降低了模型應用的門檻?

我們認為以上核心進展,推動了自然語言理解走向大模型,推動了語義理解和生成的大幅提高,并在更多場景落地應用。圖表:基于神經網絡的自然語言處理重要算法時間軸早期神經網絡語言模型部分解決長程依賴開啟預訓練大模型時代2018

2018引入RLHF2003NNLM2013word2vec2014glove2015LSTM2017Transformer2019GPT-22020GPT-32022InstructGPT/ChatGPTELMO

GPT/BERT不斷發掘模型容量和數據量增加帶來的性能提升詞向量開始被重視注意力機制挖掘語義關聯word2vec模型示意圖LSTM模型示意圖Transformer模型示意圖GPT模型示意圖資料:GoogleScholar,機器之心,OpenAI,CSDN,中信建投1.3

Word2Vec:詞向量構建起語義信息和數據之間的橋梁?

詞向量(word

embedding)在早期的神經網絡語言模型中便已經出現,但一直沒有受到重視和關注,直到word2vec模型開始真正重視起來。?

詞向量的重要意義:1)通過數學方法表征了語義信息(例如:通過余弦相似度計算單詞相關性)2)相較于過去的方法(獨熱編碼)其表征詞匯的矩陣大小被有效控制。?

Word2Vec中詞向量的缺陷:缺少對于上下文文本的分析,一詞多義問題成為當時限制模型語言分析能力的一大障礙。?

我們認為,詞向量的應用,讓NLP領域的神經網絡訓練的訓練目標變得明確,為后續模型的發展奠定了基礎。圖表:利用Word2Vec產生單詞對應的詞向量圖表:Word2Vec產生的詞向量能夠反映單詞之間的語義關系(二維)維度1相似語義關系的詞組具有相似的向量關系例:國家和首都的關系(紅框)形容詞比較級之間的關系(藍框)維度2資料:飛槳AI

studio,中信建投資料:飛槳AI

studio,中信建投1.4

RNN/LSTM/ELMO:逐步強化模型分析上下文能力?

RNN(循環神經網絡)解決了短程時序依賴問題:對于較短的序列,RNN可以結合少量的前文來分析后文,但當序列較長時,由于梯度消失/爆炸,模型難以學到遠距離的信息。?

LSTM(長短期記憶)部分解決了長程時序依賴問題:LSTM引入了“遺忘”的結構,在信息傳遞過程中改善了“信息過長,信息丟失”的問題,進而使得模型可以學到相對遠距離的信息。但其效果依然有限,串行計算也顯著影響了訓練效率。?

ELMO完善了上下文時序依賴問題:采用雙向LSTM結構,同時學習上下文信息。?

我們認為,LSTM/ELMO強化了模型分析上下文的能力,進而增強了模型的語義理解能力,較好解決了一詞多義問題。舉例

短程依賴:對于問題“我的母語是____”,可以通過“母語”確定后面填空應當為一種語言,這個過程便是短程依賴;長程依賴:但如果需要通過文章開頭的句子來進一步確定問題的答案,例如“我的故鄉是中國,……,我的母語是____”,基于文章開頭的“故鄉是中國”,來判定此處填空應當為“中文”,此時對于更遠距離的文本內容的學習便是長程依賴。圖表:RNN結構圖表:LSTM結構圖表:ELMO結構右向的紅色箭頭表示當前時刻的輸出參與下一時刻的計算遺忘門:決定向下傳遞中需要保留的內容Xt為當前時刻的輸入ht為當前時刻的輸出綠色部分相當于RNN結構的A資料:CSDN,BERT:Pre-training

ofDeepBidirectional

Transformers

for

Language

Understanding

,中信建投1.5

注意力機制增強語義關聯,賦予模型并行運算能力?

核心思路:從文本中有選擇地篩選出少量重要信息并聚焦到這些重要信息上,忽略不重要的信息。?

實現方法:單獨計算目標單詞和全文所有單詞的“重要性”,進而理解單詞和句子在語境中的含義。?

重要意義:1)解決了“信息過長,信息丟失”問題:任意位置詞向量可關聯計算,一次性獲得局部和全局信息的關聯。2)擁有并行能力:每個單詞詞向量的計算不依賴于前個單詞詞向量,可實現并行計算。3)賦予了詞向量新的內涵:提供了一些可解釋性(句法層面的特征),如句子結構中主語和謂語之間的關系?

缺陷:對序列中的位置信息缺少考慮(后續通過在詞向量中加入位置信息解決)?

變種:Self-Attention、Masked

Self-Attention、Multi-Head

Self-Attention等圖表:不同注意力機制的含義圖表:注意力機制獲得的單詞間重要性關系(Self

Masked

Attention)1.紅色為目標單詞,顏色越深表示重要性越強;例如對于第四句的chasing來說,“FBI”和“is”相對“The”是更重要的單詞Attention考慮對于查詢語句中的詞語而言重要的信息2.因為其采用的是Self

MaskedAttention,因此計算的是和前文單詞之間的重要性。Self

Attention考慮對于文章自身的每個單詞而言重要的信息只考慮當前及過去的文本信息的重要性,不考慮未來的文本信息的重要性Masked

AttentionMulti-Head

Attention考慮對于同一詞語的不同含義重要的信息,再將結果“組合”起來資料:中信建投資料:知乎,中信建投1.6

預訓練的應用:彌補訓練數據量不足,降低模型應用門檻?

預訓練模型原理:對于語言/圖像處理而言,其淺層特征是通用的:底層網絡參數在面對不同任務時均可以復用。但隨著網絡層數增加,越深層的特征與具體任務的相關性便越強。例如人、車、大象圖像的淺層特征都是線條和輪廓。因此在模型淺層部分通過海量數據的預訓練(Pre-training),再根據具體下游場景訓練深層特征做微調(Fine-tuning)。?

我們認為,預訓練的應用是具有跨時代意義的。一方面其解決了因神經網絡日益復雜而帶來的數據需求日益增加的問題。另一方面,基于海量數據預訓練后的模型,下游具體任務的訓練速度被大大加快,準確度也進一步提高。圖表:圖像識別任務中淺層特征與深層特征的示意圖圖表:預訓練模型:基礎知識學習+具體任務學習直接訓練模型英文法律文書撰寫英文法律文書知識海量英文法律文書相關數據不同的下游任務中深層特征具有較大差異預訓練下游具體任務的微調法律文書知識英文法律文書撰寫英文小說創作英文知識海量數據少量法律文書相關數據加速了下游任務的訓練速度減少了下游任務的數據需求小說知識少量小說相關數據不同的下游任務中淺層特征具有通用性資料:Improving

Language

Understanding

byGenerative

Pre-Training

,中信建投資料:CSDN,中信建投1.7

集大成者:Transformer正式開啟預訓練大模型時代?

Transformer模型的核心結構是:編碼器(encoder)-解碼器(decoder)?

工作原理:對于Transformer最初應用的翻譯任務而言,其過程為輸入文本通過encoder編碼,經過多層注意力增強機制提取特征后,學習并理解語句含義轉為詞向量,再由decoder解碼,基于前文詞向量生成文本,完成翻譯任務。?

共同點:encoder和decoder都采取了多層多頭注意力進行特征提取和學習,能夠深入挖掘文本的語義關聯信息?

差異點:encoder:同時對上下文進行理解,有更強的語言理解能力。decoder:使用多頭掩碼注意力機制,將輸入文本當前詞以后的單詞掩蓋(masked)進行訓練,這與語言生成過程邏輯一致(由前往后逐詞生成,下一個單詞只與前文信息相關),因此decoder擁有更強的文本生成能力。綜上,encoder對上下文的理解類似于“完形填空”,有更強的理解能力。而decoder類似根據題目寫作文,有更強的生成能力。圖表:Transformer模型結構圖表:Transformer模型結構簡圖多頭掩碼自注意力機制多頭自注意力機制資料:CSDN,中信建投資料:Attention

is

all

you

need,中信建投1.8

基于Transformer,BERT&GPT分別采取了不同的策略?

GPT:建立在

Transformer

Decoder

的基礎上、具有良好的自然語言生成能力,然而當前詞的語義只能由其前序詞決定,因此在語義理解上不足。一定程度上犧牲語義理解能力,換取更強的生成能力。?

BERT:建立在Transformer

Encoder

的基礎上,并使用了與其配套的掩碼訓練方法。雖然使用雙向編碼讓

BERT

文本生成能力被削弱,但是

BERT

的語義信息提取能力更強。?

二者均采用預訓練方法:第一階段使用大規模無標簽語料訓練基礎語言模型。第二階段根據指定任務的少量帶標簽數據進行微調訓練。?

我們認為:1.

Transformer創新性架構設計為后續的語言模型奠定基礎,開啟了預訓練大語言模型的時代。?

2.谷歌和OpenAI引領大模型發展:谷歌和OpenAI先后于2018年提出基于Encoder的BERT和基于Decoder的GPT。谷歌在3年后加入OpenAI的Decoder路線,但在時間上處于落后。OpenAI在模型中引入人工反饋,并推出了生成能力極強的ChatGPT,引領全行業。圖表:Google和OpenAI在語言模型中的發展時間線圖表:BERT&GPT示意圖資料:BERT:Pre-training

ofDeepBidirectional

Transformers

for

Language

Understanding,公司官網,中信建投1.9

GPT

1-3:不斷發掘模型容量和數據量增加帶來的性能提升?

GPT-1使用了BooksCorpus數據集,這個數據集包含

7,000本沒有發布的書籍。1.

數據集擁有更長的上下文依賴關系,使得模型能學得更長期的依賴關系;2.

這些書籍因為沒有發布,所以很難在下游數據集上見到,更能驗證模型的泛化能力。?

GPT-2的文章取自于Reddit上高贊的文章,命名為WebText。數據集共有約800萬篇文章,累計體積約40G。為了避免和測試集的沖突,WebText移除了涉及Wikipedia的文章。

GPT-2訓練了4組不同的層數和詞向量的長度的模型:12/768,24/1024,36/1280,48/1600,滑動窗口大小為1024(一次性對于上下文的1024個單詞進行關聯語義挖掘)。?

GPT-3共訓練了5個不同的語料,分別是低質量的Common

Crawl,高質量的WebText2,Books1,Books2和Wikipedia。

GPT-3采用了

96層的96頭transformer;詞向量的長度是

12,888;滑動窗口大小提升至

2,048?

我們認為,在Transformer模型的廣泛應用中,參數量和預訓練數據量的提升,快速提升了模型的表現能力。千億級參數量的模型開始不斷出現。圖表:GPT系列模型的參數量與數據量不斷提升模型GPT發布時間2018.62019.22020.5參數量1.17億15億預訓練數據量約5GBGPT-2GPT-340GB1750億45TB資料:機器之心,中信建投1.10

GPT

1-3:針對下游任務輸入的不斷革新?

GPT1-3的下游任務訓練方法:GPT-1:針對不同下游任務,通過特殊格式的少量標注數據集進行訓練(提供特殊格式的例子)。GPT-2:zero-shot,完全不提供例子,直接使用自然語言描述問題(task

description),但實際效果有限。GPT-3:zero-shot/one-shot/few-shot,不提供/提供1個/提供少量幾個例子,讓模型完成相應的下游任務。?

我們認為,隨著模型參數量和預訓練數據量的增大,模型對通用任務的處理能力顯著提升,對下游微調的依賴性減弱。一方面,模型已經在龐大的預訓練數據量中學習了相關知識;另一方面,少量的微調數據難以調整巨大的神經網絡模型。圖表:GPT-1對于不同下游任務的訓練數據格式圖表:GPT3采用的zero-shot/one-shot/few-shot方法(左)與對應性能(右)資料:Improving

Language

Understanding

byGenerative

Pre-Training,Language

Models

areFew-Shot

Learners,中信建投1.11

GPT3—ChatGPT:引入基于人類反饋的強化學習?

基于人類反饋的強化學習(RLHF)就是通過人類的反饋去規范學習的過程:1.使用人工標注形成標準答案:在ChatGPT的兄弟版本InstructGPT中,40位人工標注員針對一個詳細說明了下游任務的數據集,完成了13000個問答,基于這些這些問答組成的訓練數據來調整模型。2.訓練一個獎勵模型:針對模型給出的相同問題的多個回答,然后人工給這些問答對按一些標準(可讀性、無害、正確性等)進行排序,訓練一個獎勵模型/偏好模型來打分(reward

model)。3.

持續更新網絡參數,在獎勵模型的激勵下使模型生成的答案不斷趨近于定義的標準答案。圖表:InstructGPT引入人類反饋的強化學習示意圖圖表:ChatGPT能力的語言生成能力大語言模型的預訓練過程海量的訓練數據基礎世界知識上下文學習能力存儲知識的能力遵循不同指令的能力大語言模型中的海量參數廣泛的指令學習生成符合人類預期的答案的能力基于人類反饋的強化學習資料:Training

language

models

to

follow

instructions

with

human

feedback,"How

does

GPT

Obtain

its

Ability?

Tracing

Emergent

Abilities

ofLanguage

Models

to

their

Sources",中信建投1.12

ChatGPT與Bard對比?

2022年11月30日,OpenAI發布聊天機器人ChatGPT,基于GPT-3模型,為微軟主導,能夠模擬人類語言行為,與用戶進行自然交互;2023年2月6日,谷歌發布Bard聊天機器人,基于大語言模型LaMDA。LaMDA包含1370億個參數量,

預訓練數據為1.56T

;GPT-3包含1750億個參數量,預訓練數據量為45TB。?

在訓練方式上,ChatGPT在GPT-3基礎上加入了人類反饋強化學習(RLHF),采用人工標注的方式將自然語言和強化學習結合起來,極大提升了模型的效率和學習能力。?

在數據集上,雖然原始LaMDA預訓練數據量不如GPT-3,但Bard數據更新且與谷歌搜索引擎集成后能訪問大量數據,在獲取信息的深度和廣度方面要比ChatGPT大,與ChatGPT相比,Bard模型具有明顯的數據量優勢。?

除以上區別外,還存在ChatGPT內嵌了抄襲檢測工具、Bard目前只應用在搜索中、Bard是免費的而ChatGPT有付費選項等區別。圖表:ChatGPT與Bard區別ChatGPTBard集成在谷歌搜索中,只需要更改谷歌設置即可獲得BardAI搜索結果可以在ChatGPT網站進行訪問,但只有文本響應數據集來自2021年及以前的數據庫基于GPT數據來自互聯網,有比ChatGPT更新的數據基于LaMDA服務有免費的也有付費計劃選項服務是免費的內置了名為GPT-2OutputDetector的抄襲工具沒有內置抄襲檢測工具仍然處于測試階段目前已經發布資料:谷歌,微軟,中信建投1.13

KOSMOS-1—從大語言模型到多模態大語言模型?

微軟發布多模態大型語言模型(MLLM)KOSMOS-1。其基于Transformer模型,不但可以完成文本學習、指令遵循、上下文學習、文本生成等任務,還能夠將文本以外的模態(如視覺圖像、語音)嵌入到模型中,進而完成多模態的下游任務。研究證明,在多個下游任務中,該模型具有非常優異的性能。?

其訓練數據集包括文本語料庫、圖像

-

字幕對、圖像和文本交叉數據集;模型的參數總量為16億。?

重要意義:多模態感知是實現通用人工智能的重要條件,多模態技術的發展將進一步增強人工智能的知識獲取能力和高價值場景應用能力?

我們認為,多模態大語言模型蘊含著更廣泛的應用場景和更高的商業價值,將成為未來人工智能行業發展重要的競爭賽道,多模態技術的成熟也將進一步加速人工智能技術在不同場景的落地應用。圖表:KOSMOS-1在視覺問答方面的測試樣例圖表:KOSMOS-1在圖像對話/邏輯問答方面的測試樣例資料:LanguageIsNot

AllYouNeed:

Aligning

Perception

with

Language

Models,機器之心,中信建投1.14

預訓練自然語言大模型學術研究情況?

預訓練自然語言的大模型相關研究得到爆發式發展。2017年Transformer模型誕生之后,隨即被應用到自然語言、視覺識別等諸多領域,2018年自然語言預訓練大模型的概念逐漸興起,通過在web

of

science上檢索

pre-trained

language

model(PLM),我們發現自2018年之后,預訓練大模型得到了學術圈的廣泛研究,相關學術論文數量也呈現爆發式增長。?

2022年大部分企業都加大了自然語言大模型的研發力度。通過對相關企業的文獻數量研究,我們能夠窺測到:微軟、谷歌在自然語言大模型領域進入較早且持續投入較大。整體來看,大部分企業在2022年都加快了自然語言模型的研發進程,在ChatGPT爆火之后,自然語言大模型領域將迎來新一輪的研究浪潮。圖:大模型的相關學術研究論文數量圖:不同企業的大模型學術論文的發表頻次6005004003002002018201920202021202250314121083276157410002413110微軟阿里巴巴谷歌百度臉書IBM201820192020202120222023資料:Web

Of

Science,中信建投目錄一、NLP算法發展歷程介紹二、訓練好大模型的要素三、算力需求的展望四、投資邏輯梳理2.

訓練好大模型的要素1、大模型的性能往往隨著模型參數量增加而增加,這是可以從小模型推斷出來的;2、某些情況下,大模型的參數增加到一定程度,模型性能會有一些突破性,這不能從小模型進行推斷,被稱為大模型的突現能力。模型參數訓練準備1、模型的數據量與模型參數數量同等重要,模型數據量要和參數量保持相同速度增長;訓練數據2、高質量、干凈的數據集會對模型預訓練產生較好的性能提升。1、模型需要更充分的預訓練,包括增大batchsize和步長;2、增大預訓練難度可以提升模型性能。預訓練模型訓練微調Prompt、Fine-tune提高模型在下游場景的表現訓練效率訓練環境并行計算、顯存優化與模型稀疏性是提升訓練效率的三種方式2.1

大模型與小模型界定?

大模型,又稱為基礎模型或者大規模預訓練模型,是“大算力+強算法”結合的產物,大模型是人工智能發展的趨勢和未來。?

大模型的一般訓練過程:數據獲取-數據清洗-大模型訓練-下游適配-終端應用?

大模型與小模型沒有非常清晰的界定,站在當前時點來看,大模型一般具備如下特征:

參數量(十億量級)和訓練數據量(GB以上)巨大,一般采用transformer架構;

采用預訓練模式,在通用數據集上進行預訓練,而不是直接在特定數據集進行特定任務的訓練;

具備遷移學習能力,遷移學習的思想是將從一項任務(例如,圖像中的對象識別)中學到的“知識”應用到另一項任務(例如,視頻中的行為識別)中,在Zero/One-shot中具有較好的表現,即訓練樣本很少或者沒有的情況下,仍有較好性能。

模型的訓練過程依賴云端設備,無法在離線個人終端上實現;圖表:大模型的訓練及應用過程數據獲取數據清洗大模型訓練下游適配終端應用資料:On

the

Opportunities

and

Risks

of

Foundation

Models,中信建投2.2

大模型與小模型建模過程的差異性?

在訓練步驟方面。大模型的訓練過程主要包含如下步驟:數據獲取→數據清洗

→大模型訓練→下游適配→終端應用,小模型的訓練過程主要包含如下幾個步驟:任務制定→數據獲取→數據清洗

→模型訓練→模型調試→終端應用。訓練過程的差異性主要存在于以下兩個步驟中:?

在數據獲取環節方面,大模型的訓練文本一般是通用數據集,其訓練文本并未針對特定領域進行篩選。小模型的訓練過程中首先制定任務目標,針對特定目標搜選訓練數據集,適用于監督學習的數據集同時需要標注員進行人工標注。?

在訓練模式方面,大模型一般采用預訓練模式,訓練過程中并未針對下游特定任務,訓練之后需要fine-tune(微調)去在下游應用領域適用。小模型在訓練時包含特定任務,訓練結束后經過一定的參數微調,便可應用到下游領域。圖表:“源”模型數據預處理流程圖圖表:BERT模型的預訓練過程和下游任務微調資料:浪潮信息,

BERT:Pre-training

ofDeep

Bidirectional

Transformers

forLanguage

Understanding,中信建投2.3

如何訓練好一個大模型:增加模型參數及復雜度?

模型參數量對大模型的性能有重要影響,大模型的性能往往隨著模型參數量的增加而上升,多數是可以預見的,模型性能通常是依靠知識和簡單的文本操作來提高。大模型還存在一種不可預見現象,被稱為大模型的突現能力(emergent

abilities

orbreakthroughness),指在特定任務中,伴隨著模型參數量的增加,會發生一些不存在于小模型的現象,這種現象不能簡單通過推斷小模型的性能改進進行預測,約有5%的大模型任務會出現大模型的突現能力。?

在一定程度上堆疊更多的網絡層數,提升模型復雜度,有利于提升模型效果。例如,GPT-1為12層網絡,GPT-2將Transformer堆疊的層數增加到48層,GPT-3則為96層。此外,增加模型中詞向量長度,放大每層網絡中的構件大小等均能提升模型效果。圖表:模型性能隨參數量上升圖表:隨著參數量上升大模型性能具有突破性資料:EmergentAbilities

ofLarge

Language

Models,Quantifying

and

extrapolating

the

capabilities

oflanguage

models,中信建投2.4

語言模型對訓練數據量提出更高需求?

在大模型中,模型參數量大小和訓練數據量應該以大致相同的速度增長。?

大模型普遍訓練不足的問題:DeepMind的最新論文中審視了當前的模型發展,發現普遍存模型的大小與訓練數據量不匹配。因為在過去,業界普遍認為大模型表現和參數量高度相關。但在實際訓練中,算力是對模型最大的制約因素,模型參數不可能無限增長。?

參數量與數據量應匹配:在算力資源有限情況下,如何匹配模型參數量和數據量使得模型表現達到最優,是非常重要的問題。?

DeepMind最新的研究成果表明:對于固定的算力資源,模型參數大小和訓練數據的大小是對應的。1)OpenAI過去的工作發現,模型的尺寸應該會比訓練數據大小的增加更快。2)DeepMind新研究發現,

模型的尺寸和訓練數據的數量應該以大致相同的速度增長。在最優性能曲線(右下圖三條直線)中:

DeepMind的Chinchilla

(700億)

模型,利用原先4倍的訓練數據量,獲得了參數量和性能的最優匹配??梢钥吹紾opher(2800億)、GPT-3(1750億)、MT-NLG

(5300億)等模型的訓練量明顯不足,造成了對算力的浪費。圖表:DeepMind訓練大模型的參數圖表:DeepMind發現很多大模型參數量應該有所降低ModelSize(#

Parameters)

Training

TokensLaMDAGPT-3137

Billion175

Billion178

Billion280

Billion530

Billion70

Billion168

Billion300

Billion300

Billion300

Billion270

Billion1.4

TrillionJurassicGopherMT-NLG

530BChinchilla資料:TrainingCompute-Optimal

Large

Language

Model,State

ofAI2022,中信建投2.5

高質量的數據集可能更為重要?

對于大型語言模型而言,數據質量可能更為重要。數據質量包括數據準確度、信息含量以及數據類型的多樣性等。?

多年前谷歌提出的T5預訓練模型,使用其專門構造的C4數據集(Colossal

Clean

CrawledCorpus),該數據集是從Common

Crawl網站上抓取數百個千兆字節干凈的英文文本,從而使得模型訓練后,性能有較好的表現。?

除了構造高質量、干凈的數據集外,對不同質量的數據在訓練中賦以不同的訓練占比也是提升訓練效果的方法。例如,GPT-3中數據集包括Common

Crawl在內的五類數據,但該模型并非根據數據量大小賦予同比例權重,而是將質量較高的維基百科數據在訓練集中給予更大的單數據量占比。?

阿伯丁大學等相關學者(資料據會在2030到2050年用光,而低質量圖像數據會在2030到2060年用光。2)對訓練數據集進行了估算,結論到2026年左右,高質量的

NLP

數據將會用光,低質量

NLP

數圖表:T5模型C4數據集表現(前四類數據集是C4或者基于C4的變體)圖表:GPT-3數據集DatasetSize

GLUE

CNNDM

SQnAD

SGLUE

EnDe

EnF

EnRoQuantityWeight

inEpochs

elapsedwhenDataset(tokens)

trainingmix

trainingfor

300BtokensC4745GB

83.286.1TB

81.4635GB

83.8317GB

84.0316GB

81.8519.2419.1419.2319.3119.3119.2880.8878.7880.3981.4281.2982.0871.36

26.98

39.82

27.6568.04

26.55

39.34

27.2172.38

26.75

39.90

27.4871.40

26.80

39.74

27.5968.01

26.94

39.69

27.6773.24

26.77

39.63

27.57C4,unfilteredRealNews-likeWebText-likeWikipediaCommonCrawl

(filtered)

410billion60%22%8%0.442.9WebText2Books119billion12billion55billion3billion1.9Books28%0.433.4Wikipedia

+

TBC

20GB

83.65Wikipedia3%資料:1.

Exploring

theLimits

ofTransfer

Learning

with

aUnified

Text-to-Text

Transformer

,2.Will

werunoutofdata?

Ananalysis

ofthe

limits

ofscaling

datasets

inMachine

Learning

,3.Language

Models

are

Few-Shot

Learners,中信建投2.6

大模型需要更充分的預訓練?

大模型預訓練階段主要通過在一定程度上增大batchSize(每一組數據的大小)和步長(在數據上移動的長度)實現。?

典型的增大batchsize與步長的模型是BERT的改進版本RoBERTa。RoBERTa是穩健優化的BERT方法,使用動態掩碼、更大的batchsize以及字節對編碼等進行優化。?

RoBERTa在BERT的基礎上,通過增大batchsize(8K)和步長(100K->300K->500K),使得BERT得到充分訓練,極大提升了原始BERT模型的效果。圖表:RoBERTa模型使用大的batchSize和增加訓練步數不同數據集的準確率SQuAD(v1.1/2.0)ModeldatabszstepsMNLl-mSST-2RoBERTawithBooKs+

WIKI+additional

data(§3.2)+pretrain

longer+pretrain

even

longerBERT

large16GB160GB160GB160GB8K8K8K8K100K100K300K500K93.6/87.394.0/87.794.4/88.794.6/89.489.089.390.090.295.395.696.196.4withBooKs+

WIKIXLNet

large13GB2561M90.9/81.886.693.7withBooKs+

WIKI+additional

data13GB2562K1M94.0/87.894.5/88.888.489.894.495.6126GB500K資料:RoBERTa:ARobustly

Optimized

BERT

Pretraining

Approach,中信建投2.7

增加預訓練任務的難度?

大模型在進行預測之前需要進行預訓練,如果預訓練任務越有難度,則預訓練模型則越能高效率學習知識,則最終模型能有更好的性能表現。以BERT為例,BERT有兩個預訓練任務,分別是單詞級的MASK語言模型和句子級的下一句預測NSP模型。?

MASK模型隨機選取一部分單詞進行屏蔽,要求模型對屏蔽詞作出預測。MASK任務中,相較于簡單屏蔽一個獨立的單詞,通過屏蔽連續的單詞片段,對模型要求更高,訓練效果也最好。?

NSP的主要目的是判斷兩個句子之間的連貫性,正例由兩個連續句子構成,負例的兩個句子順序則是隨機的,不具備上下文關系,NSP將連貫性預測和主題預測進行了合并,只需要模型預測句子是否主題相似即可,任務比較簡單。在BERT模型的改進版ALBERT中,用SOP代替了NSP,將兩個連續出現的句子構造成正例,負例則將連續的句子調換語序,需要模型預測兩個句子出現順序是否正確,模型復雜度增加,但同時模型學到了更多知識,取得了比較好的訓練效果。圖表:各種語言模型預訓練任務ObjectiveInputsTargetsPrefix

language

modelingBERT-styleThank

you

forinvitingmetoyour

party

lastweek

.(original

text)Thank

you

<M>

<M>metoyour

party

apple

week

.party

meforyour

to.last

funyou

inviting

weekThankThank

you

<M><M>metoyour

party

<M>week

.Thank

you

<X>metoyour

party

<Y>week

.Thank

you

metoyour

party

week

.Thank

you

<X>to<Y>week

.Deshuflling(original

text)MASS-style(original

text)l.i.d.noisE,replace

spansl.i.d.noise,

droptokensRandom

spans<X>forinviting

<Y>last

<Z>forinvitinglast<X>forinviting

me<Y>your

party

last

<Z>資料:Exploring

theLimits

ofTransfer

Learning

with

aUnified

Text-to-Text

Transformer,中信建投2.8

Fine-tune、Prompt提高模型下游任務表現?

大型語言模型預訓練之后,需要進行微調。Fine-tune方法將預訓練模型在具體的下游任務上進行微調,以獲得更好的應用效果。但是這種策略一方面需要保存大量的主干參數的數據且需要大量訓練數據,成本較高;另一方面,在上下游任務目標差異大時,微調難以解決問題;同時,不改變大部分參數,只針對輸出部分進行調整,會導致過擬合問題。?

Prompt方法主要通過改造下游任務的模板來縮小預訓練和微調時的差異,降低微調成本,提高模型在下游的應用效果。最大的優點是零/小樣本,解決了Fine-tune最大的痛點。Prompt的設計分為模板設計、答案搜索和答案映射三步。?

Prompt模板的設計方法主要分為人工構建模板、離散模板和連續模板三種。其中,人工構建的模板具有直觀、高效的特點,但是費時費力難度較大;離散模板對專業知識的要求較低,但是在部分任務上性能不佳;連續模板在部分場景下性能超過Fine-tune,但是訓練時間長、收斂速度慢,與預訓練數據可能出現過耦合。圖表:連續Propmt和Fine-tune調優效果對比圖表:離散Propmt和Fine-tune調優效果對比資料:Prefix-Tuning:

Optimizing

Continuous

Prompts

for

Generation,Autoprompt:

Eliciting

knowledge

from

language

models

with

automatically

generated

prompts,中信建投2.9

并行計算、顯存優化與模型稀疏性提升訓練效率?

并行計算、顯存優化與模型稀疏性設計是提升大模型訓練效率的三種技術。?

并行計算通過使用多張顯卡訓練模型,將任務進行拆解,分配給不同的處理器進行處理,可以提高模型的訓練效率。根據不同的維度,分為數據并行、流水線并行、張量并行三種。數據并行是將相同模型權重復制到多個設備,并將一部分數據分配給每個設備同時處理;流水線并行是一種通過將模型并行與數據流水線相結合來加速神經網絡訓練的方法,核心思想在于模型按層分割成若干塊,每塊都交給一個設備;張量并行是將一個張量沿特定維度分成若干部分在不同的設備上分別計算。?

顯存優化技術能夠降低顯存占用,提高GPU利用率,與并行計算相結合,節約模型訓練的成本,實現在單GPU上訓練大模型,包括激活檢查點(ActivationCheckpointing)、混合精度訓練(Mix

Precision

Training

)以及零冗余優化器(Zero

RedundancyOptimizer

)?

模型稀疏性指的是模型具有非常大的容量,但只有模型的用于給定的任務、樣本或標記的某些部分被激活。模型稀疏設計的優點在于輸入不會激活整個模型,通過子模型處理不同類的任務,同時共享一部分模型。子模型擴大了模型的容量,但是實際計算成本不會發生明顯變化。圖表:并行策略圖表:零冗余優化器優化過程圖表:專家混合模型(MoE)是典型的模型稀疏性方法資料:Diveinto

BigModel

Training,中信建投目錄一、NLP算法發展歷程介紹二、訓練好大模型的要素三、算力需求的展望四、投資邏輯梳理3.1

人工智能模型不同時段的算力需求人工智能模型的算力需求大致可以分為三個階段:

2010年以前,深度學習尚未得到廣泛應用,

主要還是基于統計的方法進行模型搭建,算力需求的增長相對緩慢,大致每20個月翻一倍。

2010-2015年,深度學習模型在傳統的自然語言、計算機視覺等領域開始戰勝支持向量機等算法,深度學習模型開始成為主流算法,隨著神經網絡的層數和參數量的提升,算力需求的增長速度也顯著加快,大致每6個月翻一倍。

2016年之后,人工智能模型開始進入巨量參數時代,算力需求顯著提升。根據英偉達的算力統計顯示,自2017年之后,以Transformer模型為基礎架構的大模型算力需求提升大致是每2年提升275倍。圖表:AI模型的算力需求逐步提升圖表:Transformer模型的算力需求顯著高于其他模型資料:State

of

AI

Report,英偉達,中信建投3.2

預訓練自然語言模型對算力提出更高需求?

隨著大規模預訓練自然語言模型的提出,模型的訓練過程中提出了更高的算力要求。預訓練模型通過無需人工標注的大規模文本庫進行高算力的預先訓練,得到通用的語言模型和表現形式,再經過特定應用環境對預訓練模型進行微調,從而在各種下游應用領域得到目標任務的快速收斂和準確率提升。預訓練模型在訓練過程中不針對下游任務進行訓練,模型的泛化學習能力使其具備廣泛的下游適應能力,泛化學習能力與模型的參數量密切相關,因而參數巨量化成為預訓練模型的典型特征。同時隨著訓練數據量的顯著提升,預訓練模型的訓練過程中對算力提出了更高的要求。圖表:大規模自然語言模型的參數量和算力需求圖表:訓練大規模自然語言模型的算力需求算力需求(PF-訓練數據量(百

算力需求(每參模型算力需求(flops)

參數量(百萬)days)萬tokens)數·每文本)chatGPTT5-Small2.08E+001.80E+20601,0003T5-BaseT5-Large7.64E+002.67E+011.04E+023.82E+021.89E+006.16E+001.74E+014.93E+012.60E+007.42E+001.58E+012.75E+015.52E+011.39E+022.68E+026.60E+202.31E+219.00E+213.30E+221.64E+205.33E+201.50E+214.26E+212.25E+206.41E+201.37E+212.38E+214.77E+211.20E+222.31E+222207701

,0001

,0001,0001,000250333366666666666T5-3B3,00011,000109T5-11BBERT-BaseBERT-LargeRoBERTa-BaseRoBERTa-LargeGPT-3

SmallGPT-3

MediumGPT-3

LargeGPT-3

XL3552501252,0002,0003003551253563007603001,3202,6506,66012,850300GPT-3

2.7BGPT-3

6.7BGPT3

13B300300300GPT-3

175B3.64E+033.14E+23174,6003006資料:LanguageModels

areFew-Shot

Learners,中信建投3.3

超大規模自然語言模型的算力需求邁上新臺階?

預訓練自然語言模型進入千億參數時代,模型訓練算力邁上新臺階。自GPT-3模型之后,大規模的自然語言模型進入了千億參數時代,2021年之后涌現出諸多千億規模的自然語言模型,模型的訓練算力顯著增加。GPT-3模型參數量為1750億,訓練算力需求為3.14E+23

flops,當前各種預訓練語言模型還在快速的更新迭代,不斷刷新自然語言處理任務的表現記錄,單一模型的訓練算力需求也不斷突破新高。圖表:超大規模自然語言模型的發展進程GPT-N

eoX

(20B)GPT-j(6B)M

egatronTuring-N

LG

(137B)BLOOM

(176B)C

h

in

ch

illa(70B)chatG

PTGPT-3(175B)Pan-Gu

(200B)FLAN

(137B)Gopher(280B)OPT

(175B)Ja

n

2022Aug

2022June

2020M

ay

2021Aug

2021Sep

2021M

ay

2022Nov

2022H

yperCLO

VA

(204B)Yuan

1.0

(246B)

LaM

DA

(280B)GLM

(130B)PaLM

(540B)Jurassic-1

Jum

bo

(204B)Ernie

3.0

Titan

(260B)資料:State

of

AI

Report,中信建投3.4

大模型的算力需求主要來自三個環節?

大模型的算力需求主要來自于三個環節:

預訓練得到大模型的訓練環節。該環節中,算力呈現海量需求且集中訓練的特點,大模型通常在數天到數周內在云端完成訓練。

適應下游領域時進一步fine-tune環節。算力需求取決于模型的泛化能力以及下游任務的難度情況。

大模型日常運行時的推理環節。該環節中,算力取決于模型的參數量和用戶調用量,需求在模型商業化后持續存在且波動較大。圖表:大模型算力需求訓練算力日常運行時的算力需求書籍文章網絡對話商業應用chatGPT、LaMDA等預訓練模型數據獲取數據清洗模型訓練適應下游領域時Fine-tune算力資料:中信建投3.5

英偉達顯卡是AI模型算力的主流選擇?

英偉達顯卡是AI模型中最常用的算力芯片。英偉達顯卡憑借較高的靈活性和成熟的軟件生態,成為當前AI模型的主流選擇,根據學術論文的統計結果,英偉達顯卡使用的頻次是FPGA的23倍,TPU的78倍。?

英偉達顯卡實現人工智能算力的顯著提升。從V100-A100-H100的發展路徑來看,英偉達顯卡實現了FP64、FP32算力能力的持續提升,AI模型的訓練速度穩步加快,通過引入FP16、INT8

Tensor

core,實現推理能力的顯著提升,單位能耗下的訓練和推理能力也實現穩步提升。圖表:不同AI芯片在人工智能論文中的出現頻次圖表:英偉達不同GPGPU的性能參數比對H100A100A800V100型號34679.719.59.77.8FP64(TFlops)19.515.7FP32(TFlops)1979395880624624

-1248

-80FP16Tensor

core(TFlops)INT8Tensor

core(TFlops)12488032900GPUGB)顯存(335090020396002039400GPU

GB/s帶寬(

)300GB/s互連()700400400300功耗(W)2022.032020.032022.112017.5發布時間資料:State

of

AI

Report,英偉達,中信建投3.6

AI服務器專注實現人工智能加速?

隨著AI算力的需求提升,衍生出專注人工智能加速的AI服務器。在小模型時代,AI模型的訓練和推理算力需求相對較小,依賴個人終端就可以實現。隨著模型參數的逐漸提升,AI模型開始依賴云端算力,云服務器承載了主要的算力需求。當前,AI算力在數據中心的占比進一步提升,衍生出了更加專業化的AI服務器。?

以GPU為主的AI服務器實現人工智能的算力加速。AI服務器多采用異構架構,其中以2CPU+8GPU最為常見,AI服務器具有性能優越、擅長并行計算、高帶寬、散熱能力強等優點。圖表:傳統云服務器與AI服務器圖表:云服務器與AI服務器的差異AI服務器云服務器AI服務器2

CPU+8

GPU傳統云服務器典型配置計算性能適用領域2

CPU側重串行計算側重并行計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論