




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1告計算機告計算機華泰研究專題研究增增持(維持)計算機TLLM梳理GPT系列模型的演進過程,可以看到2022年是GPT系列模型圍繞GPT-3、GPT-3.5加速版本迭代的重要節點,2022年11月,ChatGPT成功面世,成為歷史上用戶增長最快的消費者應用。與Google、FaceBook等公司不同,OpenAI從初代模型GPT-1開始,始終貫徹只有解碼器 (Decoder-only)的技術路徑,2018-2022年GPT系列模型幾乎按照每年公司GPT系列模型的階段性勝利,也是大語言模型LLM的里程碑式勝利,后續圍繞LLM的技術升級、應用拓展有望加速開啟,AI產業發展或將提速。POChatGPT、InstructGPT分別是基于GPT-3.5、GPT-3微調得到的新版本模型,其核心目標是實現模型輸出與人類預期的需求對齊(alignment),人類反饋強化學習RLHF成為模型需求對齊的重要技術支持。ChatGPT、InstructGPT的模型訓練主要包括三步:1)有監督微調SFT:通過指示學習對模型進行有監督微調;2)獎勵模型RM訓練:借助人工標注員對模型輸出進行排序,反饋訓練得到獎勵模型,此步是人類反饋的重要體現;3)近段策略優化PPO強化學習:通過監督學習策略生成PPO模型,優化、迭代原有模型參數。總結來看,RLHF讓模型輸出更加符合用戶預期。ChatGPTVSInstructGPT:核心是基礎大模型的不同對比ChatGPT與InstructGPT的訓練方法,可以發現,兩者的訓練方法基本一致,核心區別在于InstructGPT、ChatGPT分別基于GPT-3、GPT-3.5進行模型微調。與GPT-3相比,GPT-3.5增加了代碼訓練與指示微調:1)代碼訓練(Code-training):讓GPT-3.5模型具備更好的代碼生成與代碼理解能力,同時間接擁有了復雜推理能力;2)指示微調(Instruction-tuning):讓GPT-3.5模型具備更好的泛化能力,同時模型的生成結果更加符合人類的預期。作為基于GPT-3.5的模型微調產物,ChatGPT具備更好的問答能力,更加遵循人類的價值觀。OpenAIVSGoogle:OpenAI貫徹Decoder-only路徑,技術集大成者通過梳理Google與OpenAI在LLM領域的布局,可以看到,OpenAI具備OpenAI的LLM均采用Decoder-only架構,單一架構的持續深耕與模型參數的不斷擴大,讓OpenAI的GPT系列模型具備強大的學習能力與文本生成能力;2)技術集大成者:ChatGPT的發展不僅得益于GPT模型參數、訓練數據的持續優化,也得益于各類LLM新技術的融會貫通,OpenAI博采gRLHFGPT的深度應用,ChatGPT是現有技術的集大成者。風險提示:宏觀經濟波動;下游需求不及預期;本報告內容均基于客觀信息整理,不構成投資建議。研究員SACNo.S0570519080006SFCNo.BQZ938聯系人SACNo.S0570122080053春生xiechunsheng@+(86)2129872036yuanzeshi@+(86)2128972228行業走勢圖計算機滬深300(%)3(6)(16)(25)(34)Feb-22Jun-22Oct-22Feb-23資料來源:Wind,華泰研究 ChatGPT/InstructGPT:增加人類反饋強化學習(RLHF) 4優化目標:從提示學習到指示學習,聚焦需求對齊(alignment) 4 步驟一:有監督微調(SFT)訓練 6步驟二:獎勵模型(RewardModel,RM)訓練 8步驟三:近端策略優化(PPO)強化學習 9論文結論:RLHF是GPT需求對齊的重要支撐 10ChatGPTVSInstructGPT:核心是基礎大模型的不同 11GPT-3到GPT-3.5,基礎大模型能力再升級 11GPT具備三大優勢 12OpenAIVSGoogle:OpenAI貫徹Decoder-only路徑,技術集大成者 14 總結:厚積薄發,ChatGPT引發AI產業范式革命 16 IGPTOpenAI式對話機器人ChatGPT,上線僅2個月,月活用戶數已突破1億,成為歷史上用戶增長最快的消費者應用?;仡櫞笳Z言模型(LargeLanguageModel,LLM)的發展歷史,可以發ookOpenAIGPTDecoderonly技術路徑,2018-2022年GPT系列模型幾乎按照每年一代的速度,不斷升級迭代。我們認應用拓展有望加速開啟。2022年OpenAI加速GPT模型的版本迭代,ChatGPT融合多技術優勢。通過梳理GPT系列模型的演進過程,可以看到2022年是GPT系列模型圍繞GPT-3、GPT-3.5加速版本成為Instruction-tuning、RLHF、思維鏈等LLM相關技術的集大成者。我們認為,ChatGPT是OpenAI基于GPT系列模型的階段性成果,未來隨底層大模型的持續拓展,AI產業發展或將提速。資料來源:OpenAI官網、Google官網、CSDN、華泰研究ChatGPT/InstructGPT:增加人類反饋強化學習(RLHF)優化目標:從提示學習到指示學習,聚焦需求對齊(alignment)從模型微調到提示學習再到指示學習,GPT模型零次學習能力不斷提升。2022年論文《FinetunedLanguageModelsAreZero-ShotLearners》提出指示學習(Instruction-tuning)思想,以提升模型的零次學習能力。對比來看:1)模型微調(Fine-tuning):以GPT-1 (Prompt-learning):以GPT-3為代表,需要少量的微調數據樣本,模型小樣本學習 (few-shotLearning)能力更強;3)指示學習(Instruction-learning):以FLAN、InstructGPT、ChatGPT為代表,模型通過下游多類型任務的指示微調,零次學習(zero-shotLearning)能力更強;同時,提示學習與指示學習均為一個模型解決多類任務。圖表2:模型微調(Fine-tuning)、提示學習(Prompt-learning)、指示學習(Instruction-tuning)對比資料來源:《FinetunedLanguageModelsareZero-shotLearners》,JasonWei(2022)、華泰研究聚焦模型輸出與人類需求對齊,引入人類反饋強化學習。GPT系列模型發展至GPT-3,已經在翻譯、問答、摘要等任務上取得了良好的性能,研究者開始更加關注模型生成內容的有用性(Helpful)、真實性(Honest)、無害性(Harmless),希望實現模型輸出內容與人類偏好內容的需求對齊(alignment)。為提升模型的“3H”特性,從InstructGPT開始,InstructGPT、ChatGPT均引入人類反饋強化學習(ReinforcementLearningfromHumanFeedback,RLHF),實現基于人類反饋的模型微調,讓模型輸出更符合人類期待。資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究人類反饋可作為強化學習的獎勵,通過引入語言模型微調,可使模型輸出與人類需求對齊。從技術原理來看,強化學習通過獎勵(Reward)機制來指導模型訓練,獎勵機制可視為傳統訓練機制的損失函數;同時,獎勵的計算要比損失函數更靈活、多樣(例如AlphaGO的獎勵是對局的勝負),代價是獎勵計算不可導,不能直接用來做反向傳播;強化學習的思路是通過對獎勵的大量采樣來擬合損失函數,從而實現模型的訓練。類似的,人類反饋也不可導,也可以作為強化學習的獎勵,從而產生基于人類反饋的強化學習。圖表4:人類反饋強化學習(RLHF)基本原理資料來源:《DeepReinforcementLearningfromHumanPreferences》,PaulFChristiano(2017)、華泰研究ChatGPT與InstructGPT的訓練方法基本一致。了解ChatGPT與InstructGPT的優化目標之后,我們需要進一步梳理模型的具體訓練過程。對比論文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》(2022)中的InstructGPT訓練方法與OpenAI官方發布的ChatGPT訓練方法,我們看到,ChatGPT與InstructGPT的訓練方法基本一致,尚未有官方論文發布,我們以InstructGPT論文為基準,對InstructGPT的訓練過程進行了詳細梳理,具體可分為有監督微調、獎勵模型訓練、PPO強化學習三個步驟。注:圖中藍色部分為InstructGPT訓練示意、粉色部分為ChatGPT訓練示意資料來源:OpenAI官網、《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究步驟一:有監督微調(SFT)訓練使用人工標注數據對GPT-3進行有監督微調(Supervisedfine-tuning,SFT)訓練。由于GPT-3是基于提示學習的生成模型,因此SFT模型的數據集也是由提示-答復對組成的樣本。為實現模型從提示學習向指示學習跨越,OpenAI采用人工編寫多類別提示的方法,對GPT-3模型進行有監督微調。首先,OpenAI委托標注員(40人標注團隊)人工設計了包含三類內容(簡單任務、few-shot任務、基于用戶需求的任務)的提示樣本promptdataset;其次,委托標注團隊對promptdataset進行標注(本質上是人工回答問題),由此構成提示-答復對數據集;最后,用標注過的數據集微調GPT-3,得到SFT模型。圖表6:有監督微調(SFT)訓練過程示意圖資料來源:《IllustratingReinforcementLearningfromHumanFeedback(RLHF)》,NathanLanmbert(2022)、華泰研究SFT數據集數據量較小,數據質量、多樣性更加重要。根據InstructGPT論文中提供的數據顯示,SFT數據集一部分來自使用OpenAI的PlayGround的API用戶,另一部分來自OpenAI雇傭的40名標注員(labeler),其中訓練數據大小僅約為13K(來自標注員的數據約為11.3K、來自API用戶的數據約為1.4K)??紤]到InstructGPT是在GPT-3的基礎上進行模型微調,GPT-3已經具備較好的文本生成能力,SFT數據集的質量、多樣性對于提升模型性能來說更為重要。圖表7:有監督微調(SFT)數據集來源及大小資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究1)數據多樣性:以InstructGPT論文披露的獎勵模型RM數據集為例(未披露SFT數據集任務分類占比),RM數據集包括文本生成、開放式問答、頭腦風暴、對話、改寫、摘要、分類等10類任務,任務類型多樣且占比不同;以RM數據集為推測依據,SFT數據集作為初始種子數據集,為提升模型的泛化能力,通常具備更好的數據多樣性;圖表8:獎勵模型(RM)數據集分類占比分類3%分類3%總結4%改寫7%4改寫7%對話8%對話8%2%頭腦風暴11%文本生成文本生成46%12%資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究2)數據質量:作為初始的種子數據集,SFT數據集大部分數據來自標注團隊,而非API數據采樣,因此SFT數據集具有更好的數據質量;同時OpenAI在標注團隊的人員組成上,充分考慮了性別、身份、國籍、年齡、學歷等因素的差異性。其他66%女44%50%5%5%5%5%5%5%4%5%5%5%5%17%22%22%阿爾巴尼亞比亞巴布韋資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究11%5%11%5%47%26%25-3445-54資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究碩士37%高中10%大學53%資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究步驟二:獎勵模型(RewardModel,RM)訓練通過RLHF的思路訓練獎勵模型。這一階段的主要目標,在于借助標注員的人工反饋,訓練出更符合人類意愿的獎勵模型,為監督策略建立評價標準。訓練獎勵模型的過程同樣可以分為三步:1)任務采樣:抽樣出一個prompt問題及SFT模型的k個輸出結果;2)結果排序:標注員將這k個結果按質量好壞排序,形成C組訓練數據對({sample,reward}pairs);3)RM訓練:使用C組訓練數據對({sample,reward}pairs)訓練獎勵模型,讓獎勵模型更加理解人類偏好。圖表13:獎勵模型(RM)訓練過程示意圖資料來源:《IllustratingReinforcementLearningfromHumanFeedback(RLHF)》,NathanLanmbert(2022)、華泰研究兩兩對比,最大化“更喜歡”和“更不喜歡”的差值。為了更加清晰地理解此輪步驟中排序和訓練,我們針對InstructGPT論文介紹的方法,進行了更為通俗的解釋。針對一個ptSFTkk果的好壞進行排序;為了讓RM更好地學習人類偏好,可先通過C組分別計算loss損失函數值,再將C組結果求和取均值,損失函數的目標是最大化更喜歡的結果和更不喜歡的結果之間的差值;通過loss函數的梯度回傳,RM模型逐漸學會給更喜歡的結果打高分,給更不喜歡的結果打低分,從而實現了人類偏好的模仿。資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究步驟三:近端策略優化(PPO)強化學習通過訓練好的RM模型和近端策略優化PPO算法優化SFT模型策略。近端策略優化 (ProximalPolicyOptimization,PPO)是一種強化學習算法,核心思路在于將PolicyGradient中On-policy的訓練過程轉化為Off-policy,即將在線學習轉化為離線學習。具PPO然后,不再借助人工評估結果好壞,而是利用步驟二訓練的RM模型去對SFT模型的預測結果進行打分排序,即用“AI訓練AI”。此階段可以循環多次,從而得到參數質量更好的模型。圖表15:近端策略優化(PPO)強化學習示意圖資料來源:《IllustratingReinforcementLearningfromHumanFeedback(RLHF)》,NathanLanmbert(2022)、華泰研究人類反饋主要體現在RM階段。總結來看,InstructGPT以及ChatGPT的訓練過程可概括為:首先通過人工標注數據promptdataset對原始模型V0(GPT-3或GPT-3.5)進行有監督微調,得到模型V1;其次,讓模型V1對一個prompt進行多個輸出,并通過人工進行輸出結果排序并訓練獎勵模型RM;最后,繼續訓練模型V1,給定一個prompt,得到輸出后由獎勵模型RM繼續完成打分,反復迭代后得到最終的InstructGPT或ChatGPT。人類標注員參與SFT訓練與RM訓練兩個過程,其中人類反饋主要體現在RM階段。資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究(模型輸出優先于175BSFT模型的頻率)(模型輸出優先于175BSFT模型的頻率)RLHF有效優化了模型輸出,輸出結果更加符合人類意愿。InstructGPT論文中分別訓練了13億、60億、1750億三個參數規模的InstructGPT模型,實驗證明:13億參數規模的InstructGPT模型(PPO-ptx)在多場景下的輸出效果均優于1750億參數規模GPT-3模型。人類反饋強化學習RLHF方法的引入,一方面能夠盡可能地對齊(Alignment)GPT的輸出,讓GPT具備對用戶更加友好的語言邏輯,微調出用戶友好型GPT;另一方面,人工反饋的引入,幫助模型更好的理解人類思維和意圖,訓練結果更符合人類的需求。GPT GPT(prompted)SFTPPOPPO-ptx1.3B6B175B資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究模型的“3H”特性顯著提升,輸出內容更有用、更真實、更無害。為了衡量InstructGPT模型的有用性(Helpful)、真實性(Honest)、無害性(Harmless)是否得到改善,InstructGPT論文在公開可用的數據集上使用現有指標,對比了InstructGPT與GPT-3的模型性能。與GPT-3相比,根據TruthfulQA指標,InstructGPT產生的模仿性錯誤更少;根據RealToxicity指標,InstructGPT輸出的毒性更??;根據API提示分布進行人工評估,發現InstructGPT更少地編造事實(“幻覺”),并生成更合適的輸出??偨Y來看,InstructGPT模型輸出內容的有用性、真實性、無害性均得到一定程度的提升。注:毒性、致幻性得分越低越好,真實性、適當性等分越高越好資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究ChatGPTVSInstructGPT:核心是基礎大模型的不同訓練方法基本一致,核心區別是基礎大模型的不同。對比OpenAI官網介紹的ChatGPT訓練方法與InstructGPT論文介紹的InstructGPT訓練方法,兩者的訓練方法基本一致,核心區別在于InstructGPT、ChatGPT分別基于GPT-3、GPT-3.5進行模型微調。為了充分理解ChatGPT與InstructGPT的能力差異,我們梳理了從GPT-3到GPT-3.5發展過程。1)GPT-3元年(2020):2020年7月,OpenAI發表論文《LanguageModelsareFew-Shot并用few-shot取代zero-shot,模型泛化能力得到進一步提升;2)GPT-3系列(2021.08-2022.03):2021年8月,論文《EvaluatingLargeLanguageModelsTrainedonCode》發表,基于GPT-3進行代碼訓練微調,得到Codex通用代碼生成模型,對應OpenAIAPI中的code-cushman-001;2022年3月,論文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》發表,基于GPT-3模型,經過SFT訓練+RM訓練+PPO強化學習,得到InstructGPT模型,其中SFT部分對應了OpenAIAPI中的davinci-instruct-beta、text-davinci-001;3)GPT-3.5系列(2022.04-2022.6):2022年4月,兼具語言模型、代碼訓練、指示微調penAIAPIcodedavinci2022年5-6月,基于code-davinci-002的有監督指令微調(supervisedinstructiontuned)模型text-davinci-002發布,此次指令微調降低了模型的上下文學習能力,但增強了模型的零次學習能力;4)ChatGPT時代(2022.11):2022年11月,基于text-davinci-002進行RLHF指令微調的兩種變體模型出現,分別為text-davinci-003、ChatGPT;其中text-davinci-003恢復了text-davinci-002中丟失的部分上下文學習能力,同時得益于RLHF進一步改進了零次學習能力;ChatGPT則具備了建模對話歷史的能力。資料來源:《HowdoesGPTObtainitsAbility?TracingEmergentAbilitiesofLanguageModelstotheirSources》,YaoFu(2022)、華泰研究與GPT-3相比,GPT-3.5增加代碼訓練(Code-training)與指示微調(Instruction-tuning)。根據上文對GPT-3及GPT-3.5系列模型的發展梳理,不難看出以code-davinci-002(用于代碼生成)、text-davinci-002(用于文本生成)為代表的GPT-3.5模型,與GPT-3模型相比增加了代碼訓練、指示微調兩個訓練步驟。1)代碼訓練:經過前期的代碼訓練,GPT-3.5模型具備更好的代碼生成與代碼理解能力,同時間接擁有了使用思維鏈進行復雜推理的能力;2)指示微調:經歷Instruction-tuning,GPT-3.5具備更好的模型泛化能力,同時模型的生成結果更加符合人類的預期。資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,LongOuyang(2022)、華泰研究GPT-3.5具備三大優勢,ChatGPT實現優勢融合?;谀P陀柧毜某掷m優化,與GPT-3相比,GPT-3.5具備三大優勢:更強的復雜推理能力,更好的人類指令響應,更全面的文本、代碼生成能力。作為基于GPT-3.5的模型微調產物,ChatGPT實現了Code-training、Instruction-tuning、RLHF等訓練的優勢整合,我們針對ChatGPT優勢進行能力溯源:1)預訓練大模型:ChatGPT具備的語言生成能力、基礎世界知識、上下文學習能力等基本能力均來源于基于Transformer的模型預訓練;大量知識的存儲能力依托于龐大的模型參數(GPT-3模型參數為1750億);2)代碼訓練:ChatGPT具備較好的代碼生成與代碼理解能力,同時具備執行復雜推理的能力,主要得益于代碼訓練Code-training的引入;初代GPT-3未進行過專門的代碼訓練,因此在代碼生成、理解方面能力相對較差,同時推理(思維鏈)能力也較差;因此可以判斷,代碼訓練是ChatGPT上述能力的重要來源;3)人類反饋強化學習:ChatGPT具備更好的問答能力,同時可以拒絕不當的問題、拒絕知識范圍之外的問題,這些在對話問答上的突出表現,得益于人類反饋強化學習RLHF的訓練,讓ChatGPT更加遵循人類的價值觀,同時擁有了建模對話歷史、增加對話信息量等資料來源:《HowdoesGPTObtainitsAbility?TracingEmergentAbilitiesofLanguageModelstotheirSources》,YaoFu(2022)、華泰研究ChatGPTOpenAI月30日,ChatGPT正平均每天約有1300萬獨立訪客。面對ChatGPT的領先發布與熱烈反響,2022年2月8日,Google在發布會上開啟對話機器人Bard首秀,相較于ChatGPT的突出表現,Bard呼吁員工進行Bard的內部測試、優化。Decoder-only+技術博采眾長,兩大特點助力ChatGPT成功面世。通過梳理2017年起,Google與OpenAI在LLM領域的布局可以看到,OpenAI具備兩大突出特點:1)貫徹Decoder-only技術路線:從GPT-1到ChatGPT,OpenAI的LLM均采用Decoder-only架構,單一架構領域的持續深耕與模型參數的不斷擴大,讓OpenAI的GPT系列模型具備強大的學習能力與文本生成能力;2)技術集大成者:ChatGPT的發展不僅得益于GPT模LLM會貫通,OpenAI博采眾長,加速新技術在GPT系列模型中的深度應用。注:紅框內淺粉色高亮的三種預訓練語言模型是2019年三類典型模型資料來源:OpenAI官網、Google官網、CSDN、華泰研究Decoder-only具備文本生成優勢,OpenAI深耕布局。OpenAI自2018年的GPT-1起,在模型架構上始終堅持Decoder-only的技術路徑,得益于Decoder-only架構在文本生成上的天然性優勢(具體分析可參考華泰計算機2023年2月14日發布的報告《GPT產業復盤 (2019):大容量路線》),ChatGPT在對話、翻譯等文本生成任務中更具優勢;對比來看,Google2018年、2019年推出的BERT、T5分別采用Encoder-only、Encoder-Decoder技術方案,直至2021年10月推出的FLAN模型才采用Decoder-only方案;LLMChatGPT是LLM領域的技術集大成者。從ChatGPT的技術路徑演進過程來看,其底層技術可視為Transformer+Prompt-Learning+Instruction-tuning+RLHF+PPO+思維鏈的融合。1)Tansformer:2017年6月,Google發布論文《AttentionIsAllYouNeed》,提出Transformer模型;2)RLHF:2017年7月,DeepMind(Google旗下人工智能企業)與OpenAI聯合發布論文《DeepReinforcementLearningfromHumanPreferences》,提出人類反饋強化學習RLHF方法;3)PPO:2017年8月,OpenAI發表論文《ProximalPolicyOptimizationAlgorithms》,提出對TRPO算法的改進PPO算法;4)Prompt-Learning:2020年7月,OpenAI發布論文《LanguageModelsareFew-ShotLearner》,開啟基于Prompt的NLP新學習范式的研究熱潮;5)Instruction-tuning:2021年9月,Google發布論文《FinetunedLanguageModelsareZero-shotLearners》,提出指示微調(Instruction-tuning)方法;6)思維鏈:2022年4月Google發布論文《Pathways:AsynchronousDistributedDataflowforML》,提出PathwaysLanguageModel(PaLM)模型,并提出思維鏈(Chain-of-ThoughtPrompting)技術;從各項技術的提出時間和提出者來看,ChatGPT融合的各項技術不僅由OpenAI公司獨立penAI技術與GPT模型的有機融合,這也成為ChatGPT優勢能力的重要來源。資料來源:Google官網、OpenAI官網、華泰研究我們認為,2022年是GPT系列模型厚積薄發的階段性勝利之年,基于GPT-3.5微調產生的ChatGPT在模型演變與模型應用上均有較大突破:1)模型演變上:ChatGPT是基于GPT-3.5大模型微調生成的專注對話式生成的語言模型,其本質上是GPT系列模型多年來厚積薄發的產物。GPT系列模型從2018到2020年,沿著大模型參數、多訓練數據的方向持續演進,到GPT-3時代已經具備了較強的模型泛化能年,GPT-3.5(GPT-3經過代碼訓練、指示微調的產物)成為新一代大模型基礎,GPT的強大文本生成能力,OpenAI進一步引入Instruction-tuning、RLHF等技術,迭代生成ChatGPT模型。我們認為,ChatGPT模型的成功具有重要的引導意義,單一大模型或為未來AI訓練主流方向。2)模型應用上:相比過去的AI產品,ChatGPT在應用領域、商業化等層面呈現出新的特點。應用領域方面:ChatGPT屬于生成式AI,相比于分析型AI,ChatGPT不局限于已有的內容,在文藝創作、代碼處理、營銷等眾多創造性場景內有更為突出的表現。商業化方面:ChatGPT在商業化方面彰顯出強于以往AI應用的潛力,一方面得益于用戶數快速增長,另一方面得益于微軟為代表的科技巨頭支持。提示宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對IT投資產生負面影響,從而導致整體行業增長不及預期。下游需求不及預期。若下游數字化需求不及預期,相關的數字化投入增長或慢于預期,致使行業增長不及預期。本報告內容均基于客觀信息整理,不構成投資建議。公司代碼公司簡稱公司簡稱GOOGLUS谷歌未上市OpenAI未上市DeepMind資料來源:Bloomberg、華泰研究分析師聲明本人,謝春生,茲證明本報告所表達的觀點準確地反映了分析師對標的證券或發行人的個人意見;彼以往、現在或未來并無就其研究報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露本報告由華泰證券股份有限公司(已具備中國證監會批準的證券投資咨詢業務資格,以下簡稱“本公司”)制作。本報告所載資料是僅供接收人的嚴格保密資料。本報告僅供本公司及其客戶和其關聯機構使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認為可靠的、已公開的信息編制,但本公司及其關聯機構(以下統稱為“華泰”)對該等信息的準確性及完整性不作任何保證。本報告所載的意見、評估及預測僅反映報告發布當日的觀點和判斷。在不同時期,華泰可能會發出與本報告所載意見、評估及預測不一致的研究報告。同時,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。以往表現并不能指引未來,未來回報并不能得到保證,并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態。華泰對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司不是FINRA的注冊會員,其研究分析師亦沒有注冊為FINRA的研究分析師/不具有FINRA分析師的注冊資華泰力求報告內容客觀、公正,但本報告所載的觀點、結論和建議僅供參考,不構成購買或出售所述證券的要約或招攬。該等觀點、建議并未考慮到個別投資者的具體投資目的、財務狀況以及特定需求,在任何時候均不構成對客戶私人投資建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。對依據或者使用本報告所造成的一切后果,華泰及作者均不承擔任何法律責任。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報告中所引用的關于業績的數據代表過往表現,過往的業績表現不應作為日后回報的預示。華泰不承諾也不保證任何預示的回報會得以實現,分析中所做的預測可能是基于相應的假設,任何假設的變化可能會顯著影響所預測的回報。華泰及作者在自身所知情的范圍內,與本報告所指的證券或投資標的不存在法律禁止的利害關系。在法律許可的情況下,華泰可能會持有報告中提到的公司所發行的證券頭寸并進行交易,為該公司提供投資銀行、財務顧問或者金融產品等相關服務或向該公司招攬業務。華泰的銷售人員、交易人員或其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進行更新的義務。華泰的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。投資者應當考慮到華泰及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本報告視為投資或其他決定的唯一信賴依據。有關該方面的具體披露請參照本報告尾部。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布的機構或人員,也并非意圖發送、發布給因可得到、使用本報告的行為而使華泰違反或受制于當地法律或監管規則的機構或人員。本報告版權僅為本公司所有。未經本公司書面許可,任何機構或個人不得以翻版、復制、發表、引用或再次分發他人(無論整份或部分)等任何形式侵犯本公司版權。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并需在使用前獲取獨立的法律意見,以確定該引用、刊發符合當地適用法規的要求,同時注明出處為“華泰證券研究所”,且不得對本報告進行任何有悖原意的引用、刪節和修改。本公司保留追究相關責任的權利。所有本報告中使用的商標、服
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 管道工程行業熱點問題研究考核試卷
- 清潔能源消納策略與電力市場機制考核試卷
- 海洋油氣鉆采工程風險管理與保險考核試卷
- 煤炭資源勘探技術考核試卷
- 太陽能并網發電技術考核試卷
- 海底工程作業平臺的穩定性分析考核試卷
- 毛條染色工藝與設備操作考核試卷
- 畜牧良種繁殖與農業科技創新政策考核試卷
- 遼寧師范大學海華學院《內科學A》2023-2024學年第二學期期末試卷
- 南京傳媒學院《Spark大數據技術與應用》2023-2024學年第二學期期末試卷
- 帕金森病的作業治療
- 外國教育史知到智慧樹章節測試課后答案2024年秋山東師范大學
- 手術室信息安全管理制度
- 社區創建消防安全示范社區方案樣本(4篇)
- 人教版-音樂-九年級下冊-《隱形的翅膀》教學課件
- 《沉積礦床》課件
- 甲醇合成工段設計
- 動態心電監測設備行業發展趨勢預測及戰略布局建議報告
- 電化學儲能電站檢修規程知識培訓
- GB/T 19413-2024數據中心和通信機房用空氣調節機組
- 工業自動化設備維護保養操作手冊
評論
0/150
提交評論