




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
12023年03月20日人工智能系列深度報告:AIGC行業綜述篇陳夢竹(證券分析師)S0350521090003chenmz@陳凱藝(聯系人)S0350121070080chenky@本篇報告主要解答了以下問題:AI、AIGC當下發展處于什么階段?未來將呈現怎樣的趨勢?AIGC的核心生產要素是什么?各生產要素的發展趨勢如何?NLP、CV、ASR、TTS算法及發展?ChatGPT為何“火爆出圈”?AIGC包括什么?已有哪些產品?應用現狀及前景如何?有哪些企業進行了布局?商業模式如何?u行業發展:人工智能步入新發展階段,逐步邁向AGI;AIGC擁抱人類,創造人機交互新變革,將迎來更多新機遇。人工智能從理論發展分為四個階段:規則導向、機器學習、深度學習、自主學習階段,目前處于深度學習階段;從應用成熟度可分為三個階段:弱人工智能階段(ANI)、強人工智能階段(AGI)、超人工智能階段(ASI目前處于ANI階段;從應用類型可分為四種:感知式AI與分析式AI應用較成熟,決策式AI近年來發展迅速,生成式AI迎來突破。生成式AI,即AIGC,較傳統內容創作模式UGC、PGC可實現更大數量、更高質量、更低單位成本,未來將從輔助創作生成趨向高度自動化自主創造。此外,AIGC將賦能多領域,加速人機共生的建設,迎接更多機遇與挑戰。u技術進步:算力是支撐,數據是瓶頸,算法迎來突破。算力層,近年來大模型流行,模型參數量迅速膨脹,所需計算資源越來越大,算力是AIGC核心生產要素;而AI芯片全球短缺,美對華芯片制裁升級,我們認為國內短期算力充足,長期仍需要逐步實現AI芯片國產化替代。數據是機器學習的核心,AI發展的瓶頸,數據決定模型質量的上限;大模型訓練需要海量且優質數據,AI對數據訓練集的消耗量遠大于人類數據生產的速度,專業領域、圖像視頻等數據獲取和標注成本也將越來越高,我們認為加速商業化,實現數據反哺是對提高數據量、降成本的重要解決辦法。算法層,近年來迎來不少突破,過去NLP領域以RNN及其變體為主,CV領域以CNN及其變體為主,但各有優劣,Transformer架構突破了RNN不能并行計算的限制,較CNN有更好的計算局部特征間的關聯等,自2017年開始在NLP領域應用、變種升級,Transformer在多模態的發展和應用將讓AI越來越多的向人類推理方式靠近,以實現AGI。AIGC包括文本/音頻/圖像/視頻/代碼/3D/數字人/跨膜態生成等,目前文本、音頻和圖像領域都迎來較大突破,圖像生成的突破是Difussion的出現,文本生成的突破則是GPT的出現,AIGC基本采用GAN算法,算法及產品越來越豐富多元,AI因AIGC的蓬勃發展,已開啟技術與應用的新篇章。u應用概覽:技術突破實現應用創新。AI小模型是過去主流的研究和應用方向,在B端部分行業、賽道已有不少企業布局,預計未來仍將依托其細分行業、細分賽道的先發優勢和數據、項目實施經驗、產品優勢等壁壘仍將有較好的發展。但大模型尚未實現商業價值閉環,未來需要重點關注數據、算法層面的突破與變革,探索新的商業模式,目前已在影視、傳媒、電商、C端娛樂規模應用,游戲領域逐步應用,金融、工業、醫療、法律、設計等專業領域還在持續拓展。u產業布局:科技巨頭全面布局,中下游廠商百花齊放。國外主要以微軟、谷歌、Meta為主,國內以百度、騰訊、阿里、華為等為主,既擁有充足的算力支撐,又有優秀的人才團隊,多年算法、數據積累,在大模型領域的發展及應用具備天然優勢。上游除云廠商外,還有光通信廠商、數據服務商、算力相關設備廠商,將較大程度受益于大模型發展帶來的更多計算資源和數據需求。中游有商湯、科大訊飛、曠視、拓爾思等企業多年細分領域布局,部分也有一定算力儲備,垂直行業細分賽道深耕,相關技術、數據儲備豐富。下游主要是受益于AIGC對業務的驅動、降本增效,空間較大,多行業公司均將逐步受益。u商業模式:商業化初啟,期待產業生態、技術與產品發展完善。小模型在B端已應用多年,大模型商業剛剛開始,主要是MaaS,包括大模型廠商自用,實現增量或降本增效;云廠商“MaaS+IaaS”打包輸出;替代翻譯、美工、原畫師、程序員、分析師、設計師等繁瑣重復的低端工作等。大模型商業價值閉環未成,國內SaaS生態、付費意識較差,商業落地還需要各行各業共同發展、相互奔赴,共建良好產業生態。u風險提示:人工智能發展不及預期,AIGC發展不及預期;技術發展不及預期;商業化拓展不及預期;行業競爭加劇風險;中美科技競爭不確定性風險。請務必閱讀報告附注中的風險提示和免責聲明請務必閱讀報告附注中的風險提示和免責聲明2核心分析框架.......................................................................................................................................................................................................................................................................................6核心分析框架:每一輪人機交互的變革都會帶來產業級投資機會核心分析框架:期待算力、數據、算法的突破,邁向強人工智能AGI階段核心分析框架:AIGC與PGC、UGC內容創作模式對比核心分析框架:機器學習分為訓練和推理,數據決定上限,算法逼近上限核心分析框架:數據是機器學習的核心,也是機器學習的瓶頸核心分析框架:隨著模型參數量的提升,算力需求顯著增加核心分析框架:AIGC——生產力的革命核心分析框架:ChatGPT史上用戶數增長最快核心分析框架:當模型規模達到某個閾值時,模型出現涌現能力核心分析框架:ChatGPT采用RLHF學習機制,效果優于GPT-3的無監督學習核心分析框架:AIGC何時突破工業紅線?關注數據、算法和商業模式破局核心分析框架:互聯網大廠全面布局,中小廠商主要發力中下游環節核心分析框架:產業鏈各環節發展趨勢核心分析框架:大模型商業化初啟,小模型在部分領域已實現商業價值閉環核心分析框架:總成本持續提升,但同級別參數消耗量將顯著下降一、行業篇:人工智能發展步入新階段,AIGC創造新機遇.......................................................................................................................................................................................................22每一輪人機交互的變革都會帶來產業級投資機會AI發展歷程:期待算力、數據、算法的突破,邁向強人工智能AGI階段AIGC發展歷程:文本、代碼生成技術較成熟,圖片、視頻生成值得期待內容創作模式進化:去中心化↑連接數量↑創作速度↑創作規模↑內容創作模式進化:從供給轉變為需求導向,從單次轉變為多次生產內容創作模式對比:AIGC實現內容創作呈高質量、大數量、低成本趨勢AIGC演進趨勢:輔助生產自動化獨立創作請務必閱讀報告附注中的風險提示和免責聲明3二、技術篇:算力是支撐,數據是核心,算法逐步迎來突破........................................................................................................................................................................................................機器學習:分為訓練和推理,數據決定上限,算法逼近上限數據:機器學習的核心,也是機器學習的瓶頸算力:隨著模型參數量的提升,算力需求顯著增加AIGC:生產力的革命AIGC模型:參數量持續提升、開源模型逐漸豐富NLP算法:迎來突破,但算力、數據需求過高等問題待解決NLP算法:Transformer開辟NLP新路徑,架構優化促成衍生模型ChatGPT:史上用戶數增長最快,源于算法的突破、高質量的數據庫ChatGPT-算法:當模型規模達到某個閾值時,模型出現涌現能力ChatGPT-算法:采用RLHF學習機制,效果優于GPT-3的無監督學習ChatGPT-反思:站在巨人的肩膀之上,開源開放期待更多可能和變革三、應用篇:技術突破實現應用創新,已在多領域落地........................................................................................................................................................................................................AIGC何時突破工業紅線:重點關注數據、算法的突破和商業模式的發展AIGC應用:已在影視、傳媒領域規模應用AIGC應用:已在電商、C端娛樂規模應用AIGC應用:已在游戲領域逐步應用AIGC應用:在金融、計算機、教育、工業、醫療等專業領域還在持續拓展AIGC應用:在法律、農業、設計等專業領域還在持續拓展請務必閱讀報告附注中的風險提示和免責聲明4四、企業布局:科技巨頭全面布局,中下游廠商百花齊放...............................................................................................................................................................................................廠商布局:互聯網大廠全面布局,中小廠商主要發力中下游環節產業鏈各環節發展趨勢AIGC相關標的——上游企業AIGC相關標的——中游企業AIGC相關標的——下游企業五、商業模式:商業化初啟,期待產業生態、技術與產品發展完善...........................................................................................................................................................................................58商業模式:大模型商業化初啟,小模型在部分領域已實現商業價值閉環商業模式:開始商業化嘗試,會員制+按次收費為主成本測算-訓練成本:總成本持續提升,但同級別參數消耗量將顯著下降風險提示..............................................................................................................................................................................................................................................................................................62請務必閱讀報告附注中的風險提示和免責聲明5核心分析框架請務必閱讀報告附注中的風險提示和免責聲明請務必閱讀報告附注中的風險提示和免責聲明6產業機會核心分析框架:每一輪人機交互的變革都會帶來產業級投資機會產業機會等 NetScape放棄Excite,以來最具變革性的產代的Macintosh計算項目的負責人辭職并建立了網景通訊公司,推作為Windows95的默認瀏覽器,改變了用戶網智能,人較為被動本處于主動地位out、Outside-in、云計算/邊緣計算、等變革變革節點人機交互模式請務必閱讀報告附注中的風險提示和免責聲明7核心分析框架:期待算力、數據、算法的突破,邁向強人工智能AGI階段規則導向機器學習深度學習理論發展硬件奠基,算法發展21世紀初期至今核心硬件發展,算法突破基于大規模數據識別、預測算力、數據、算法全面突破展與大數據出現展與大數據出現。感知式AI廠分析式AI始于1980s,起源于分析式AI,生成新的內容;2022年迎來突破。分析式AI始于1960s,利用邏輯推理等方法進行分析和解決;興盛于機器學ANIAGI資料來源:智東西,國海證券研究所資料來源:智東西,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明8傳統的PGC與UGC模式受到規模、質量和成本的制約,而AIGC則能夠有效地彌補PGC與UGC模式的不足,具有生成內容規模大、質量高、單位成本低的優勢,將會成為元宇宙在算力與算法支撐下,AIGC內容生成規模所受到的限制遠低于PGC與UGC,AIGC可以在極短時間內生成大量內容用戶成為內容創作的主角提升了互聯網的內容生產規模內容生產來源于專業組織或個人,內容規模有限 成本支出隨著內容規模的增加而同比增長,但總成本增長速度PCG>UGC>AIGCPGCUGCAIGC 隨著算法與模型不斷優化,AIGC生成內容的質量將會逐漸超過UGC與PGCPGC生產者的專業性保證了內容質量UGC模式下內容生產質量良莠不齊 單位成本AIGC模式具有顯著的規模遞減優勢,其成本支出主要在于模型算法開發與硬件等固定成本領域,所以在元宇宙場景下,AIGC生成內容規模越大,其單位內容生成的邊際成本將會逐漸下降且無限逼近于零PGC與UGC模式下單位內容生產成本下降幅度有限PGCUGC資料來源:《先利其器:元宇宙場景下的資料來源:《先利其器:元宇宙場景下的AIGC及其GLAM應用機遇》王諾等,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明9核心分析框架:機器學習分為訓練和推理,數據決定上限,算法逼近上限?機器學習可以分為訓練和推理兩個階段,訓練是指使用已知數據集訓練機器學習模型;推理是指使用已訓練好的模型對新的數據進行預測、分類等任務。?數據和特征決定了機器學習的上限,模型和算法逼近上限。訓練從原始數據訓練從原始數據根據分類、回收集數據數據準備特征工程模型選擇模型訓練模型評估模型調優模型部署和應用存儲;數據的質量和梳理對算法效果至關重要;也推理數據預處理模型加載輸入轉換模型推理輸出轉換結果后處理推理數據預處理模型加載輸入轉換模型推理輸出轉換結果后處理結果展示發布/開源功能特點的深度神經網絡。期刊發表論文約80%使用Pytorch。資料來源:各框架官網,資料來源:各框架官網,EasyAI,GitHub,機器之心,國海證券研究所(注:GitHubStar為截止2023.3.13主體框架star數據)請務必閱讀報告附注中的風險提示和免責聲明10核心分析框架:數據是機器學習的核心,也是機器學習的瓶頸數據決定了機器學習算法的性能、泛化能力、應用效果;數據獲取、標注、清洗、存儲也是機器學習瓶頸之一。步驟定義成本占比特點展望通過爬蟲、API接口、數據采購等方););來越多,數據獲取邊際成本將逐步降低。40%-50%無監督學習逐漸流行,自動化程度逐步升高簡單數據集標注需求下降;但專業領域和復雜數據集仍需要人工標注,且人工單位成本更高;隨著人工智能快速發展,智能化程度的提升,數據標注全根據數據類型和需求,進行缺失值處理、異常值處理、噪聲處理、重復數據處理、數據格式轉換等。20%-30%提高模型準確性和可靠性。般可以通過編寫自動化的腳本或者使用一些現成的工具來實現,以去除無效或者重復的數據;隨著人工智能快速發展,智能化程度的提升,數據清洗全將機器學習算法需要用到的數據保存擇合適的數據格式存儲,不同格式會影響讀取速度、空間占比等;大規模數據需要選擇合適的數據格式存儲,不同格式會取速度、空間占比等;大規模數據集需要進行分割資料來源:專家調研,資料來源:專家調研,Appen,Defined.ai,Mindflow,PhoenixNAP,EasyAI,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明11核心分析框架:隨著模型參數量的提升,算力需求顯著增加訓練大模型的算力消耗上升,且增速變快訓練大模型的算力消耗上升,且增速變快算力消耗每24個月翻倍(摩爾定律)算力消耗每3.4個月翻倍←Pre-GPU計算算力消耗每2個月翻倍→GPU計算資料來源:量子位,《IntelligentComputing:TheLatestAdvances,Challenges,andFuture》SHIQIANGZHU等,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明12畫)等。視頻生成3D生成數字人游戲生成代碼生成跨模態?2014年提出,由生成器網絡(Generator)和判別不斷提高生成樣本真實性和判別器準確性。?優點:生成樣本質量高,無需大量數據標注,適用于多種數據類型,可用于數據增強。需要大量計算資源,容易過擬合。視頻生成、實時交互?視頻生成、實時交互?2019年提出,多模態數據預訓練,實現多種模態數據的聯合表示。?優點:泛化能力、數據利用率、模型魯棒性和可遷移性高。rctAI、超參數、騰訊AIrctAI、超參數、騰訊AILab、網易伏羲等。?策略生成:對戰策略等。代碼補全、自動注釋、根據上下文/注釋自動代碼補全、自動注釋、根據上下文/注釋自動視頻生成文本等;未來將有更多跨模態應用進步,不需要明確地計算數據的先驗概率分布。通過“擴散”來執行隱空間中的推斷。較低。資料來源:量子位,wuhu動畫人空間,數據派THU資料來源:量子位,wuhu動畫人空間,數據派THU,Forbes,《GenerativeAImproveModelRobustnessandUncertainty》Hendrycks核心分析框架:ChatGPT史上用戶數增長最快2015-11-112018-62019-2-1422015-11-112018-62019-2-142?初期為非盈利AI研究公司性質;?啟動資金10億美元。BooksCorpus數據集作為語料庫,Tokens為1.3B;?結合無監督學習及有監督的微調。?參數量15億;監督情況下執行多種任務。?結合少樣本學習及無監督學習。InstructGPT發布?參數量13億;?運用RHLF,利用獎勵模型訓練學習模型;?在遵循指令及輸出內容等性能方面優于GPT-3。?基于GPT-3.5預訓練?截至2023年1月末,活躍用戶超過1億,成為史上用戶增長最快的應用。?預計為多模態大模型(語音、圖像、視頻);ChatGPT4。ChatGPT發布后市場反應熱烈算力、數據、人才、資金的投入算力、數據、人才、資金的投入杰出的用戶體驗算法的突破算法的突破對于通用任務的效果會顯著提升;):該學習方式使得ChatGPT在無人工標注數據的條件訓練,數據更?RLHF(ReinforcementLearningFromHumanFeedba資料來源:資料來源:OpenAI官網,《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《LanguageModelsareFew-ShotLearners》TomB.Brown等,《Traininglanguagemodelstofollowinstructionswithhumanfeedback》LongOuyang等,澎湃新聞,Heise,每日智匯,GitHub,《What‘sinmyAI》AlanD.Thompson,通信世界網,LifeArchitect,芯東西,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明14核心分析框架:當模型規模達到某個閾值時,模型出現涌現能力模型誤差結論是:模型的表現與模型的規模之間服音標標注填字謎音標標注填字謎波斯語問答準確率準確率準確率繪制地圖多任務自然語言理解準確率繪制地圖多任務自然語言理解《EmergentAbilitiesofLargeLangu請務必閱讀報告附注中的風險提示和免責聲明15資料來源:《ScalingLawsforNeuralLanguageMo請務必閱讀報告附注中的風險提示和免責聲明15核心分析框架:ChatGPT采用RLHF學習機制,效果GPT-3采用無監督學習機制,優點在于無需人工進行數據而ChatGPT采用RLHF學習機制,即人工反饋的強化學習,屬于強化學習。不同于傳統的相比于傳統的有監督學習機制,ChatGPT無需提前對訓練數據進行標注,而只需要對有監督學習有監督學習vs無監督學習RLHF學習機制無標簽的數據模型無標簽的數據模型高中低高中低PPOPPO模型生成回答用回報模型計算前一階段訓練好的模型給出的回答,得到分數回報分數/策略梯度可以更新PPO模型參數階段3使用PPO強化學習法優化回報預訓練模型的參數階段2通過人工標注訓練數據來訓練從用戶提交的指令/問題中隨機抽取一批新的命令標注人員根據多種標準對許多答案從優到差進行排序階段1由監督模型初始化PPO模型的參數專業的標注者對制定的提示給出高質量回答利用以上排序結果來訓練回報模型專業人員用標注數據來調優GPT-3.5標注一批模型產出及提示隨機從信息庫抽取指令資料來源:競科技,甲子光年,國海證券研究所資料來源:競科技,甲子光年,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明16核心分析框架:AIGC何時突破工業紅線?關注數據、算法和商業模式破局小模型:專業領域,細分行業小模型:專業領域,細分行業大模型:通用型、任務型、行業級參與方大模型技術巨頭參與方大模型技術巨頭+第三方服務商解決解決數據是瓶頸:數據增強、遷移學習、數據合成、數據要人才是關鍵:“挖角”、企業高校合作。優秀的華人很多,但更多的在谷歌、微軟、MeAI商業價值閉環:技術進步、國家支持、巨頭推動、生態建設、市場價值觀、倫理、政治風險等:從技術層面讓AI更可控,不要發展的那么快。先發優勢)、規模效應+飛輪效應技術成本(前期訓練成本、數據成本、人才成本,后期使用的推理成本),與帶來的增量或給企業實現降本增效相比,還不足以驅動企業資料來源:量子位,資料來源:量子位,InfoQ,新智元,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明17核心分析框架:互聯網大廠全面布局,中小廠商主要發力中下游環節AIGC產業鏈圖譜n云計算(未上市)華為n芯片(未上市)地平線nIDCn光模塊n服務器液冷n數據供給方n多模態(未上市)珍島(未上市)中科聞歌(未上市)瀾舟科技n策略生成(未上市)rctAI(未上市)超參數科技nNLP(學術機構)清華大學n3D生成(未上市)聚力維度n代碼生成(學術機構)清華大學(學術機構)中國科學技術大學(學術機構)哈爾濱工業大學n虛擬人(未上市)小冰公司(未上市)倒映有聲(未上市)相芯科技(未上市)心識宇宙n視頻生成(未上市)邁吉客(未上市)影譜科技n傳媒n營銷n教育n虛擬人n游戲n政務nC端應用(未上市)寫作貓(未上市)寫作狐(未上市)盜夢師(未上市)詩云科技(未上市)ZMO.ai(未上市)影譜科技(未上市)帝視科技(未上市)不咕剪輯資料來源:量子位,各公司官網,互動易,深圳市人工智能行業協會,國海證券研究所資料來源:量子位,各公司官網,互動易,深圳市人工智能行業協會,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明18核心分析框架:產業鏈各環節發展趨勢代表機構百度云昆侖芯片百度各產品數據行業合作伙伴數據先發優勢具有較多的行業數據和專業知識數據互聯網大廠(全面布局)百度文心大模型包括在文心大模型中的各類行業模型與B端企業有廣泛合作百度搜索百度各類產品的內容推薦阿里阿里云平頭哥芯片淘寶、天貓電商數據阿里云B端數據阿里M6大模型-合作較多電商搜索阿里云和企業服務在大模型研發上具有資金和人才優勢騰訊騰訊云微信用戶數據騰訊視頻、新聞數據騰訊游戲數據混元大模型騰訊游戲AI合作較少騰訊游戲AINPC微信等產品的自媒體創作、內容推薦具有較多的用戶數據和娛樂內容數據華為華為云海思芯片手機用戶數據盤古大模型盤古大模型中的各類行業模型合作較少較少深耕上游和中游賦能下游廠商谷歌谷歌云搜索數據谷歌學術Youtube數據Imagen、ExTS、PaLM等-合作較少Bard+GoogleAI賦能搜索業務,同時快速積累新用戶微軟Azure云Office用戶數據Bing搜索數據LayoutLM、DiT以及OpenAI旗下的大模型-較多企業接入chatGPTchatGPT+Bing接口chatGPT+OfficeAI賦能搜索和辦公業務,同時快速積累新用戶學術機構(中游為主)清華大學中國科學技術大學哈爾濱工業大學等主要通過外購互聯網公開數據√√合作方向主要為學術研究-政府支持人才儲備中小廠商(中下游為主)中游小模型廠商主要通過外購垂直行業數據-垂直行業模型√√行業know-how積累行業數據下游應用廠商主要通過外購垂直行業數據--√√客戶粘性用戶粘性產業鏈核心競爭要素規模效應政府補助前期研發投入數據規模數據質量數據獲取成本資金能力技術能力人才儲備行業Know-how行業數據先發優勢行業know-how內部用戶規模和業務數據積累;業務和AI技術結合的可行性產業鏈未來發展方向頭部效應↑邊際成本↓通用類數據集中于大廠,而垂直行業數據分散頭部效應↑百花齊放通用型內容生成集中于大廠,而垂直行業解決方案百花齊放大廠對外提供服務的同時內部賦能,小廠采取外購的方式更加經濟資料來源:瀾舟科技,AspenCore,海思,前瞻產業研究院,IDC,機器之心,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明19核心分析框架:大模型商業化初啟,小模型在部分領域已實現商業價值閉環大模型小模型商業模式MaaS(ModelasaService)垂直行業解決方案1)按調用次數或調2)按年/月訂閱3)定制服務,特定領域再開發,將大模型和數據庫打包,按項目收費。1)一站式解決方案面向用戶企業、機構、個人企業、機構細分行業企業毛利率推理算力成本,毛利率可達80%+。含再開發項目實施費用。標準化產品,毛利率可達90%+。含外購硬件,毛利率30%-70%。提供商OpenAI、微軟、谷歌、Meta、百度、阿里、華為、騰訊、商湯、科大訊飛、字節、京東等。科大訊飛、商湯、曠視、云從、依圖、虹軟、格靈深瞳、云天勵飛、拓爾思、海康威視等。商業模式付費邏輯谷歌、微軟必應搜索引擎,造更多可直接面向C端的產品,SaaS廠商根據調用情1)企業開發者調用后自用或個人用戶自行調用,基于自身需求調用付費;2)為SaaS廠商提供產品付分析、決策式AI,部分存在生成式AI,已有中美差距差距不大且均有較大需求,甚至生態差距較大,美國SaaS廠商面向全球,中國SaaS龍頭或者科技巨頭提供相關AI驅動的解決方案;中國不局資料來源:國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明20核心分析框架:總成本持續提升,但同級別參數消耗量將顯著下降??但隨著模型壓縮、蒸餾等,同參數量級別的模型算力消耗量會顯著下降。?數據標注:有兩個方向,一是無監督學習流行、標注自動化提升,數據標注成本下降;而是對于?隨著數據量快速膨脹,訓練數據集需求越來越大,數據存儲成本也將相應提升。?AI資產復用、自動化程度提升,規模效應,單位算力成本數據成本注:參考ChatGPT、百度文心、阿里M6、華為盤古大模型數據表:各大模型全局訓練成本概覽模型算力成本占比數據成本占比人力成本占比單次完整訓練價格(萬美元/次)全年完整訓練次數(次)全年訓練成本(萬美元)已投入金額(萬美元)ChatGPT370%20%400-10002000左右4300左右ChatGPT3.560%25%400-1000不到2000資料來源:專家訪談,國海證券研究所資料來源:專家訪談,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明21請務必閱讀報告附注中的風險提示和免責聲明請務必閱讀報告附注中的風險提示和免責聲明22產業機會每一輪人機交互的變革都會帶來產業級投資機會產業機會等成立,后NetScrpe放棄Excite,開始使用以來最具變革性的產代的Macintosh計算項目的負責人辭職并建立了網景通訊公司,推作為Windows95的默認瀏覽器,改變了用戶網實現跑酷);2022年,OpenAI發布人工智能技術驅動的自然語言智能,人較為被動本處于主動地位out、Outside-in、云計算/邊緣計算、等變革變革節點人機交互模式請務必閱讀報告附注中的風險提示和免責聲明23請務必閱讀報告附注中的風險提示和免責聲明23AI發展歷程:期待算力、數據、算法的突破,邁向強人工智能AGI階段規則導向機器學習深度學習理論發展硬件奠基,算法發展21世紀初期至今核心硬件發展,算法突破基于大規模數據識別、預測算力、數據、算法全面突破展與大數據出現展與大數據出現。感知式AI廠分析式AI始于1980s,起源于分析式AI,生成新的內容;2022年迎來突破。分析式AI始于1960s,利用邏輯推理等方法進行分析和解決;興盛于機器學ANIAGI資料來源:智東西,國海證券研究所資料來源:智東西,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明24AIGC發展歷程:文本、代碼生成技術較成熟,圖片、視頻生成值得期待深度學習算法不斷迭代AIGC僅限于小范圍實驗深度學習算法不斷迭代AIGC僅限于小范圍實驗早期萌芽階段給出判定機器是否具有“智能”的試驗方法進行內容生成進行內容生成沉淀積累階段2007年,世界第一部完全由人工智能創作的快速發展階段20182018年,人工智能生成的畫作在佳士得拍賣行得以43.25萬美元成交,成為首個出售的人IanJ.Goodfellow提出生成《依利亞克組曲》完成將英文演講內容自動翻譯為中文語音2017年,微軟“小冰”提出世界首部100%由人工智能創作的詩集《陽光失了玻璃窗》2019年,DeepMind發布DVD-GAN模型用以“Eliza”問世2018年,英偉達發布StyleGAN模型可以自動代碼生成視頻/3D生成資料來源:億歐網,紅杉資本,中國信通院《人工智能生成內容(資料來源:億歐網,紅杉資本,中國信通院《人工智能生成內容(AIGC)白皮書》,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明25內容創作模式進化:去中心化↑連接數量↑創作速度↑創作規模↑創作主體 渲染一鏡頭所見 創意鏡頭所想 創意一設備創作過程創作規模創作規模資料來源:詩云科技,國海證券研究所資料來源:詩云科技,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明26供給導向的真實世界→需求導向的虛擬世界供給導向:真實世界信息的“數字化”+創意“數字化”真實世界虛擬世界供給導向的真實世界→需求導向的虛擬世界供給導向:真實世界信息的“數字化”+創意“數字化”真實世界虛擬世界!利用真實資源形產品!電商/交易協作/辦公利用虛擬資源生產和消耗虛低效率的單次生產→高效率的多次生產資料來源:資料來源:rctAI,詩云科技,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明27內容創作模式對比:AIGC實現內容創作呈高質量、大數量、低成傳統的PGC與UGC模式受到規模、質量和成本的制約,而AIGC則能夠有效地彌補PGC與UGC模式的不足,具有生成內容規模大、質量高、單位成本低的優勢,將會成為元宇宙在算力與算法支撐下,AIGC內容生成規模所受到的限制遠低于PGC與UGC,AIGC可以在極短時間內生成大量內容用戶成為內容創作的主角提升了互聯網的內容生產規模內容生產來源于專業組織或個人,內容規模有限 成本支出隨著內容規模的增加而同比增長,但總成本增長速度PCG>UGC>AIGCPGCUGCAIGC 隨著算法與模型不斷優化,AIGC生成內容的質量將會逐漸超過UGC與PGCPGC生產者的專業性保證了內容質量UGC模式下內容生產質量良莠不齊 單位成本AIGC模式具有顯著的規模遞減優勢,其成本支出主要在于模型算法開發與硬件等固定成本領域,所以在元宇宙場景下,AIGC生成內容規模越大,其單位內容生成的邊際成本將會逐漸下降且無限逼近于零PGC與UGC模式下單位內容生產成本下降幅度有限PGCUGC資料來源:《先利其器:元宇宙場景下的資料來源:《先利其器:元宇宙場景下的AIGC及其GLAM應用機遇》王諾等,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明28發展趨勢生產模式生產主體生產力限制技術要求生產人生產內容機器輔助審核機器輔助加工機器有條件自動生產內容機器高度自動生產內容機器完全自動生產內容生產人和機器生產人和機器生產人和機器生產人和機器生產人和機器生產人和機器部分受限部分受限字規范性核查,人物/機構/地域等實體屬性?在內容審核過程中自動?根據內容模板利用線上數據自動生成內容?采集素材的規范性與準確性審核?支持固定位置的線下設備進行數據采集?支持根據已設定的內容模板對原始數據進行加工后自動生成內容?支持可移動設備自動進行數據采集AI滲透率↑AI滲透率↑AI滲透率↑AI滲透率↑生產力↑技術能力↑資料來源:中國新聞技術工作者聯合會《機器生產內容自動化分級》團體標準,國海證券研究所資料來源:中國新聞技術工作者聯合會《機器生產內容自動化分級》團體標準,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明29二、技術篇:算力是支撐,數據是核心,算法逐步迎來突破請務必閱讀報告附注中的風險提示和免責聲明請務必閱讀報告附注中的風險提示和免責聲明30機器學習:機器學習分為訓練和推理,數據決定上限,算法逼近上限?機器學習可以分為訓練和推理兩個階段,訓練是指使用已知數據集訓練機器學習模型;推理是指使用已訓練好的模型對新的數據進行預測、分類等任務。?數據和特征決定了機器學習的上限,模型和算法逼近上限。訓練從原始數據訓練從原始數據根據分類、回收集數據數據準備特征工程模型選擇模型訓練模型評估模型調優模型部署和應用存儲;數據的質量和梳理對算法效果至關重要;也推理數據預處理模型加載輸入轉換模型推理輸出轉換結果后處理推理數據預處理模型加載輸入轉換模型推理輸出轉換結果后處理結果展示發布/開源功能特點的深度神經網絡。期刊發表論文約80%使用Pytorch。資料來源:各框架官網,資料來源:各框架官網,EasyAI,GitHub,機器之心,國海證券研究所(注:GitHubStar為截止2023.3.13主體框架star數據)請務必閱讀報告附注中的風險提示和免責聲明31數據:機器學習的核心,也是機器學習的瓶頸數據決定了機器學習算法的性能、泛化能力、應用效果;數據獲取、標注、清洗、存儲也是機器學習瓶頸之一。步驟定義成本占比特點展望通過爬蟲、API接口、數據采購等方););來越多,數據獲取邊際成本將逐步降低。40%-50%無監督學習逐漸流行,自動化程度逐步升高簡單數據集標注需求下降;但專業領域和復雜數據集仍需要人工標注,且人工單位成本更高;隨著人工智能快速發展,智能化程度的提升,數據標注全根據數據類型和需求,進行缺失值處理、異常值處理、噪聲處理、重復數據處理、數據格式轉換等。20%-30%提高模型準確性和可靠性。般可以通過編寫自動化的腳本或者使用一些現成的工具來實現,以去除無效或者重復的數據;隨著人工智能快速發展,智能化程度的提升,數據清洗全將機器學習算法需要用到的數據保存擇合適的數據格式存儲,不同格式會影響讀取速度、空間占比等;大規模數據需要選擇合適的數據格式存儲,不同格式會取速度、空間占比等;大規模數據集需要進行分割資料來源:專家調研,資料來源:專家調研,Appen,Defined.ai,Mindflow,PhoenixNAP,EasyAI,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明32算力:隨著模型參數量的提升,算力需求顯著增加訓練大模型的算力消耗上升,且增速變快訓練大模型的算力消耗上升,且增速變快算力消耗每24個月翻倍(摩爾定律)算力消耗每3.4個月翻倍←Pre-GPU計算算力消耗每2個月翻倍→GPU計算資料來源:量子位,《IntelligentComputing:TheLatestAdvances,Challenges,andFuture》SHIQIANGZHU等,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明33畫)等。視頻生成3D生成數字人游戲生成代碼生成跨模態?2014年提出,由生成器網絡(Generator)和判別不斷提高生成樣本真實性和判別器準確性。?優點:生成樣本質量高,無需大量數據標注,適用于多種數據類型,可用于數據增強。需要大量計算資源,容易過擬合。視頻生成、實時交互?視頻生成、實時交互?2019年提出,多模態數據預訓練,實現多種模態數據的聯合表示。?優點:泛化能力、數據利用率、模型魯棒性和可遷移性高。rctAI、超參數、騰訊AIrctAI、超參數、騰訊AILab、網易伏羲等。?策略生成:對戰策略等。代碼補全、自動注釋、根據上下文/注釋自動代碼補全、自動注釋、根據上下文/注釋自動視頻生成文本等;未來將有更多跨模態應用進步,不需要明確地計算數據的先驗概率分布。通過“擴散”來執行隱空間中的推斷。較低。ImproveModelRobustnessandUncertainty》HendrycksAIGC模型:參數量持續提升、開源模型逐漸豐富谷歌Goper(280B)LaMDAGoper(280B)百度Ernie3.0Titan(260B)InspurA121LabsJurassicA121LabsJurassic-1(204B)Yuan1.0(246B)BigScienceBLOOM(176B)MetaGPT-3(175B)OPTBigScienceBLOOM(176B)MetaGPT-3(175B)OPT(175B)谷歌FLAN(137B)MegatronTuring-NLG(137B)GPT-NeoX(20B)華為盤古(200B)清華大學GLM(130B)GPT-j(6B)小模型階段小模型(smallmodels)占主規模競賽階段GoogleResearch的一篇里程碑式練和運行所需的成本。開發人員的谷歌PaLM(540B)谷歌PaLM(540B)資料來源:紅杉資本,《資料來源:紅杉資本,《stateofAIreport2022》,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明35參數較少,訓練速度更快。流動,并引入記憶單元,解決了梯度消失問題,可處理更長序列。1998年正式提出,具備參數共享和平移類和匹配任務;但不擅長捕捉序列中的長期依賴關系,1990s興起,可處理任一長度輸入序列,同時具有記憶功能;但容易出現梯度消失或梯度爆炸。近年來逐步發展,基于GNN,引入異質性注意力機制,捕捉不同類型的節近年來逐步發展,基于GNN,引入異質性注意力機制,捕捉不同類型的節卷積神經網絡適應地學習不同位置的重要性,從而更好地捕捉文本中的重要信息;可以并行計算,因此模型發布時間發布者特點?目前主要是無監督學習,因此對于文本處發展性GPT2018OpenAI單向自回歸方式來預訓練模型,可以生成連貫的文本,但可能存在信息丟失的問題BERT2018谷歌雙向訓練架構,從而可以適應各種下游任務,但需要更多的文本數據和訓練資源。RoBERTa2019MetaBERT的改進,去掉了下一句預測任務,更大規模的數據集和動態掩碼,較BERT提升模型魯棒性和泛化能力,但訓練和推理的計算成本更高,訓練時間更長,訓練數據要更多。XLNet2019CMU、谷歌BERT的改進,自回歸+自編碼訓練,較BERT具有更好的建模能力、更強泛化能力,但需要更多的訓練數據和更高的計算成本。T52019谷歌通用型的文本生成模型,適用各種NLP任務,但需要大量計算資源和時間,在某些任務上的性能略遜于特定領域模型。SwitchTransformer2021谷歌1.6萬億參數(2021.1),目前參數量最大的NLP模型;基于T5模型,采用創新的簡化稀疏路由機制,相較傳統自回歸模型,在效率、可擴展性和生成質量等都具備較大優勢,但需要更大的模型和更多的訓練數據。資料來源:資料來源:EasyAI,機器之心,《EmpiricalEvaluationofGatedRecurrentNeuralNetworksonSequenceModeling》JunyoungChung等,《Gradient-BasedLearningAppliedtoDocumentRecognition》YannLeCun等,《HeterogeneousGraphNeuralNetwork》ChuxuZhang等,《AttentionIsAllYouNeed》AshishVaswani等,OpenAI官網,《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》JacobDevlin等,《RoBERTa:ARobustlyOptimizedBERTPretrainingApproach》Y《XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding》ZhilinYang等,《ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformer》ColinRaffel等,《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity》WilliamFedus等,請務必閱讀報告附注中的風險提示和免責聲明36Transformer模型——特征提取器資料來源:《Attentionisallyouneed》Vaswani等,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明37?例:翻譯Theanimaldidn’tcros而Self-Attention機制的引入使得模型不僅能夠關注當前位置法。在英譯德測試中,TransformerBaBLEU值顯著高于兩款基于RNN和CN機器翻譯能力;在英譯法測試中,亦有三款Tr50英譯德英譯法2015-11-112018-62019-2-1422015-11-112018-62019-2-142?初期為非盈利AI研究公司性質;?啟動資金10億美元。BooksCorpus數據集作為語料庫,Tokens為1.3B;?結合無監督學習及有監督的微調。?參數量15億;監督情況下執行多種任務。?結合少樣本學習及無監督學習。InstructGPT發布?參數量13億;?運用RHLF,利用獎勵模型訓練學習模型;?在遵循指令及輸出內容等性能方面優于GPT-3。?基于GPT-3.5預訓練?截至2023年1月末,活躍用戶超過1億,成為史上用戶增長最快的應用。?預計為多模態大模型(語音、圖像、視頻);ChatGPT4。ChatGPT發布后市場反應熱烈算力、數據、人才、資金的投入算力、數據、人才、資金的投入杰出的用戶體驗算法的突破算法的突破對于通用任務的效果會顯著提升;):該學習方式使得ChatGPT在無人工標注數據的條件訓練,數據更?RLHF(ReinforcementLearningFromHumanFeedba資料來源:資料來源:OpenAI官網,通信世界網,芯東西,每日智匯,澎湃新聞,《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《LanguageModelsareFew-ShotLearners》TomB.Brown等,《Traininglanguagemodelstofollowinstructionswithhumanfeedback》LongOuyang等,Heise,GitHub,《What‘sinmyAI》AlanD.Thompson,LifeArchitect,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明38ChatGPT-算法:當模型規模達到某個閾值時,模型誤差結論是:模型的表現與模型的規模之間服音標標注填字謎音標標注填字謎波斯語問答準確率準確率準確率繪制地圖多任務自然語言理解準確率繪制地圖多任務自然語言理解《EmergentAbilitiesofLargeLangu請務必閱讀報告附注中的風險提示和免責聲明39資料來源:《ScalingLawsforNeuralLanguageMo請務必閱讀報告附注中的風險提示和免責聲明39GPT-3采用無監督學習機制,優點在于無需人工進行數據而ChatGPT采用RLHF學習機制,即人工反饋的強化學習,屬于強化學習。不同于傳統的相比于傳統的有監督學習機制,ChatGPT無需提前對訓練數據進行標注,而只需要對有監督學習有監督學習vs無監督學習RLHF學習機制無標簽的數據模型無標簽的數據模型高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國土壤耕整機械市場調查研究報告
- 2025年中國吐司果醬市場調查研究報告
- 2025年中國勞動保護鞋市場調查研究報告
- 2025年中國冰紋茶具市場調查研究報告
- 2025年中國全塑棉條筒市場調查研究報告
- 2025年中國休閑裝面料市場調查研究報告
- 2025年中國不銹鋼冷卻塔市場調查研究報告
- 2025年中國USB無線數字電視棒市場調查研究報告
- 2025年中國FRP平采光板市場調查研究報告
- 2025年枕頭項目合作計劃書
- 2024年公司網絡安全管理制度
- 生成式人工智能的教育應用與展望-以ChatGPT 系統為例
- 尼龍防護網施工方案
- 有機物污染化學教學課件
- 基于AI技術的產品設計思路與實戰
- 分子生物學知到智慧樹章節測試課后答案2024年秋湖南科技大學
- 【MOOC】國際交流學術英文寫作-湖南大學 中國大學慕課MOOC答案
- 學校幫扶總結
- 高考語文復習【知識精研】《千里江山圖》高考真題說題課件
- 國藥控股采購合同范例
- 《基于SIP協議的IP呼叫中心控制器設計與實現》
評論
0/150
提交評論