




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
行業動態報告●行業動態報告●計算機行業.Sora算力需求將呈指數級增長,帶動算力基礎設施需求。北京時間2月16日凌晨,OpenAI發布了首個文生視頻模型Sora,可以用文字指令生成長達60秒的高清流暢視頻,在生成視頻長度、連貫性、多鏡頭切換方面具備顯著優勢。本文基于大語言模型推導算力需求方法,對Sora單次訓練算力需求進行推演,據相關研究推測,Sora參數規模估算在30B(待確認如果按此參數GPT-3175B的8.2倍。我們認為,目前準確模擬物理運動規律及場景、混淆左右方向、混淆空間細節等,但伴隨Sora不斷迭代調優,訓練數據集規模增大,未來算力需求將呈現指數級爆發式增長,持續看好上游算力基礎設施投資機會。DiT(DiffusionTransformer,擴散變換器)的模型搭建,同時采用了Diffusion與Transformer,是一種用于擴散模型的新架構。Sora受到大語言模型的啟發,成為一種基于擴散變換的模型DiT,趨于標準Transformer架構,同時保留其可擴展性。與大語言模型將文本轉換為可被理解的token類似,Sora將視頻轉換成一系列Patch(視覺編碼塊)并將其進行降維,用Patch作為視覺圖像統一表現形式,將噪聲通過去噪來預測原始圖像信息,進而生成視頻。.Sora實現跨越式提升,文生視頻大模型開啟新紀元。Sora可換成長達60秒視頻,相對于此前文生視頻大模型Runway、Pika、StableVideo等提升幾個級別。同時在視頻分辨率以及質量方面,Sora可以生成1080P清晰度視頻,并且能夠相對完整實現對世界及物體運動規律理解及模擬,在鏡拼接等,是文生視頻領域突破性技術變革。.投資建議:Sora是人工智能發展進程中的“里程碑”,推動AGI時代加速到來,算力需求將持續爆發,持續看好產業鏈投資機會。建議重點關注國內上基礎設施:工業富聯、中科曙光、軟通動力、神州數碼、華勤技術、曙光數創、潤澤科技、拓維信息;3、AI應用端:萬興科技、金山辦公、超圖軟件、彩訊股份、拓爾思、衛寧健康、嘉和美康等。險;消費需求不及預期風險;行業競爭加劇風險等。維持評級分析師行業點評報告/計算機行業22一、Sora大模型橫空出世,AGI時代加速到來 3二、Sora基于DiT模型搭建,更適用文生視頻領域 4三、Sora算力分析框架拆解,單次訓練算 6 7 7 8行業點評報告/計算機行業33北京時間2月16日凌晨,OpenAI發布了首個文生視頻大模型Sora,并配有48個生成案例及技術報告,能夠通過自然語言指令生成長達60秒的高清流暢視頻,在生成視頻長度、清晰度、連貫性、多鏡頭切換方面都有顯著提升。資料來源:數字經濟先鋒號,中國銀河證券研究院Sora在文生視頻領遙遙領先。Sora可以將簡短文本描述轉換成一分鐘流暢視頻,相對于Runway、Pika、StableVideo等提升了幾個代級。1)生成視頻長度:Runway、Pika等傳統文生視頻大模型平均時長在3-5秒,Runway用戶可以最多延長視頻長度至16秒,Sora相對傳統視頻生成工具提升15-20倍;2)視頻質量顯著提升:可生成1080P高清視頻;3)可實現多鏡頭切換:可以理解和模擬運動中的物理規律,可以實現復雜的運動相機模擬;4)視頻連貫性與穩定性更好:在建模能力上表現更好,可以依賴關系進行建模,能初步理解及模擬物理運動規律;5)高可拓展性:支持多種數據格式輸入,具備實現文生視頻、圖生視頻、向前或向后視頻擴展能力,同時支持視頻連接。細分能力項其他文生視頻大模型細分能力項強弱強弱√√√√√√依賴關系進行建模強強弱弱行業點評報告/計算機行業44強弱√僅支持向后×資料來源:CSDN,中國銀河證券研究院與Transformer,是一種用于擴散模型的新架構。DiT盡可能趨于標準Transformer架構,以保留其可擴展性。擴散模型廣泛應用于視頻生成領域,采用編碼器-解碼器架構。擴散模型是標準圖像擴散架構的自然擴展,它可以從圖像和視頻數據中進行聯合訓練,可以減少小批量梯度的方差并加快優化速度,迅速取代了基于生成對抗網絡(GANs)和自回歸變換器的方法,成為圖像生成的主導方法。Sora受到大語言模型的啟發,用Transformer替換擴散模型中的U-Net,通過將Transformer與Diffusion結合成為一種基于擴散變換的模型DiT。Sora將視頻降維成時空Patch作為視頻數據對模型進行訓練。首先為了適應大模型支持的上下文長度,降低處理復雜度,類似ViT(VisionTransformer)將圖像進行處理,將圖像進行降維分解,這樣一來可以兼容所有的數據素材(靜態圖像可以看成是在時間t=0的一些列Patch)。行業點評報告/計算機行業55Sora采用DiT模型,通過VAE將視頻壓縮到LatentSpace(潛在空間)中,然后將這種表現形式分解成時空Patch(視頻塊相當于大語言模型中的token。資料來源:OpenAI官網,中國銀河證券研究院Sora通過給定輸入噪聲及Prompt(文本提示信息),訓練出的模型來預測原始的不帶噪聲的圖像,類似于通過預測帶有馬賽克的原始圖像,讓模型去學習去除馬賽克,從而達到去噪聲的目的。在生成視頻過程中,Sora通過對噪聲進行去噪,來預測原始Patch,最后將圖片轉化為視頻。行業點評報告/計算機行業66資料來源:OpenAI官網,中國銀河證券研究院通常在計算大語言模型算力需求通常與參數量及token數量成正比,而Sora大模型中可以將Patch算力需求進行分析測算。根據阿里聯合浙江大學、華中科技大學提出的文生視頻模型I2VGen-XL,研究人員收集了大約3500萬單鏡頭文本-視頻對和60億文本-圖像對來優化模型。我們暫且保守假設Sora訓練數據集與I2VGen-XL相同,同時二維向量空間圖片表示為H×W×C(其中H為長度,W為寬度,C為RGB顏色通道數,假設C=3)。我們估算Sora訓練數據集中視頻類數據Patch規模=3500×10^4×60×30×3=1.89×10^11;圖片類根據谷歌論文《ANIMAGEISWORTH16ATSCALE》,Transformer的輸入是一個序列,對于一張圖像來說如果把每個像素點當作一個token,那就會需要相當旁大的計算量,該文則將圖像劃分為16×16大小的一個個Patch,然后將每個Patch當作一個token組成一串序列作為Transformer的輸入,減少了計算成本。我們假設PatchSize為16×行業點評報告/計算機行業77根據OpenAI論文,T5模型由于采用編碼器-解碼器模型,在向前和向后傳播的過程中只有一半token處于激活狀態,而BERT與GPT基于Transformer的自然語言監督模型,每個token都處于活躍狀態,而每個token都在向前傳播過程中涉及一次加法和一次乘法,論文添加一個3×的乘數來計算向后傳遞的計算量,故推出GPT模型所需算力:訓練所需總算力=模型參數量×token數量×3×2×訓練輪根據上述測算,基于Sora參數量大概在30億(待確認)水平,同時采用I2VGen-XL訓練數據集的8.2倍(測算采用參數和訓練數據集規模會與實際有一定出入)。單張A100算力為19.5TFlops,暫時不考慮模型訓練利用率及其他訓練成本,如果在10000張英偉目前由于Sora還在初級階段,訓練數據集和參數規模有限,仍存在一些不足之處。對于Sora當前存在的弱點,OpenAI指出它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。該模型還可能混淆提示的空間細節,例如混淆左右,并且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。未來訓練數據集將會數以萬倍的增長,模型參數量也會不段提升,目前來看Sora訓練所需算力不及GPT-4等大語言模型,伴隨Sora大模型不斷迭代調優、訓練數據集規模逐漸擴大,我們認為,未來Sora所需算力將呈現指數級增長:1)短期來看模型迭代優化、訓練數據集增大將快速帶動訓練端算力需求;2)長期來看,Sora技術逐漸成熟帶動下游AI應用百花齊放,推理端需求將厚積薄發。有望持續帶動上游算力基礎設施需求爆發。88Sora是人工智能發展進程中的“里程碑”,推動AGI時代加速到來,算力需求將持續爆發,持續看好產業鏈投資機會:1、國內多模態大模型:科大訊飛、海康威視、大華股份;2、算力基礎設施:工業富聯、中科曙光、軟通動力、神州數碼、華勤技術、曙光數創、潤澤科技、拓維信息;3、AI應用端:萬興科技、金山辦公、超圖軟件、彩訊股份、拓爾思、衛寧健康、嘉和美康等。技術研發進度不及預期風險;供應鏈風險;政策推進不及預期風險;消費需求不及預期風險;行業競爭加劇風險等。99 3 4 5 5 5 6 7本人承諾以勤勉的執業態度,獨立、客觀地出具本報告,本報告清晰準確地反映本人的研究觀點。本人薪酬的任何部分過去不曾與、現在不與、未來也將不會與本報告的具體推薦或觀點直接或間接相關。吳硯靖TMT/科創板研究負責人北京大學軟件項目管理碩士,10年證券分析從業經驗,歷任中銀國際證券首席分析師,國內大型知名PE機構研究部執行總經理。具備一二級市場經驗,長期專注科技公司研究。本報告由中國銀河證券股份有限公司(以下簡稱銀河證券)向其客戶提供。銀河證券無需因接收人收到本報告而視其為客戶。若您并非銀河證券客戶中的專業投資者,為保證服務質量、控制投資風險、應首先聯系銀河證券機構銷售部門或客戶經理,完成投資者適當性匹配,并充分了解該項服務的性質、特點、使用的注意事項以及若不當使用可能帶來的風險或損失。本報告所載的全部內容只提供給客戶做參考之用,并不構成對客戶的投資咨詢建議,并非作為買賣、認購證券或其它金融工具的邀請或保證。客戶不應單純依靠本報告而取代自我獨立判斷。銀河證券認為本報告資料來源是可靠的,所載內容及觀點客觀公正,但不擔保其準確性或完整性。本報告所載內容反映的是銀河證券在最初發表本報告日期當日的判斷,銀河證券可發出其它與本報告所載內容不一致或有不同結論的報告,但銀河證券沒有義務和責任去及時更新本報告涉及的內容并通知客戶。銀河證券不對因客戶使用本報告而導致的損失負任何責任。本報告可能附帶其它網站的地址或超級鏈接,對于可能涉及的銀河證券網站以外的地址或超級鏈接,銀河證券不對其內容負責。鏈接網站的內容不構成本報告的任何部分,客戶需自行承擔瀏覽這些網站的費用或風險。銀河證券在法律允許的情況下可參與、投資或持有本報告涉及的證券或進行證券交易,或向本報告涉及的公司提供或爭取提供包括投資銀行業務在內的服務或業務支持。銀河證券可能與本報告涉及的公司之間存在業務關系,并無需事先或在獲得業務關系后通知客戶。銀河證券已具備中國證監會批復的證券投資咨詢業務資格。除非另有說明,所有本報告的版權屬于銀河證券。未經銀河證券書面授權許可,任何機構或個人不得以任何形式轉發、轉載、翻版或傳播本報告。特提醒公眾投資者慎重使用未經授權刊載或者轉發的本公司證券研究報告。本報告版權歸銀河證券所有并保留最終解釋權。評級標準評級說明評級標準為報告發布日后的6到12個月行業指數(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025市政工程復習必看試題及答案
- 高效能源存儲技術研發合作合同
- 商業空間設計與建設合同協議指南
- 銀行金融業務操作手冊
- 理解固定與變動成本的試題及答案
- 特定行業專業能力認證證明(5篇)
- 電商平裝產品營銷合作協議
- 經濟師考試全面復習綱要試題及答案
- 社會保險繳納證明適用于工作證明(5篇)
- 助力備考的經濟法試題及答案
- 基于PLC的溫室大棚控制系統設計說明
- 多級泵檢修及維護(1)
- 涵洞孔徑計算
- 測量未知電阻的方法
- 中國民主同盟入盟申請表
- 觀感質量檢查表
- 最全半導體能帶分布圖
- 企業信息登記表
- 窯爐課程設計-年產50萬件衛生潔具隧道窯設計.doc
- 大中型水庫控制運用計劃編寫大綱
- 皮帶機輸送能力,電機功率計算
評論
0/150
提交評論