




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
火山引擎視頻云實踐精選集2024版AI/大模型+音視頻技術實踐和前沿探索 2024年,隨著生成式AI、多模態大模型、全景直播、三維重建等技術的共同推動,它們正攜手將我們從流暢、實時、高清的數字視頻世界帶入更智能、更交互、更沉浸的AI視頻世界。首先,內容生產將從UGC/PGC發展到AIGC,伴隨AI視頻生成模型以及智能工具的逐漸同時,由于音視頻承載了更多的信息和交互,進而演變成人類的新的“通用”語言隨著AI的深度學習和自我進化,交互模式也正在從過去的人機交互、人人交互,邁向一個人最后,用戶的交互空間也在從2D、3D,VR拓展到了虛擬世界與現實世界的無縫融合。而技術從來不曾孤單,它在無盡的探索中尋找同伴,渴望得到協助,一同照亮未知的領域。共享與進化,是它永恒的方向,每一步前行都承載著時代的夢想,引領我們共同邁向一個更加特別推出《火山引擎視頻云實踐精選集》2024版,收錄了全年數位音視頻專家傾情出品的29篇技術深度Blog,期待給各位同仁帶去一些思考和啟發的同時,也能在AI視頻世界到來●ASIC編碼器、VR處理、深度學習、質量評估等全球前沿的論文精選;●對話式AI、6DoF互動、場景重建、超低延時等前沿技術的落地實踐;●AI+教育、私域直播、短劇出海、VR大空間等行業場景的最佳實踐;CONTENTS11火山引擎奪得AIM2024大賽視頻顯著性預測賽道冠軍 火山引擎奪得AIM2024大賽超分質量評估賽道冠軍 005火山引擎聯合中國科學技術大學IMCL團隊奪得NTIRE大賽盲壓縮圖像增強賽道冠軍 009 CVPR2024滿分論文|Deformable3DGaussian: 基于可變形3D高斯的高質量單目動態重建新方法CVPR2024|ModularBlindVideoQualityAssessment:模塊化無參視頻質量評估 024深度拆解:CVPR2024CAMixerSR動態注意力分配的超分辨率加速框架 030火山引擎多媒體實驗室VR全鏈路處理傳輸顯示方案 036ResVR入選ACMMultimedia2024最佳論文提名火山引擎論文入選國際會議ACMIMC'24一種面向大規模視頻點播系統的算法實驗平臺 042橫掃四大賽道,火山引擎斬獲MSU世界視頻編碼器大賽“最佳ASIC編碼器” 049 2 3AI視頻時代,如何才能不掉隊? 053生產、交互、消費全鏈路升級,開啟“三智 062 070抖音Android端圖片優化實踐 075在Windows下玩轉多媒體處理框架BMF 093超低延遲多路徑傳輸:技術演進與大規模業務實 高質量3DGaussian-Splatting場景重建及低延遲重渲染技術 觸摸未來,字節跳動提出6DoF直播創新方案 全鏈路革新:火山引擎視頻云引領AI新視界 火山引擎RTC聯合樂鑫、移遠:智能硬件注入“豆包”,“模”力升級 兒歌點點攜手火山引擎,共創兒童成長AI 龍游神州:揭秘云VR大空間背后的技術魔法 火山引擎升級「社區團購+直播」新玩法助力企業 火山引擎助推FlexTV短劇乘“云”出海 我的伙伴是SoulAI,但我們從不尬聊 189詳解veImageX助力卓特視覺智能、高效生成設計素材副本 20301火山引擎奪得AIM2024大賽視頻顯著性預測賽道冠軍近日,第2024屆ECCV聯合舉辦的AIMWorkshop大賽公布比賽結果,在視頻顯著性預測賽道上,火山引擎多媒體實驗室憑借自研的顯著性檢測算法獲得冠軍,技術能力達到行業參賽隊伍02AIM(AdvancesinImageManipulation)2024是新興的計算機視覺國際競賽,每年在模式識別和機器視覺頂級國際會議ECCV上舉行。該比賽旨在鼓勵學者和研究人員探索計算機視覺中圖像分析、增強和恢復的新技術和方法,并且促進學術交流,在計算機視覺領域獲得了顯著性預測任務旨在模擬人類視覺系統,預測圖片/視頻視覺任務提供引導和輔助信息。視頻顯著性預測賽道要求參賽者基于1500個視頻87w幀共超過4000名用戶的眼動追蹤數據進行模型訓練和驗證,視頻內容來自youtube和vimeo等網站,內容上涵蓋了PGC長視頻片段/UGC短視頻,語義上包含了游戲、動畫、運動、vlog、電視節目等多個場景。最終排名由模型在驗證集上的AUC_J、CC、SIM、NSS四項指標單項排名來加權得到,自研方案四項指標排名均取得第一,視頻顯著性預測賽道結果03●眼動數據標注成本高,開源數據集規模有限,無法進行充分的預訓練,因而容易導致模型的理解和推導的影響,因此對于語義復雜的●隨著觀看時間的推移,顯著區域會產生遷移,并具有一定延時性,需要對其時域特征進行良此前方案大部分使用了基于image的骨干網絡來進行特征提取,時域建模使用LSTM/GRU或者3D卷積來進行。團隊沿用了encoder-decoder架構,整體結構如下圖,輸入一組RGB視頻幀,最終輸出顯著性圖譜。顯著性圖譜以灰度圖表示,像素范圍0-255,數值越高代表顯著性程度越高。其中,特征編碼器為視覺編碼器提取視頻序列的多層級特征。特征解碼器包含特征上采樣模塊、時序注意力模塊、3D卷積、上采樣、2D卷積、Sigmoid等模塊。編碼器的選擇上,選取了針對video的視頻基礎模型UMT(UnmaskedTeacher)來作為encoder,其網絡使用預訓練的visionTransformer(ViT)。通過分別提取ViT不同塊的輸出(第5,11,17,23),可得到不同層級的視頻特征,這些特征包含豐富的底層細節和解碼器的設計上,采用了類似U-Net的分層上采樣結構,在使用3D卷積對編碼器特征進行時域降維的同時,進行不同尺度的空域上采樣,并將不同層級的特征進行融合。此外,團隊引入了時序注意力模塊,以應對顯著性的時域延遲和場景切換問題。這種設計不僅提升了模04數據處理方面,采用了基于視頻內容的train/val劃分策略,根據內容特性對數據集進行分組,然后按比例從每個組采樣數據來組成最終的訓練集。考慮到UMT的輸入分辨率較小(224x224),對標簽中的注視點信息進行了膨脹處理(dilate),減少其在下采樣過程中的信息丟失,同時清除了離群點以加快收斂速度。訓練策略方面,通過SIM指標將數據劃分為簡單樣本和困難樣本,通過增加模型在困難樣本上的損失權重,模型得以更加關注那些在訓練過程中表現不佳的樣本,有效提升總結總結火山引擎多媒體實驗室在視頻顯著性預測領域實現了突破性的進展,并獲得了該賽道冠軍。顯著性預測技術的迭代升級可以幫助技術人員更為準確地預測用戶觀看行為,為用戶觀看體驗的優化提供重要指引,也有助于推動視頻行業向著更加智能化、高效化的方向發展。基于顯著性預測的ROI編碼和ROI區域增強方案已廣泛應用于直播、點播及圖片等內部業務場景,并通過火山引擎相關產品面向企業火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在05火山引擎奪得AIM2024大賽超分質量評估賽道冠軍近日,第2024屆ECCV聯合舉辦的AIMWorkshop大賽公布比賽結果,在視頻超分辨率質量評估賽道上,火山引擎多媒體實驗室憑借基于大模型的畫質評估算法獲得冠軍,技術能力參賽隊伍06AIM(AdvancesinImageManipulation)2024是新興的計算機視覺國際競賽,每年在模式識別和機器視覺頂級國際會議ECCV上舉行。該比賽旨在鼓勵學者和研究人員探索計算機視覺中圖像恢復和提升的新技術和方法,并且促進學術交流,在計算機視覺領域獲得了廣泛的關視頻超分辨率質量評估賽道比賽結果近年來視頻和圖像超分辨率(SR)技術得到了廣泛學術研究,同時在短視頻業務服務端/客戶為了評估不同超分辨率算法的主觀畫質提升效果,需要使用圖像和視頻質量評估指標。然而由于難以捕捉超分辨率引發的復雜多樣的增強偽影,傳統算法PSNR和SSIM以及其他基于深度學習的方法均被證明無法準確估計超分辨率圖像的質量。因此,超分辨率質量評估與普通的圖像和視頻質量評估任務是有所不同的,本次競賽旨在針對超分辨率進行專用評估指標的07冠軍算法介紹超分辨率畫質評估的主要挑戰在于如何捕捉超分辨率畫質算法處理后內容的畫質變化因素,相比傳統質量評估需要考慮更復雜多樣化的處理算法帶來偽影/涂抹/過銳等失真類型。由于有限的樣本數量和數據集大小,端到端的訓練方案無法達到理想效果,經過多輪方案驗證,團隊最終采用RichQuality-AwareFeature算法方案架構,針對多樣化的視覺內容和復雜的失真類型,利用空域模型微調,同時利用豐富離線視頻特征庫和圖像特征庫來增強模型的泛化能力。微調模型采用了預訓練于LSVQ數據集的SwinTransformer-B作為主干網絡來提取空域特征,離線視頻特征庫包含SlowFast時域特征和Fast-VQA時空聯合特征;離線圖像特征庫提供了全面的幀級特征表示,其中LIQE包含質量感知、失真特定及場景特定的信息,而Q-Align則包含來自多模態模型(MLLM)的強大質量感知特征。最終將可學習和不可學習的特征拼接在一起,經非線性回歸層得到預測分數,最終分數通過Sigmoid函數轉換為[0-1]范圍。除了算法層面的綜合分析設計和數據增廣處理等,團隊對數據集進行深入的分析理解,數據集根據失真的難度分為Easy/Moderate和Hard三種難度,Hard難度包含了目前大多數評估指標無法解決的失真類型,從訓練集的主觀評分分布我們也觀察到困難組的視頻主觀評分相比08除了PLCC損失外,我們還應用了成對排序的hinge損失來引導模型區分困難樣本,同時快其中排序邊距設為0.05。我們在8塊A100-SXM-80GBGPU上進行了100個epoch的訓練,學習率為1e-5,批次大小為16。我們隨機選取了80%的視頻作為訓練數據,20%的視頻用于驗證,并選擇在驗證集中表現最佳的模型進行最終測試。最終團隊在private數據集獲得最好的效果,通過public和private兩部分內容的穩定發揮獲得第一名的成績。總結總結火山引擎多媒體實驗室在視頻超分質量評估領域實現了突破性的進展,并獲得了該賽道冠軍。增強處理算法質量評估算法的沉淀積累可以幫助處理算法和應用策略的迭代優化,從而更高效地給用戶提供更為清晰主觀視覺體驗,有助于推動數字媒體行業向著更加智能化、高效化的方向發展。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。09火山引擎聯合中國科學技術大學IMCL團隊奪得NTIRE大賽盲壓縮圖像增強賽道冠軍近日,第2024屆CVPRWorkshop下屬的NTIRE大賽公布比賽結果,在盲壓縮圖像增強賽道,火山引擎多媒體實驗室聯合中國科學技術大學智能媒體計算實驗室(IMCL)團隊自主參賽隊伍大賽背景NTIRE(NewTrendsinImageRestorationandEnhancement)是新興的計算機視覺國際競賽,每年在模式識別和機器視覺頂級國際會議CVPR(CCF-A)上舉行。該比賽旨在鼓勵學者和研究人員探索計算機視覺中圖像恢復和提升的新技術和方法,并且促進學術交流,在計算機視覺領域獲得了廣泛的關注和參與,吸引了眾多高校和業界知名公司參圖:盲壓縮圖像增強比賽結果隨著數字圖像和視頻內容的快速增長,有損圖像壓縮技術,作為降低圖像傳輸帶寬和存儲開銷的必要技術,早已在各種工業應用中普及。在流行的壓縮編解碼器中,考慮到計算效率和復雜度,在實際應用中,JPEG備受青睞。然而,在受限碼率下,JPEG壓縮后圖像往往會帶有復雜壓縮失真,且較難獲取壓縮等級。在這個背景下,盲壓縮圖像增強競賽應運而生,旨在實現任意等級JPEG壓縮失真的恢復,提升真實場景中解碼圖像的畫質,打破未知壓縮失真對增強算法的限制。冠軍算法介紹盲壓縮圖像恢復的主要挑戰在于如何讓網絡感知到圖像的壓縮失真程度的同時,也能感知到圖像的內容,從而達到修復的目的。在此次競賽中,團隊提出了一種巧妙利用動態提示(DynamicPrompt)的盲圖像恢復方法,名叫PromptCIR。與之前直接估計壓縮質量因素來進行指導的方法不同,PromptCIR通過提示組件之間的動態組合以及從失真圖像特征生成的提示權重隱式地學習編碼壓縮信息,從而為盲恢復提供更多的失真自適應能力。值得一提的是,大多數現有的基于提示學習的壓縮圖像恢復方法將提示大小設置為與圖像特征大小相同,限制了對各種輸入大小的泛化能力。為了緩解這個問題,我們采用了內容感知的動態提示。具體來說,我們將提示大小設置為1x1,并生成與圖像特征相同分辨率的空間位置感知的提示權重,以避免過度適應訓練圖像大小的潛在問題。此外,為了提高內容感知和失真感知表征能力,我們使用多個提示基動態模版編碼任務自適應信息,從而自適應地編碼壓縮質量信息,并保留必要的空間位置知識。不僅是算法上的改進,團隊還重新審視了其他輔助技術,如數據增強、數據合成等,以減少過擬合和數據偏差,最終超過其他競爭對手,獲得第一名的成績。PromptCIR方法圖論文鏈接:/pdf/2404.17433總結總結火山引擎多媒體實驗室聯合中國科學技術大學智能媒體計算實驗室(IMCL)團隊在盲壓縮圖像恢復領域實現了突破性的進展,并獲得了該賽道冠軍。自研的技術方案可以幫助修復成千上萬的被壓縮數字圖像內容,從而給用戶提供更為清晰、精細的圖像展現效果,有助于推動數字媒體行業向著更加智能化、高效化的方向發展。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。火山引擎國際深度學習圖像壓縮挑戰賽蟬聯冠軍近日,第六屆深度學習圖像壓縮挑戰賽(以下將簡稱“CLIC大賽”)比賽結果公布,由火山引擎多媒體實驗室與北大組成的聯合參賽平臺b-2在高碼率視頻壓縮和低碼率視頻壓縮兩個賽道均奪得主客觀指標冠軍。這也是火山引擎多媒體實驗室連續兩屆蟬聯該賽道冠軍。CLIC大賽由電氣與電子工程師協會IEEE主辦,從誕生開始就獲得了學術界與工業界的廣泛關注。2023年CLIC大賽暫停一屆,本屆大賽依托于數據壓縮領域的頂級會議DataCompressionConference(DCC)再次舉辦。值得一提的是,本屆DCC中,火山引擎多媒體實驗室有8篇論文入選。隨著以深度學習為代表的新一代人工智能技術不斷取得突破,學術界與工業界逐漸意識到人工智能技術在圖像、視頻壓縮領域的巨大應用潛力。基于深度學習的圖像視頻壓縮技術被視為超越傳統壓縮技術能力極限,取得突破性進展的明日之星。基于深度學習技術,火山引擎和北大b-2平臺提出了一項智能混合解決方案。b-2平臺在充分理解傳統壓縮技術與深度學習壓縮技術的各自原理的基礎上,發揮兩種技術路線的各自優勢,取長補短,將二者有機融合成為一個整體,形成了獨具特色的傳統—智能混合解決方案。傳統編碼模塊在業界已有傳統編碼框架基礎上,加入了非對稱四叉樹劃分等創新技術。智能編碼模塊則引入了基于深度學習的環路濾波等技術。圖1非對稱四叉樹劃分結構;(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。編碼單元劃分是混合視頻編碼框架的基礎,決定著編碼單元的基本形狀和尺寸。靈活的劃分方法能更有效地表達視頻豐富的紋理和運動,對編碼性能的提升起著至關重要的作用。團隊提出了非對稱四叉樹(UQT)劃分結構,旨在提高視頻的編碼效率。與現有的四叉樹(QuadTree,QT),二叉樹(BinaryTree,BT),三叉樹(TernaryTree,TT)劃分結構相比,UQT通過一次劃分生成的子編碼單元能觸及更深的劃分深度,能更有效地捕捉視頻豐富的細節特性。此外,UQT生成的子塊形狀是無法通過QT、BT、TT組合實現的,一定程度上彌補了現有劃分的不足,豐富了劃分的表達。圖2環路濾波網絡結構示意圖,包括網絡的輸入,濾波與輸出模塊傳統視頻編碼中采用環路濾波器去除編碼失真,縮小原始圖像與重建之間的失真,例如經典的去塊濾波、樣本自適應偏移和自適應環路濾波等。參賽平臺提出了一種基于殘差卷積網絡的增強型環路濾波技術,有機地將環路濾波技術與深度學習技術結合在一起,在網絡結構中與模型訓練中充分利用傳統視頻編碼的先驗信息,提升環路濾波效率。網絡輸入方面,除重建像素外,團隊將編碼過程中的預測信息、劃分信息、邊界強度以及量化參數等作為增強信息供深度網絡學習,豐富先驗知識,使得網絡能更好地感知壓縮失真。在分層參考的編碼結構中,待編碼幀將參考已重建的高質量幀。團隊提出對不同時域層次幀所使用的濾波器采用迭代訓練的方式,獲取最接近真實編碼的訓練數據,實現更高性能的濾波。此外,每個條帶及最大編碼單位均可以在多個濾波模型中自適應地選擇率失真性能最優的網絡模型,并將選擇信息傳輸到解碼端。圖3CLIC視頻壓縮賽道基于MOS的排行榜2022年,火山引擎多媒體實驗室第一次參加CLIC大賽。參賽平臺NeutronStar(中子星)在高碼率視頻壓縮和低碼率視頻壓縮兩個賽道,主客觀指標均以大幅領先優勢奪冠。此次,火山引擎與北大聯手奪冠,是結合了北大學科和人才優勢,以及火山引擎的技術和產業優勢,圍繞深度學習在視頻壓縮領域的一次重要學術探索。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。CVPR2024滿分論文|DEFORMABLE3DGAUSSIAN:基于可變形3D高斯的高質量單目動態重建新方法單目動態場景(MonocularDynamicScene)是指使用單眼攝像頭觀察并分析的動態環境,其中場景中的物體可以自由移動。單目動態場景重建對于理解環境中的動態變化、預測物體運動軌跡以及動態數字資產生成等任務至關重要。隨著以神經輻射場(NeuralRadianceField,NeRF)為代表的神經渲染的興起,越來越多的工作開始使用隱式表示(implicitrepresentation)進行動態場景的三維重建。盡管基于NeRF的一些代表工作,如D-NeRF,Nerfies,K-planes等已經取得了令人滿意的渲染質量,他們仍然距離真正的照片級真實渲染(photo-realisticrendering)存在一定的距離。我們認為,其根本原因在于基于光線投射(raycasting)的NeRF管線通過逆向映射(backward-flow)將觀測空間(observationspace)映射到規范空間(canonicaspace)無法實現準確且干凈的映射。逆向映射并不利于可學習結構的收斂,使得目前的方法在D-NeRF數據集上只能取得30+級別的PSNR渲染指標。為了解決這一問題,我們提出了一種基于光柵化(rasterization)的單目動態場景建模管線,首次將變形場(DeformationField)與3D高斯(3DGaussianSplatting)結合實現了高質量的重建與新視角渲染。實驗結果表明,變形場可以準確地將規范空間下的3D高斯前向映射(forward-flow)到觀測空間,不僅在D-NeRF數據集上實現了10+的PSNR提高,而且在相機位姿不準確的真實場景也取得了渲染細節上的增加。圖1HyperNeRF真實場景的實驗結果該研究的論文《Deformable3DGaussiansforHigh-FidelityMonocularDynamicSceneReconstruction》已被計算機視覺頂級國際學術會議CVPR2024接收。值得一提的是,該論文是首個使用變形場將3D高斯拓展到單目動態場景的工作,并且在公開數據集上取得了SOTA結果。相關工作動態場景重建一直以來是三維重建的熱點問題。隨著以NeRF為代表的神經渲染實現了在NeRF光線投射管線的基礎上引入了變形場,實現了魯棒的動態場景重建。TiNeuVox,K-Planes和Hexplanes在此基礎上引入了網格結構,大大加速了模型的訓練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實現高質量的規范空間和變形場的解耦。3D高斯潑濺是一種基于光柵化的點云渲染管線。其CUDA定制的可微高斯光柵化管線和創新的致密化使得3D高斯不僅實現了SOTA的渲染質量,還實現了實時渲染。Dynamic3D高斯首先將靜態的3D高斯拓展到了動態領域。然而,其只能處理多目場景非常嚴重地制約了其應用于更通用的情況,如手機拍攝等單目場景。研究思想Deformable-GS的核心在于將靜態的3D高斯拓展到單目動態場景。每一個3D高斯攜帶位置,旋轉,縮放,不透明度和SH系數用于圖像層級的渲染。根據3D高斯alpha-blend的公式我們不難發現,隨時間變化的位置,以及控制高斯形狀的旋轉和縮放是決定動態3D高斯的決定性參數。然而,不同于傳統的基于點云的渲染方法,3D高斯在初始化之后,位置,透明度等參數會隨著優化不斷更新。這給動態高斯的學習增加了難度。在本次研究中,我們創新性地提出了變形場與3D高斯聯合優化的動態場景渲染框架。我們將COLMAP或隨機點云初始化的3D高斯視作規范空間,隨后通過變形場,以規范空間中3D高斯的坐標信息作為輸入,預測每一個3D高斯隨時間變化的位置$\deltax$和形狀參數$\deltar,\deltas$。利用變形場,我們可以將規范空間的3D高斯變換到觀測空間用于光柵化渲染。這一策略并不會影響3D高斯的可微光柵化管線,經過其計算得到的梯度可以用于更新規范空間3D高斯的參數。此外,引入變形場有利于動作幅度較大部分的高斯致密化。這是因為動作幅度較大的區域變形場的梯度也會相對較高,從而指導相應區域在致密化的過程中得到更精細的調控。即使規范空間3D高斯的數量和位置參數在初期也在不斷更新,但實驗結果表明,這種聯合優化的策略可以最終得到魯棒的收斂結果。大約經過20000輪迭代,規范空間的3D高斯的位置參數幾乎不再變化。在真實場景中,我們發現真實場景的相機位姿往往不夠準確,而動態場景更加劇了這一問題。這對于基于神經輻射場的結構來說并不會產生較大的影響,因為神經輻射場基于多層感知機(MLP),是一個非常平滑的結構。但是3D高斯是基于點云的顯式結構,略微不準確的相機位姿很難通過高斯潑濺得到較為魯棒地矯正。因此為了緩解這個問題,我們創新地引入了退火平滑訓練(AnnealingSmoothTraining,AST)。該訓練機制旨在初期平滑3D高斯的學習,在后期增加渲染的細節。這一機制的引入不僅提高了渲染的質量,而且大幅度提高了時間插值任務的穩定性與平滑性。20圖2展示了該研究的流程圖,詳情請參見論文原文。圖2流程圖結果展示該研究首先在動態重建領域被廣泛使用的D-NeRF數據集上進行了合成數據集的實驗。從圖3的可視化結果中不難看出,Deformable-GS相比于之前的方法有著非常巨大的渲染質量提升。21圖3該研究在D-NeRF數據集上的定性實驗對比結果我們方法不僅在視覺效果上取得了大幅度的提高,定量的渲染指標上也有著對應的支持。值得注意的是,我們發現D-NeRF數據集的Lego場景存在錯誤,即訓練集和測試集的場景具有微小的差別。這體現在Lego模型鏟子的翻轉角度不一致。這也是為什么之前方法在Lego場景的指標無法提高的根本原因。為了實現有意義的比較,我們使用了Lego的驗證集作為我們指標測量的基準。圖4方法對比22我們在全分辨率(800x800)下對比了SOTA方法,其中包括了CVPR2020的D-NeRF,SigAsia2022的TiNeuVox和CVPR2023的Tensor4D,K-planes。我們的方法在各個渲染指標(PSNR、SSIM、LPIPS),各個場景下都取得了大幅度的提高。我們的方法不僅能夠適用于合成場景,在相機位姿不夠準確的真實場景也取得了SOTA結果。如圖5所示,我們在NeRF-DS數據集上與SOTA方法進行了對比。實驗結果表明,即使我們的方法沒有對高光反射表面進行特殊處理,我們依舊能夠超過專為高光反射場景設計的NeRF-DS,取得了最佳的渲染效果。圖5真實場景方法對比雖然MLP的引入增加了渲染開銷,但是得益于3D高斯極其高效的CUDA實現與我們緊湊的MLP結構,我們依舊能夠做到實時渲染。在3090上D-NeRF數據集的平均FPS可以達到85(400x400),68(800x800)。此外,該研究還首次應用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖6所示,該深度也證明了Deformable-GS也可以得到魯棒的幾何表示。深度的反向傳播可以推動日后很多需要使用深度監督的任務,例如逆向渲染(InverseRendering),SLAM與自動駕駛等。23圖6深度可視化火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。24CVPR2024|MODULARBLINDVIDEOQUALITYASSESSMENT:模塊化無參視頻質量評估無參視頻質量評估(BlindVideoQualityAssessment,BVQA)在評估和改善各種視頻平臺并服務用戶的觀看體驗方面發揮著關鍵作用。當前基于深度學習的模型主要以下采樣/局部塊采樣的形式分析視頻內容,而忽視了實際空域分辨率和時域幀率對視頻質量的影響,隨著高分辨率和高幀率視頻投稿逐漸普及,特別是跨分辨率/幀率視頻轉碼檔位畫質評估場景中,這種影響變得更加不可忽視。在本文中,我們提出了一種模塊化BVQA模型,以及一種訓練該模型以提高其模塊化性的方法。我們的模型包括基礎質量預測模塊、空域矯正模塊和時域矯正模塊,分別顯式地響應視頻質量的視覺內容和失真、空域分辨率和時域幀率變化情況。我們用提出的模塊化BVQA模型在專業生成的內容和用戶生成的內容視頻數據庫上進行了大量實驗。實驗表明,我們的質量模型實現了優于當前方法或相近的性能。此外,模型可以輕量高效地添加其他與質量相關的視頻屬性,例如動態范圍和色域作為額外的矯正25多年來,研究人員從心理物理學和感知研究中收集了大量證據,證明更高的空域分辨率和更高的幀速率對視頻主觀畫質有積極的影響。具體而言,感知質量取決于視頻內容,特別是空域和時域復雜性。針對這些主觀發現,早期的知識驅動的BVQA模型直接將空域分辨率和幀速率參數作為壓縮視頻質量預測的輸入的一部分。盡管這種方法非常簡單,但這些視頻屬性參數與內容和失真無關,因此它們與感知的視頻質量不太相關。基于卷積神經網絡(CNN)的數據驅動的BVQA方法面臨的計算問題十分明顯。它們幾乎沒有嘗試評估全尺寸視頻,主要原因是計算復雜度很高,尤其是在處理高分辨率和幀速率的視頻時,面臨的挑戰更大。此外,由于視頻質量數據集規模較小,許多基于CNN的BVQA方法依賴于對象識別任務的預訓練模型,這些模型通常需要小且固定大小的輸入。因此,視頻需要在空域上調整大小,并在時域上進行二次采樣。在空域中處理視頻的傳統方法如圖1所示,在時域中處理視頻的傳統方法如圖2所示。圖1.在空域視圖中處理視頻的傳統方法。(a)代表來自WaterlooIVC4K的具有相同內容但不同空域分辨率的兩個視頻。(b)在不保持寬高比的情況下調整視頻大小,與視頻質量相關的局部紋理可能會受到影響。(c)調整視頻大小,同時保留縱橫比并將其裁剪為固定大小,無論實際空域分辨率如何,都會產生幾乎相同的輸入。(d)裁剪視頻會縮小視野并導致不同空域分辨率的內容覆蓋范圍不同。26圖2.來自LIVE-YT-HFR的兩個視頻序列,具有相同的內容,但是時域幀率不同。當根據幀速對幀進行二次采樣時,生成的幀是相同的。此外,高達120fps的極高幀速率對端到端VQA模型提出了重大挑戰。為了可靠地評估具有豐富內容和失真多樣性以及多種空域分辨率和幀速率的數字視頻質量,我們提出了一種模塊化BVQA模型。我們的模型由三個模塊組成:基礎質量預測模塊、空域矯正模塊和時域矯正模塊,分別響應視頻質量中的視覺內容和失真、空域分辨率和幀速率變化。基礎質量預測模塊將一組稀疏的空域下采樣關鍵幀作為輸入,并生成一個標量作為質量分數。空域矯正模塊依靠淺層CNN來處理實際空域分辨率下關鍵幀的拉普拉斯金字塔,并計算縮放和移位參數來校正基礎質量得分。類似地,時域矯正模塊依靠輕量級CNN以實際幀速率處理以關鍵幀為中心的空域下采樣視頻塊,并計算另一個縮放和移位參數以進行質量得分校正。為了增強模型的模塊化,我們在訓練期間引入了dropout策略。在每次迭代中,我們以預先指定的概率隨機丟棄空域和/或時域整流器。這種訓練策略鼓勵基礎質量預測模塊作為BVQA模型獨立運行,并且在配備矯正模塊時會表現更好。27圖3.所提出模型總體結構。基礎質量預測模塊采用一組稀疏的空域下采樣關鍵幀作為輸入,生成表示為$q__$的基礎質量值。空域矯正模塊采用從實際空域分辨率的關鍵幀導出的拉普拉斯金字塔,計算縮放參數$\alpha__$和移位參數$\beta__$來校正基礎質量。時域校正模塊利用以實際幀速率的關鍵幀為中心的視頻塊的特征來計算另一個縮放參數$\alpha__$和移位參數$\beta__$以進行質量校正。空域和時域矯正模塊可以使用模塊化其中利用尺度參數的幾何平均值和移位參數的算術平均值。為了評估空域整流器的性能,我們采用了BVI-SR和WaterlooIVC4K,重點研究不同空域分辨率對視頻質量的影響。為了評估時域整流器的有效性,我們利用BVI-HFR和LIVE-YT-HFR,它們專門用于分析不同幀速率對視頻質量的影響。這四個數據集都是PGC(Professionally-GeneratedContent,專業生成的內容)數據集。我們還使用八個UGC(User-GeneratedContent,用戶生成的內容)數據庫進一步驗證了我們提出提供了這些數據庫的全面介紹。28PGC數據集結果表2和表3展示了4個PGC數據集的結果。可以看出空域矯正模塊和時域矯正模塊可以分別有效地感知空域分辨率和時域幀率對視頻質量帶來的影響,并很好地對基礎質量分數進行矯正。Table2.Performancecomparisonofourmodelsagainstcompet-ingmethodsonBVI-SRandWaterlooIVC4Kwithemphasisonspatialresolution-sensitivedistortions.Thetop-2resultsoneachdatabasearehighlightedinbold.Table3.PerformancecomparisonofourmodelsagainstcompetingmethodsonBVI-HFRandLIVE-YT-HFR,withemphasisonframerate-sensitivedistortions.UGC數據集結果表4和表5展示了8個UGC數據集的結果。可以看出兩個矯正模塊的集成顯著增強了八個UGC數據庫的性能,與當前最優模型相比也展示了具有競爭力的結果。此外,包含這兩個矯正模塊可以實現有效的泛化,證明它們對提高預測視頻質量有突出貢獻。此外,我們的模型的模塊化設計提供了對常見UGC數據庫中主要失真類型的全面理解。29Table4.PerformancecomparisonintermsofSRCCandPLCCofourmodelsagainstfivecompetingmethodsonsevensmall-scaleUGCVQAdatasets.Theweightedaveragerepresentstheaverageresultsacrossdifferentdatabases,weightedbythesizeofeachrespectivedatabase.Table5.Cross-datasetevaluation.Themodelsaretrainedontheofficialtrainingsplitoflarge-scaleLSVQandtestedontheotherVQAdatasetswithoutfine-tuning.火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。30深度拆解:CVPR2024CAMIXERSR動態注意力分配的超分辨率加速框架隨著相關技術和應用的發展,比如超高清屏幕、虛擬現實(VR)等沉浸式體驗的增加,用戶對超高分辨率圖像和視頻的需求變得越來越強烈。在這些場景中,圖像的質量和清晰度對于提供最佳的用戶體驗至關重要。超高分辨率不僅能提供更清晰、更真實的視覺效果,還能在一定程度上增強人們的互動和沉浸感,在一些VR場景中我們需要8K甚至16K的才可以滿足需求。然而要生成或者處理這些超高分辨率的內容,對算力的要求也是與日增長,對相關算法提出了挑戰。超分辨率是一個經典的計算機底層視覺問題,該問題要解決的是通過低分辨率的圖像輸入,獲得高分辨率的圖像輸出。目前該領域的算法模型主要是有CNN以及Transformer兩大類別,考慮到實際的應用場景,超分的一個細分領域方向是算法的輕量化。在上述提到的超高分辨率的場景,超分算法的算力消耗問題變得尤為關鍵。基于此,本文提出了一種名為CAMixerSR的超分框架,可以做到內容感知,通過對Conv和Self-Attention的分配做到計算量的大幅優化。論文地址:/abs/2402.19289表1不同難易程度內容的超分算力與效果對比我們在對內容進行分塊并且根據處理的難易程度分成了簡單、中等、困難三個類型,并且使用不同FLOPS的計算單元,Conv以及SA+Conv兩種類型進行比較,發現對于簡單的模塊我們可以利用較少的FLOPS進行計算,并且可以得到較為不錯的PSNR結果,只有在中等以及困難的分塊內容中,SA+Conv的效果優勢才較為明顯。通過這個實驗我們發現,如果對內容進行分塊并且動態調整優化處理策略,有可能在保持性能的同時,大幅降低FLOPS。31圖1CAMixer的算法框架上圖是我們方案的整體流程圖,可以看到,我們的方案分成了三個部分,包括Predictor模塊,Self-Attention模塊以及Convolution模塊。其中的Predictor模塊是基于局部條件以及全局條件以及對應的線性位置編碼函數,通過該模塊,我們可以輸出OffsetsMaps、MixerMask、SpatialAttention、ChannelAttention,這些信息在Self-Attention模塊以及Convolution模塊的后續計算中進行使用。CAMixerSR中網絡的主體模塊是基于SwinIR-light進行優化。對于復雜區域,我們使用offsetsmap來進行更高效的attention計算,并且將輸入和V分成了簡單和困難兩種分塊,從而得到對應的Q和K,并且將他們分別進行計算,得到attention部分的V。Convolution模塊我們使用depth-wise進行計算,將Self-Attention的結果合并后即可得到我們最后的輸出結果。3233圖2Predictor模塊輸出的Mask可視化結果圖2顯示了我們的Predictor模塊的輸出結果,可以看到在很多的場景里,不同的區域內容有較為大的差異,并且我們的算法可以精準預測出分塊的類型。表2CAMixerSR在超高分辨率數據集上的實驗對比34表2和表3是CAMixerSR與之前高性能超分在超高分辨率數據集上做的實驗對比,我們可以看到,在多個數據集(F2K、Tesk2K、Tesk4K、Tesk8K)上,相比經典的Transformerbased超分方案SwinIR-light,CAMixerSR都有比較大的優勢,在經過我們的方案優化后,可以做到PSNR接近的情況下節約將近一半的FLOPS以及參數量Params。表3CAMixerSR通用超分辨率數據集上的實驗對比除了超大分辨率的場景,我們的方案在一些通用場景下同樣有不錯的性能優勢,表3中我們在一些常見的超分測試集上和一些常見的高性能超分方案進行了測試。表4CAMixerSR在球面超分辨率數據集上的實驗對比球面內容是一個重要的超高分辨率場景,我們在兩個全景超分數據集上進行了測試,甚至不需要通過球面數據集進行訓練,僅進行測試的情況下同樣發現我們的方案在PSNR效果以及性能上都超過了過去的方案。在這項實驗中可以表明CAMixserSR在沉浸式場景有比較大的收益潛力。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。353536火山引擎多媒體實驗室VR全鏈路處理傳輸顯示方案ResVR入選ACMMultimedia2024最佳論文提名近日,ACMMultimedia2024在墨爾本召開,該會議是國際多媒體領域學術和產業界交流的頂級盛會也是中國計算機學會(CCF)推薦的多媒體領域唯一的A類國際學術會議。據悉本(入選比例0.5%)被提名ACMMultimedia2024最佳論文(BestPaperNomination)。火山引擎多媒體實驗室和北京大學合作的論文"ResVR:JointRescalingandViewportRenderingofOmnidirectionalImages"榮獲本次會議最佳論文提名。37全景圖像(OmnidirectionalImages,ODI)等內容已在虛擬現實頭戴式VR設備中得到廣泛應用,代表性產品包括PICO4、MetaQuest3等。全景內容相關技術的應用遍及教育、旅游和娛樂等多個領域。全景內容通常采用等距圓柱投影(EquirectangularProjection,簡稱ERP)格式進行存儲。然而,當在VR頭戴式設備上觀看時,需要將ERP圖像轉換到觀看視角(viewport)進行顯示。為較好的用戶體驗,全景圖像和視頻的分辨率通常需達到8K甚至更高的標準,這對傳輸提出了挑戰。在實際應用的場景中,尤其在網絡帶寬有限的情況下,經常會涉及到全景圖像的重采樣,它分為三個主要步驟實施:首先,在服務端,我們對高分辨率ERP圖像進行下采樣,以創建一個低分辨率版本;然后將這個低分辨率圖像傳輸到用戶的VR設備后,再將其上采樣回與原始圖像相同尺寸的高分辨率ERP圖像;最后,當用戶通過頭戴式顯示器觀看特定視角時,相應的視角再從上采樣的圖像中渲染出來。端到端全景內容顯示方案ResVR現有的方案這三個步驟是獨立的,由于缺少整體鏈路的聯合優化,會出現紋理丟失、像素錯位等問題。為了解決這個問題,多媒體實驗室的研究人員提出了一種直接優化渲染顯示結果的端到端聯合優化方案ResVR,并且為了進行端到端訓練提出了多項算法創新。38離散像素采樣策略(DiscretePixelSamplingStrategy)云端的ERP圖像和渲染顯示的視角都不能同時是規則的矩形圖像形狀,從而影響了端到端訓練。為了解決這個問題,論文提出了一種離散像素采樣策略(DiscretePixelSamplingStrategy)來創建訓練數據對。39球面像素形狀表示(SphericalPixelShapeRepresentation)為了進一步提升端到端訓練效果,讓網絡感知到球面上像素的形狀和位置。論文使用了描述渲染過程中球面上像素的方向和曲率,雅可比(Jacobian)矩陣和黑塞(Hessian)矩陣,并基于球面微分使用數值導數來對它們進行估計。示例中使用球面視角上的一個點y來說明這個過程。首先,對點y及其8個最近鄰點應用逆映射,以在ERP上獲得點x及其鄰點。然后,這些點被轉換為球面坐標,這些坐標用于計算數值導數,以估計像素形狀表示。40兩個公開數據集測試中的實驗結果表明,ResVR在保證全景圖像傳輸效率的同時,實現了最佳的渲染質量。并且值得注意的是,該方案能夠使用消費級GPU實現實時渲染,表明在實際應用中有較強的實用性。此外我們從示例圖中可以看到,論文的方法超越了現有的方案,在實現了1dB的PSNR增益的同時主觀效果也有明顯提升。41總結總結在ResVR論文中,多媒體實驗室的研究人員提出了一種用于處理、傳輸以及顯示全景圖像的新框架,可以同時優化傳輸效率和渲染質量。為了實現端到端優化,論文提出了一種離散像素采樣算法,以創建ERP和GT像素的數據對。此外為了讓網絡框架對渲染的內容有更好感知,論文引入了一種球面像素形狀表示算法。最后,實驗表明ResVR在多個測試序列上,達到了sota的主客觀效果,并且該方案可以在消費級顯卡中實時運行。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建用戶體驗創新、數據驅動決策和業務敏捷迭代等數字化能力,實現業務可持續增長。42火山引擎論文入選國際會議ACMIMC'24|一種面向大規模視頻點播系統的算法實驗平臺2024年11月4日至11月6日,在西班牙馬德里舉辦了ACMIMC2024(ACMInternetMeasurementConference)會議,ACMIMC是計算機網絡方向的頂級會議之一,會議收錄了網絡測量領域的頂級論文。2024年,共計253篇論文投稿,最終錄用55篇,錄用率21.7%。火山引擎多媒體實驗室傳輸系統團隊和超邊緣技術團隊合作,提出了一種新型的實驗平臺Magpie。43該技術已經被應用于公司內部日常生產過程中的算法測試環節。同時,該論文《Magpie:ImprovingtheEfficiencyofA/BTestsforLargeScaleVideo-on-DemandSystems》被IMC2024收錄,并被邀請在VideoStreamingSession做正式匯報。論文鏈接:/doi/abs/10.1145/3646547.3689019隨著技術的進步和互聯網基礎設施的擴展,視頻點播(Video-on-Demand)服務已成為現代媒體消費中不可或缺的一部分,其流量現已占據了互聯網總流量的重要比例。作為全球主要的點播視頻內容提供商,字節跳動在視頻點播系統中上線算法的過程是高度規范的,必須確保任何變更都不會對線上的用戶體驗產生負面影響。44開發人員在開發環境中可以自由進行系統修改和測試,但所有針對生產環境(即直接服務于真實用戶的系統)的更改都必須經過嚴格的審查和批準過程。這一過程包括使用大規模在線A/B實驗來驗證改動是否真正提升了服務的體驗質量(QoE)和服務質量(QoS),同時確保不會對系統的穩定性、性能和其他關鍵指標造成負面影響。通過這種方法,我們能夠不斷優化我們的點播視頻服務,同時保持對用戶承諾的高質量服務。然而,為了保證系統穩定性而復雜化的流程使得算法的更新非常的緩慢。盡管開發者在進行算法測試時,可以利用很多仿真測試工具自測算法性能,但是由于這些仿真測試工具不具備一定數量的測試規模,并且對于復雜的真實網絡環境和系統環境進行了簡化,其測試結果往往無法代表真實的線上結果,開發者依舊需要經歷多次A/B實驗才能最終在真實的生產環境中取得正向收益,造成了算法上線流程整體歷時非常漫長的現狀,拖慢了整體的生產效率。因此,基于我們現有的資源,設計一套能夠快速取得實驗結果的同時具備高復現精準度的實驗平臺,具有非常高的實用價值,對于提升算法更新效率具有非常重要的意義。在本論文中,團隊全面地介紹了實驗平臺的設計動機、設計思路和驗證效果。在企業的生產環境中更新算法流程漫長是大型互聯網企業都會面臨的問題,尤其當前的視頻點播作為本公司的主要業務之一,點播系統每天都面臨著激增的算法上線需求和算法上線速度緩慢的矛盾。為了從根本上緩解這一矛盾,火山引擎的研究團隊認為應當提出一種新型的算法驗證平臺用于在進行線上大規模A/B實驗前進行算法性能驗證,并將該平臺的正向實驗結論作為開啟A/B實驗的前置條件之一。該平臺需要具備兩大基本的特點:復現精確度高和驗證速度快。在下表中,我們總結了現存的驗證方式包括線上大規模A/B實驗和本地仿真測試的特點,可以發現這兩種方案實際上都不能夠同時滿足這兩點要求。45為了同時滿足以上兩點算法驗證實驗平臺的設計目標,我們提出了一種名為Magpie的實驗平臺設計方案。其核心設計思想包括三點:●真實的實驗驗證環境。首先,Magpie是一個在真實的環境中進行測試的平臺。這個真實的平臺包括一個控制節點、約400臺真實的服務器和遍布中580個客戶端設備,這些服務器和控制節點是整個實驗平臺的中樞,其職責是任務的分配與下發、為服務器選取每個客戶端設備都安裝了一個定制化應用程序同時,研究團隊將傳輸層的算法進行抽象化與接●關鍵特征的提取與復現。在調試實驗平臺的過程中,研究人員發現僅僅提供真實的實驗驗證度損耗,為了解決這個問題,Magpie采用兩步流程來提高結果的準確性。46首先,它通過數據驅動的方法,使用隨機森林算法來識別影響結果的關然后,Magpie利用其內部的vPaaS基礎設施和資源調度機制,調整這些因素在其環境中這種調整確保重要因素與現實世界在線分布●模擬A/B實驗。Magpie同樣通過使用A/B分組來評估算法性能。與線上A/B實驗依賴用戶行為產生數據的方式不同,Magpie通過腳本控制應用程序自動運行視頻點播流程來一旦控制節點發出實驗開啟命令,測試就會第二種方法是基于時間的分組,其中每個設備依次執行策略。這確保了參與不我們從算法驗證的準確度和算法驗證結果的耗時兩個維度來評估Magpie的效果。●算法驗證的準確度高:我們首先評估了Magpie用于驗證一個重注入算法(一個我們準備在我們將Magpie與本地測試的結果和真實AB測試的結果進行了比較。通過比較七天收集的對比其差異,我們可以看到Magpie將效果差異其從大約13%降低到了大約2%。大大47●算法驗證的耗時短:我們還通過追蹤在最近部署的九種算法中從算法開發到全量實驗的時間跨度,分析了Magpie的在節省時間成本方面的效果表現。與在線A/B實驗相比,由于省略了繁雜的質量保障測試和穩定性測試流程,Magpie框架將整個過程的時間從68天縮短到了大約15目前,Magpie已經作為一個火山引擎內部團隊用于驗證算法的常規驗證實驗平臺投入使用。結合我們對實驗平臺設計與驗證的經驗,我們認為Magpie在以下兩方面具有優化空間。●Magpie的一般化:目前Magpie是一個主要用于解決視頻點播系統中傳輸算法驗證問題的實驗平臺,但是我們認為它完全具備發展成為一個適用于所有網絡架構和算法層的通用實驗而要將Magpie擴展為一個更加廣泛的實驗平臺存在著許多挑戰,例如所有算法的模塊化和對不同傳輸系統架構的兼容性。需要更加精良的架構抽象設計和編碼技巧,以實現一個可擴48●改進關鍵特征的提取與復現技術:在Magpie的設計中我們采用隨機森林回歸分析作為考慮到特征提取和復現的準確性在提高實驗結果相似性中的關鍵作用,通過改進我們的特征本文介紹了一種由火山引擎研究團隊提出的一種面向大規模視頻點播系統的算法實驗平臺Magpie,它通過利用真實的實驗驗證環境、關鍵特征的提取與復現以及模擬A/B實驗實現了高準確度的算法復現度和快速的實驗結果輸出速度。業界可以通過了解實驗平臺的設計原理,應用到任意的系統架構和測試算法的驗證中,因此,它對于解決在生產環境中算法迭代速度慢這一問題具有很高的參考價值。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和應用工具開放給外部企業,幫助企業構建用戶體驗創新、數據驅動決策和業務敏捷迭代等數字化能力,實現業務可持續增長。49橫掃四大賽道,火山引擎斬獲MSU世界視頻編碼器大賽“最佳ASIC編碼器”MSU世界編碼器大賽由莫斯科國立大學(MSU)舉辦,是視頻編碼領域極具影響力的國際賽事,比賽采用「SSIM、PSNR、VMAF」等多個評價指標對全球范圍內參賽的軟硬件編碼器進行多維度的評估和排名,已成功舉辦18屆。2024年硬件編碼器賽道競爭激烈,吸引了各大科技巨頭參賽,包括騰訊、Streamlake、Netint、Intel、英偉達、AMD等。火山引擎自研視頻轉碼芯片的「BVE1.2編碼器」首次亮相,全面參與1080p@30fps、1080p@60fps、1080p@120fps和1080p@240fps四個子賽道,獲得多項指標第一,及全部參賽H.265/HEVC編碼器中所有指標第一,并斬獲所有四個賽道“「最佳ASIC編碼器」”稱號。50在所有的四個賽道中,BVE1.2是表現最好的ASIC編碼器,不僅表現出「優異同時「吞吐率」大幅度領先同類產品。在高吞吐1080p@240fps賽道中,BVE1.2包攬了所有四項質量指標的第一,并且保持顯著的領先幅度(Fig1)。在1080p@30fps、1080p@60fps、以及1080p120fps賽道上,BVE1.2是最好的H.265/HEVC編碼器(僅次于基于最新一代標準的H.266/VVC編碼器),同時相比于壓縮性能前三的其他編碼器吞吐性能也有非常明顯的優勢(Fig2)。Fig1.BVE1以及其他codecs的overallquality比較(賽道240fps)Fig2.BVE1.2、Streamlake-200、NetintQuadra以及changhaiV2吞吐率比較51比賽結果不僅證明了BVE1.2編碼器能同時實現高吞吐和高質量的雙重優勢,適應多種不同的編碼場景,能夠同時兼顧畫質、延遲、及成本,帶給用戶更好的視覺體驗。為了加強在視頻編碼領域的競爭力,字節跳動在核心技術上不斷加大投入,從2019年就開始啟動自研硬件編碼器研發,目前自研硬件編碼器包含FPGA編碼器(過去兩年都參加了MSU編碼器大賽并榮獲“最佳FPGA編碼器”)和ASIC編碼器,覆蓋場景從圖片到視頻,在各個場景下都展現了更極致的壓縮效率,并進一步探索具備高壓縮率、靈活性、高吞吐率、多標準兼容的未來編碼器架構。結果表明,硬件編碼器的各項指標不僅在MSU比賽中表現優秀,更在互聯網視頻方面,進一步擴大了領先優勢,火山引擎視頻轉碼芯片集成了視頻編解碼、視頻分析、視頻前處理、主觀優化、內容自適應編碼等關鍵技術,適用于各種業務場景,包含靜圖、動圖、短視頻、長視頻、視頻直播、視頻會議、云游戲等,并通過火山引擎服務外部客戶。當前,直播和短視頻迅速增長,導致帶寬成本顯著增加。火山引擎視頻轉碼芯片以其高編碼質量和高密度特性,單卡支持120路1080p30fps編碼和“一進多出”轉碼模式。相比通用CPU平臺上的軟件編碼方案,在達到同樣的視頻壓縮效率前提下,擁有幾十倍以上的成本優勢,同時提供行業領先的編碼質量,并支持畫質增強,顯著降低帶寬成本以及計算成本。為滿足不同業務及視頻應用場景的需求,火山引擎視頻轉碼芯片還提供ABR、CBR、CRF、VBV等多種碼控方案,及lowlatency模式等。火山引擎自研芯片及系統可大規模節省IDC機房中視頻類應用的成本和能耗,不僅能大幅降低客戶的視頻類應用成本,還能獲得更好的視頻主觀及客觀質量。字節跳動一直致力于推動技術創新和研發,不斷提升產品的技術水平和用戶體驗,在視頻編碼領域持續突破。火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。火山引擎是字節跳動旗下的云服務平臺,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,提供云基礎、視頻與內容分發、大數據、人工智能、開發與運維等服務,幫助企業在數字化升級中實現持續增長。歡迎更多小伙伴加入,共同探索多媒體前沿技術!525202技術探索53AI視頻時代,如何才能不掉隊?讓你反復點贊收藏的短視頻,或許已經不是人類做的了。不久前,一段“皮卡丘打工”的AI視頻,在全網流傳爆火。精美的畫面,流暢的動作,以及絲滑的雨滴,幾乎可以與大制作的動畫電影相媲美。更久之前,今年抖音上爆火的科幻短劇《三星堆:未來啟示錄》,同樣是由AIGC生成。這部劇12集,每集3分鐘,講述考古工作者聯手揭開古蜀國神秘面紗的故事,一經上線,就引發1.4億播放。其背后的技術支持字節旗下視頻生成工具即夢,也隨之引發市場關注。54技術的普及與工具的成熟,讓視頻創作門檻快速降低,在AI的助推下,用戶從單純的內容消費者升級為生產、消費和擁有的三位一體,視頻的總量也隨之爆炸性增長:當前,視頻數據的規模飛速增長,IDC預計,2025年全球數據量將達到175ZB,其中絕大部分將來自視頻數據,而這一趨勢,還將繼續加速。但AI視頻時代,主角不止有AI。同一時期,在消費端,隨著全景直播、三維重建的成熟,伴隨著國產3A大作《黑神話:悟空》中AI技術結合無人機實景三維重建實現真實場景的紋理與細節以1:1的比例精準還原,視頻的交互與消費鏈路也從此被重構。技術的成熟,疊加應用的爆發,AI視頻的戰爭,正迎來市場化為導向的下半場。55AI視頻時代的三座大山以AI技術為代表,一個新的視頻生產、交互、消費時代正在緩緩拉開序幕,但近在眼前,仍有三座大山有待翻過。兩者中間的鴻溝,來自工程化。一個簡單的例子,僅在AI視頻生成環節,業內發布會上,AI生成的視頻中,小貓會正常跳躍,展示出的技術水平就已經遙遙領先;但現實中,一個會正常跳躍的小貓,只是最基礎的要求,視頻本身的內容與趣味的重要性,遠遠高于對AI技術更具體來說,在生產端,成本與效率,正逐漸成為一個越來越棘手的難題。一方面AI視頻生產的賽道正隨之變得前所未有的擁擠。Sora發布引發全球視頻大模型熱潮,AI視頻的賽道也在很快的時間里變得擁擠。僅僅在國內,就先后出現了字節系即夢、快手系可靈,創業公司系Pika、智譜清影、生數科技Vidu等一眾明星產品。然而,生成式AI帶來的視頻數據指數級增長對計算效能提出了嚴峻考驗;年初推出的Sora模型的訓練算力需求是GPT-4的4.5倍,而推理算力需求更是接近GPT-4的400倍。無論文生視頻,還是圖生視頻,相關的算力指標動輒幾十上百T,甚至高達千T,這種激增的成本,帶來了算力資源的可負擔性的挑戰。與此同時,多模態媒體處理挑戰也日益凸顯。多模態媒體處理需求的日益凸顯對音視頻處理的生產端、交互端和消費端提出了全新要求;生產端,多模態內容的生產是否足夠高質高效,比如給用戶交付的究竟是模型、API還是一個類似即夢這樣的軟件都對應著不同的用戶分層;交互端,當我們的交互從傳統的單模態人機變成多模態交互乃至人與AI的交互,如何讓機器更直觀的理解人類的需求,依舊是個困擾,消費端如何讓交互空間從2D升級到3D乃至虛實56單點的問題解決,需要編解碼技術的更新,需要有應對洪峰波谷的能力,需要AI的加持。但系統性問題,需要的則是一個所有能力的融會貫通,從生產端,到交互端,再到消費端的而這,或許正是火山引擎視頻云最擅長的地方。過去Sora等技術的成熟只是點燃了0到1的火種,但AI視頻真正的爆發,還需要從1到100如何定義AI視頻時代AI視頻時代的到來理所當然,但如何定義AI視頻時代,這曾是火山引擎視頻云內部,一個長期的思考題。通往未來的門票,就藏在對過去歷史的梳理中。經過復盤總結,火山引擎視頻云認為,圍繞視頻,我們的時代,可以被分為三個階段:第二階段,到了數字時代,我們對視頻品質的要求越來越高,PGC成為內容生產的主流,直播興起帶來交互上的實時、流暢、高清,而交互的空間,也57這是一個生產側內容的品質不斷提升,交互側效率不斷提升,消費端交互體驗與空間不斷升維的過程。相應的,AI視頻時代,自然也不等同于傳統的數字視頻時代加上AI能力,故事依舊各大軟件,人人可用、人人會用的基礎技能。我們不再局限于主動的內容生產與被動的內容消費,在AI視頻時代,用戶將成為AI原生居民,既是內容的生產者,也是消費者,更是擁有者。在這背后,則是AI技術從過去的問答,到圖文交互,再到如今多模態交互,多模態內容而在交互端,技術的成熟,則進一步拉近了人與視頻,真實世界與數字之間的連接。過去,留言的存在,讓人人交互成為可能;直播等技術的興起,通過互聯網的鏈接,讓人與人的實時交互得以實現。而以GPT-4o、火山引擎對話式AI實時交互解決方案等技術為代表,人與AI的交互,則在多模態的基礎上,變得更加實時流暢、逼真與擬人。全球市場研究機構MarketsandMarkets曾做出預測,到2028年,全球AI助手市場規模將達到285億美元。在這背后,2023—2028年的復合增長率將達到驚人的43%。消費端的這個趨勢是更沉浸。以年初蘋果發布的VisionPro為代表,空間計算的新時代正式開啟。在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 2 Topic 3 Must we exercise to prevent the flu Section B 教學設計 2024-2025學年仁愛科普版英語八年級上冊
- 三年級語文下冊 第一單元 習作:我的植物朋友教學設計 新人教版
- 2017-2018年八年級心理健康教育 意志力非小事 教學設計
- 4古詩三首《山行》(教學設計)2024-2025學年統編版語文三年級上冊
- 新學期班級課件
- 森林小劇場課件
- Unit6 Rain or Shine Section A Pronunciation 教學設計 2024-2025學年人教版英語七年級下冊
- 2023六年級語文上冊 第八單元 26 好的故事教學設計 新人教版
- 《第7課 老師您好-每當我走過老師窗前》(教案)-人音版(2012)音樂三年級下冊
- ××崗位競聘報告
- 英語詞匯的奧秘知到章節答案智慧樹2023年武漢科技大學
- 2022年初中歷史課程標準電子版
- 腔內心電圖經外周中心靜脈導管picc尖端定位技術
- 白酒基礎知識考試題庫300題(含單選、多選、判斷)
- The+Little+Woman英文名著《小婦人》整本書閱讀指導課件
- 高等學校學生學籍信息更改審批表
- 慢性胃炎中醫癥候評分表
- 學生心理健康檔案表格
- 臨時用電施工組織設計(總體)
- 2023年神東煤炭集團招聘筆試題庫及答案解析
- YY/T 1723-2020高通量基因測序儀
評論
0/150
提交評論