AIGC產業研究報告 2023-圖像生成篇_第1頁
AIGC產業研究報告 2023-圖像生成篇_第2頁
AIGC產業研究報告 2023-圖像生成篇_第3頁
AIGC產業研究報告 2023-圖像生成篇_第4頁
AIGC產業研究報告 2023-圖像生成篇_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

^Yialysys易觀分析□□□□□□AIGC產業研究報告2023圖像生成篇本產品保密并受到版權法保護ConfidentialandProtectedbyCopyrightLawsAIGC產業研究報告AIGC產業研究報告2023歡迎登陸易觀分析Tel:4006-010-231歡迎登陸易觀分析Tel:4006-010-231易觀分析:E-mail:ygfx仞TOC\o"1-5"\h\z\o"CurrentDocument"1定義 1\o"CurrentDocument"2主要類型和應用領域 1\o"CurrentDocument"3技術發展的關鍵階段 1\o"CurrentDocument"4主流模型實現原理及優缺點 3\o"CurrentDocument"4.1主流模型解析 3\o"CurrentDocument"4.2國內外代表模型 4\o"CurrentDocument"5影響模型應用能力的關鍵因素 4\o"CurrentDocument"6典型產業應用場景 5\o"CurrentDocument"7商業化過程中面臨的戰 7\o"CurrentDocument"7.1國內外主流圖像生成產品及商業模式 7\o"CurrentDocument"7.2圖像生成商業化落地挑戰 8\o"CurrentDocument"8前沿探索與趨勢展望 10易觀分析版權聲明2023 11關于易觀分析 12AIGC產業研究報告AIGC產業研究報告2023歡迎登陸易觀分析Tel:4006-010-231易觀分析:歡迎登陸易觀分析Tel:4006-010-231易觀分析:E-mail:ygfx仞#圖像生成典型產業應用場景數字化歷史文獻修復、圖像修補老照片、老電影修復醫學病例和解剖結構創建天文觀測、衛星遙感觀測虹像超分辨率www.a數字化歷史文獻修復、圖像修補老照片、老電影修復醫學病例和解剖結構創建天文觀測、衛星遙感觀測虹像超分辨率www.a圖像分類、圖像分割目標識別、圖像檢索工業設計藝術作品創作、圖像編輯、圖像藝術性增強圖像分類、圖像分割目標識別、圖像檢索工業設計動漫人物、游戲場景制作海報、產品LOGO和包裝設計?AnalysysflJ觀分析圖6-1:圖像生成典型產業應用場景圖像分類、圖像分割可以在工業、工程設計等領域輔助進行目標識別、圖像相似度檢索,輔助CAD設計等;在醫學領域可以幫助進行醫學影像標注、解剖、病理結構變化分析等。另外,圖像生成模型在零樣本分類任務中的良好表現,可以在不需要進行額外訓練的情況下快速創建項目,有效提升了模型的工程化能力,降低了對數據標注的要求和訓練成本。。圖像生成和圖像風格轉換在藝術設計、產品設計、動畫與游戲制作等方面均有充分的商業化潛力,可以將其大量應用于創作藝術作品,根據設計者的草稿圖、創意概念來生成圖像,以及圖像合成、圖像編輯、增強圖像藝術性等,從而能夠幫助設計師、建模師進行動漫人物、游戲場景的制作,幫助完成海報、產品LOGO和產品包裝設計等工作。在電商的應用方面,圖像生成可以在虛擬試衣間、模擬商品展示等場景提升用戶的在線購物體驗。圖像修復能夠根據已有圖像的上下文信息修復缺失部分,例如上色、去除噪聲或填充缺失部分,對圖像對比度、銳度或色彩鮮艷度等圖像要素的增強等,可以應用于數字化歷史文獻的修復、圖像修補等。在攝影與影視制作方面,對老照片、老電影的修復和畫質提升都具有很強的應用價值。圖像超分辨率能夠從低分辨率圖像恢復和重建高分辨率圖像,在醫學影像處理場景中,結合模型的數據合成和預測能力進行圖像識別、特征提取和圖像重建,能夠幫助醫生創建逼真的病例和解剖結構,生成CT掃描圖像,輔助進行病情的分析診斷。另外,在天文觀測和衛星遙感觀測等方面,利用圖像超分辨率能夠提升成像設備的性能,并克服時間差異、氣象變化等因素引起的圖像場景變化,為天文探索發現增加了更多可能性。未來,隨著圖像生成技術的發展,其與3維生成的強相關性將會更多在視頻、教育、建筑以及虛擬空間建模等方向形成縱深探索。模型的穩定可控能力是影響未來發展的核心要素,目前圖像生成內容仍然存在較大的不確定性,對于藝術創作有助于激發靈感,但對圖像本身可控性要求極高的領域來說,生成圖像是否與預期目標相符,以及對圖像精度的精準控制+分關鍵,這將有利于拓展其在生物醫藥、工業制造、航空航天等領域的應用前景。7商業化過程中面臨的挑戰7.1國內外主流圖像生成產品及商業模式從國內外市場需求和規模來看,目前圖像生成在AIGC領域中總體的商業化進展較快。國外主流的圖像生成平臺以Midjourney、StableDiffusion、DALL-E2為代表。其中,Midjourney采用閉源付費模式,在對DiffusionModel精調后部署在Discord上,用戶通過與bot的交互來獲得圖片,從生成效果來說其對藝術風格的把握獨樹一幟。Midjourney通過早期開放公測積累了大量用戶群,在Discord頻道中形成了高活躍度的社群,以SaaS付費訂閱模式提供通用或定制化服務,構建起了較為成熟的商業模式。而StableDiffusion則完全開源,因此模型的優化迭代速度非常快,形成了較好的開發者生態,其盈利手段主要通過API收費和面向專業領域的B端用戶提供定制化模型服務;此外,StableDiffusion可以作為插件應用嵌入Photoshop,支持直接在PS上生成圖像并保存,能夠為專業設計工作者的效率和體驗帶來顯著提升。DALL-E2通過百億級大規模參數集進行訓練,能夠形成穩定和高質量的圖像,生成效果更接近真實照片,目前DALL-E2采取閉源付費模式,而依托OpenAI與微軟的深度合作關系,搭載ChatGPT能力并將產品嵌入微軟的辦公生態,將使DALL-E2建立起核心競爭優勢。另外,Adobe也推出了圖像生成模型集Firefly,并融入到AdobeI作流,Adobe還強調其訓練數據來自AdobeStock素材庫、公開許可內容和版權已過期的公共領域內容,可以生成專為商業使用的高質量圖像,并計劃和Photoshop、Illustrator、Premiere等系列產品深度整合,這些手段將有利于建立面向專業設計領域的客戶優勢,提升用戶粘性。對于國內市場而言,隨著我國自主研發模型的技術進展,文心一格、CogView、ZMO等Al圖像生成產品通過模型調優和知識增強訓練,對中文提示詞具備更強的理解能力,在美術創作、廣告設計等領域已經形成了一定的用戶基礎。其中,文心一格提供面向C端用戶的免費和付費模式,依托文心大模型的能力,文心一格在多模態交互方面具有明顯優勢;CogView通過API開放能力,支持與企業AI底座的能力對接和模型微調,并提供面向B端用戶的定制訓練和私有化部署服務;ZMO則將商業化重點聚焦在圖生圖任務中,進行產品圖到營銷海報等真實場景的圖像生成,積累了一定規模且有付費意愿的小B端用戶。可以預見,國內圖像生成領域的商業化進程速度將加快并迎來用戶的快速增

長期,但仍然需要結合技術能力和產品能力進行深度打磨,通過構建數據層、模型層、應用層的生態閉環形成可持續發展。7.2圖像生成商業化落地挑戰結合國外主流平臺的成功經驗與國內市場情況,打造成熟的商業模式需要關注來自三個方面的挑戰。圖像生成商業化落地挑戰產品化能力挑戰prompts解、微調工具運用監管合規挑戰產品化能力挑戰prompts解、微調工具運用監管合規挑戰隱私保護、版權保護、AI治理數據能力挑戰數據資產的閉環經營?AnalysysR觀分析 圖7-1:圖像生成商業化落地挑戰?數據能力挑戰圖像生成的效果很大程度依賴于訓練數據的規模和數據質量,圖像生成產品在向更多專業領域和行業深入時,需要考慮行業存在的數據壁壘、數據量不足、數據質量不高等問題。另外,針對不同行業的特定場景的圖像生成要求,需要結合行業知識進行增量訓練,但目前圖像生成模型仍然存在對復雜語義和抽象關系上的理解難度。在模型訓練階段,可以通過數據增強策略、利用合成數據預訓練等方式進行優化,提升下游任務的性能。但在商業化過程中,還需要考慮資源、性能、成本的平衡。因此,針對不同類型的用戶群體,構建數據資產經營的閉環將起到決定作用。對于C端用戶,通過結合用戶所輸入的提示詞(prompt)、生成圖像選擇等進行交互行為和偏好分析,利用這些沉淀的數據形成可靠的數據資產,以此提升數據篩選、標注和分類能力,以及模型的中文語義理解能力和圖像風格化能力,更有針對性地進行模型迭代;同時引導用戶形成中文生成內容社區,來優化內容分發方式,針對不同的用戶圈層和付費意愿打造差異化的服務模式。Midjourney的一個關鍵成功因素就是基于Discord建立內容社區形成用戶共創的格局,從而不斷沉淀數據資產,提升用戶粘性。對于B端用戶,可以借鑒StabilityAI的商業模式,通過建立適用性良好的框架積累不同行業客群,沉淀內容和行業經驗,以此提供面向用戶特定需求的定制模型,例如能夠對動畫制作、影視制作、建筑設計等行業高質量的藝術效果圖的需求進行模型調優和二次開發,形成具有行業屬性的圖像生成產品,將是國內圖像生成下階段商業化的成功關鍵。-產品化能力挑戰圖像生成模型落地應用的過程中,需要解決模型訓練階段和下游任務實現之間的差距,滿足產業場景下對圖像生成的實際需求。例如在實際應用時,用戶所輸入的提示詞直接決定了圖像生成的實際效果,因此模型對于prompt的理解和運用非常關鍵。如果能在文生圖過程中,減少文本描述量和復雜度的情況下保持對語義的準確把握,將明顯降低用戶的使用門檻;在此基礎上,在用戶意圖的基礎上進行擴展,生成超越預期的高質量圖像,將有效提升用戶體驗,提升產品化能力。而影響圖像生成的產品化能力的因素,一是模型本身的性能能否直接滿足應用要求,二是能否在產品中引入附加工具來解決模型局限性問題,而可控性是產品化的核心挑戰。其中一個實現方式是通過擴大參數集和數據集規模來提升模型性能,并提高對圖像編輯、圖像風格轉化、圖像超分辨率等多種下游任務融合應用的能力,從而支持多種個性化需求和控制生成圖像的細節,相應地,也需要更強的模型部署能力、環境和配套資源。另外,還可以通過引入ControlNet等微調模型來生成指定要求的圖像,實現對畫面中的物體位置、人物姿勢等精確控制,優化圖像生成模型不可控的問題,并能夠進行視角調整、光影調整、細節添加等,以滿足B端用戶對于產品可控性的更高要求,同時也有利于在控制訓練成本的前提下實現產品的快速落地。?監管合規挑戰生成式AI的發展不可避免引發來自人工智能技術應用風險的問題,商業化的一大前提是需要滿足監管的合規性要求,近日網信辦已經下發了《生成式人工智能服務管理辦法》的征求意見稿,也將加速AIGC對于數據使用和行業發展的規范化。對于圖像生成類產品,合規性考量主要包括隱私保護、版權保護、人工智能治理三個方面。隱私保護方面,由于使用圖像生成工具進行內容創作的成本低、操作簡單、逼真程度高,在一定程度上造成了信息濫用問題,可能導致隱私泄露、偽造欺詐引發的信息安全和財產損失,例如將深度合成的人臉圖像用于金融領域的身份識別欺詐,利用含有欺騙性或者其他有害的圖像內容進行傳播和其他不當行為等。因此需要提升圖像在生成、流轉、存儲等過程中的數據安全,以及加強對偽造圖像的判別和提示。版權保護方面,圖像生成模型基于網絡公開數據進行訓練,將可能會產生涉及圖像知識產權的風險,例如有研究指出生成模型可能存在從訓練數據中復制圖像而不是生成新圖像。目前,一些行業和AIGC產業研究報告AIGC產業研究報告2023歡迎登陸易觀分析Tel:歡迎登陸易觀分析Tel:4006-010-23110相關機構已經要求所有生成式Al內容必須注明來源,或是直接禁用生成式AI的使用。圖像生成作品是否應該受到版權保護,原創內容與生成內容的比例應該如何界定等,都是圖像生成在實際應用中需要考量的問題。人工智能治理方面,一是公平性問題,由于圖像生成模型的訓練數據包含大量未經過清洗的數據集,使圖像生成模型中可能隱藏的如性別、種族、文化等數據偏見。二是模型可解釋性問題,大模型在深度神經網絡結構層級越來越復雜的情況下,存在對底層數據的淹沒問題,導致模型的可解釋性變弱,解析生成模型內部表征的難度變得越來越高。圖像生成模型可以創建逼真場景或人物圖像,其可解釋性也與實際商用的可能性強相關。因此建立可信可控的人工智能需要納入從模型訓練到產品落地的全過程。8前沿探索與趨勢展望目前,圖像生成技術的前沿探索主要聚焦在如何加強對圖像實體關系的深度理解、提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論