從ChatGPT到AIGC:智能創作與應用賦能_第1頁
從ChatGPT到AIGC:智能創作與應用賦能_第2頁
從ChatGPT到AIGC:智能創作與應用賦能_第3頁
從ChatGPT到AIGC:智能創作與應用賦能_第4頁
從ChatGPT到AIGC:智能創作與應用賦能_第5頁
已閱讀5頁,還剩105頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

從ChatGPT到AIGC智能創作與應用賦能目錄TOC\h\h第1章AIGC:引爆內容生產力\h1.1ChatGPT:AI新紀元已經開啟\h1.1.1智能應用ChatGPT掀起AIGC熱潮\h1.1.2應用場景:ChatGPT的多場景應用\h1傳媒\h2電商\h3影視\h4教育\h5金融\h6醫療\h1.1.3關注要點:安全性+版權保護+道德問題\h1安全性\h2版權保護\h3道德問題\h1.1.4類ChatGPT產品出現:阿里巴巴推出“通義千問”\h1.2發展梳理:從PGC到UGC再到AIGC\h1.2.1PGC:企業和平臺是內容創作的主體\h1.2.2UGC:用戶成為內容創作主體\h1.2.3AIGC:AI成為內容創作主體\h1.3內容生成:AIGC涵蓋多樣的內容模態\h1.3.1AI圖像:AI繪畫趨于普遍\h1.3.2AI文本:方案、廣告、小說皆可智能生成\h1.3.3AI音樂:谷歌AI模型MusicLM實現音樂即興創作\h1.3.4AI編程:智能系統重新定義編程\h1錯誤自動查找\h2錯誤自動修復\h3代碼搜索\h1.4核心驅動力:AIGC賦能元宇宙\h1.4.1AIGC是元宇宙實現的生產力工具\h1.4.2由降本增效轉向創造價值,AIGC價值凸顯\h1.4.3書分享公眾號青藍書房\h第2章技術構成:AIGC實現的關鍵技術\h2.1自然語言處理:賦予AI理解與生成能力\h2.1.1核心能力一:自然語言理解\h1篇章理解\h2文本摘要\h3情感分析\h4文本翻譯\h5問答系統\h2.1.2核心能力二:自然語言生成\h1相似問生成\h2可控文本生成\h2.2AIGC生成算法:提升AI創作能力\h2.2.1生成式AIVS分析式AI\h1生成式AI\h2分析式AI\h2.2.2AI算法成熟,創作能力爆發\h2.3預訓練大模型崛起,賦能深度學習\h2.3.1預訓練大模型發展,破解深度學習難題\h1預訓練大模型能夠推進AI產業化發展,實現AI轉型\h2預訓練大模型借助自監督學習功能降低AI開發成本\h2.3.2破解通用性難題,應用全方位突破\h2.4多模態交互技術:實現全方位的人機交互\h2.4.1多模態交互:文字+語音+視覺+動作\h2.4.2多模態人機交互讓虛擬數字人更加鮮活\h第3章產業生態:產業生態已現雛形\h3.1產業生態拆解:上中下游產業鏈逐步搭建\h3.1.1產業上游:提供核心數據服務\h1數據處理\h2數據標注\h3數據治理\h3.1.2產業中游:搭建算法模型\h1AI實驗室\h2企業研究院\h3開源社區\h3.1.3產業下游:多領域應用拓展\h1文本生成\h2圖片生成\h3音頻生成\h4視頻生成\h5其他\h3.2產業價值:消費端+產業端+社會端\h3.2.1消費端:AIGC推動數字內容變革\h3.2.2產業端:合成數據指引AI發展路徑\h3.2.3社會端:解放人力,助力創造力提升\h3.3產業發展面臨的挑戰\h3.3.1知識產權挑戰:數字內容存在版權風險\h3.3.2安全挑戰:存在多方面安全風險\h1內容本身的安全問題\h2可能會引發違法犯罪行為\h3用戶隱私數據泄露\h第4章市場現狀:巨頭搶占市場新藍海\h4.1新賽道崛起:AIGC風口已被點燃\h4.1.1資本流入,AIGC初創公司呈現爆發式增長趨勢\h1HuggingFace\h2Jasper\h3Synthesia\h4.1.2宣布布局,多只概念股漲停\h4.2科技巨頭布局AIGC已成趨勢\h4.2.1阿里巴巴:大模型研發+AIGC應用\h4.2.2百度:全棧布局AI技術,以AI虛擬數字人發力\h4.2.3字節跳動:發力AI視頻生成\h4.2.4微軟:以投資布局,積聚AIGC實力\h4.2.5谷歌:推出多種AIGC產品\h4.3商業化落地加速,AIGC服務已經出現\h4.3.1AIGC云算力解決方案實現多種創作\h4.3.2AIGC算法與模型實現開源創作\h4.3.33D視頻內容AIGC引擎服務獲得發展\h第5章AIGC+傳媒:人機協同,賦能媒體創作\h5.1AIGC滲透傳媒多環節\h5.1.1采編:語音識別轉文字工具+新聞內容生成工具+視頻剪輯工具\h1語音識別轉文字工具\h2新聞內容生成工具\h3視頻剪輯工具\h5.1.2傳播:虛擬主播自動播報\h1應用范圍不斷拓展\h2應用場景不斷升級\h3應用形態日趨完善\h5.1.3互動:實現與觀眾的互動\h1人物信息識別\h2劇情信息識別\h3物品信息識別\h5.2AIGC傳媒的優勢\h5.2.1三大前沿能力賦能內容創作\h1智能數字內容孿生\h2智能數字內容編輯\h3智能數字內容創作\h5.2.2媒介轉變,提升數字內容的感官體驗\h5.3AIGC重構傳媒領域數字營銷\h5.3.1AIGC+數字營銷:激發內容創意\h5.3.2營銷方案快速生成,提高效率\h5.3.3藍色光標:AIGC“創策圖文”營銷套件\h1AI生成創意\h2AI生成策略\h3AI生成圖片\h4AI生成文本\h第6章AIGC+電商:虛實交互,打造沉浸式購物體驗\h6.1賦能內容:電商內容智能生成\h6.1.1AIGC文本生成:產品命名+產品描述+營銷郵件\h6.1.2AIGC圖片生成:AIGC繪畫工具自動生成圖片\h6.1.3AIGC視頻生成:為視頻創作打開想象空間\h6.2賦能場景:電商場景三維建模\h6.2.1智能生成3D模型,實現商品展示與試用\h6.2.2實現虛擬商城搭建,提供全景式虛擬購物場景\h6.3虛擬主播:電商營銷的好幫手\h6.3.1虛擬主播與真人主播合作,實現全天候直播\h6.3.2搭建溝通渠道,加深品牌與消費者的連接\h6.4虛擬IP:邀請代言+自建虛擬IP\h6.4.1邀請代言:AI虛擬偶像成為代言新寵\h6.4.2自建虛擬IP:屈臣氏推出AI代言人“屈晨曦”\h第7章AIGC+影視:智能創作,為影視創作提供新思路\h7.1AIGC影視劇本創作,激發創作者靈感\h7.1.1劇本數據分析+內容智能生成,形成劇本初稿\h7.1.2海馬輕帆:AI寫作實現小說轉劇本\h7.2AIGC實現角色和場景創作\h7.2.1AI換臉和AI換聲\h1面部識別和檢測\h2提取人臉特征\h3人臉替換\h4人臉重建\h5質量評估\h7.2.2AIGC實現虛擬演員打造\h7.2.3AIGC虛擬場景制作節省影視成本\h7.3智能剪輯,升級后期制作\h7.3.1對象自動識別:智能剪輯影片\h7.3.2內容修復:修復影視內容\h7.3.3內容形式轉換:影視內容2D自動轉3D\h第8章AIGC+娛樂:邊界擴展,帶來多重新奇體驗\h8.1趣味內容生成,激發用戶參與熱情\h8.1.1“AI動漫臉”成為破圈利器,引發用戶參與\h8.1.2虛擬偶像內容創作,激發粉絲熱情\h8.1.3短視頻內容創作,為創作者提供創意輔助\h8.2虛擬形象創作,連接虛擬世界與現實世界\h8.2.1AI自動生成虛擬形象,優化體驗\h1社交平臺\h2游戲\h8.2.2ReadyPlayerMe+VRChat:個性化虛擬形象創建\h8.2.3AI生成數字服裝和數字潮玩,助推數字時尚發展\h8.3游戲內容創作,AIGC釋放游戲活力\h8.3.1ChatGPT游戲應用指引游戲AIGC創作模式\h8.3.2AIGC游戲創作平臺成為發展新方向\h1游戲創作平臺\h2大數據分析平臺\h3渲染集群\h8.3.3布局方向:自研模型+第三方模型\h8.4音樂內容制作,更新音樂體驗\h8.4.1微軟AI模型:AI生成多種音頻文件\h8.4.2AIGC助力AI歌曲創作\h8.4.3百度元宇宙歌會實現AIGC創新\h第9章AIGC+教育:雙管齊下,推動教育“數智”轉型\h9.1AIGC推動教育數字化轉型\h9.1.1數字化工具變革教學模式\h9.1.2搭建更加智慧的教學環境\h1智慧教學交互系統打造良好的教學體驗\h2場景化方案子系統實現教學創新\h3UClass智慧教學平臺實現教學管理\h4AI智能運維,避免教學事故\h9.1.3智慧校園解決方案:為校園筑起安全屏障\h1AI人臉核驗技術\h2訪客管理功能\h3智慧校區安全管理體系\h9.2AIGC推動教育智能化變革\h9.2.1智能生成3D場景,實現虛實交互\h1虛擬校園\h2虛擬實驗室\h3網絡教育虛擬教室\h9.2.2AI分析實現個性化精準教學\h9.2.3網易有道:嘗試將AIGC在教育場景落地\h9.3更新體驗:教學與學習體驗的雙重更新\h9.3.1AIGC賦能教師:輔助備課、教學和作業批改\h9.3.2AIGC賦能學生:AI虛擬教師帶來全新教學體驗\h第10章AIGC+工業:工具革新,工業設計模式迭代\h10.1AIGC為工業設計提供工具\h10.1.1AIGC為設計師提供工具,輔助內容設計\h10.1.2AIGC拓展建筑圖紙設計維度\h1高信息量的生成\h2建筑信息的轉化\h3建筑方案的拓展\h4三維模型的生成\h10.1.3人機共存,AI數字人與設計師攜手共創\h10.2英偉達:AIGC賽道不斷布局\h10.2.1Omniverse平臺:AI實現內容生產\h1OmniverseAvatar\h2OmniverseReplicator\h3OmniverseAudio2Face\h4OmniverseCreate\h5OmniverseMachinima\h6OmniverseView\h10.2.2Magic3D:3D模型智能生成應用\h第11章創投機遇:找準方向,抓住時代機遇\h11.1以技術入局:瞄準AI頂層技術\h11.1.1AI芯片研發:滿足爆發的算力需求\h11.1.2AI大模型研發:通過海量數據對大模型進行訓練\h11.2以產品入局:多角度打造AIGC產品\h11.2.1文字生成:騰訊推出自動化新聞撰稿機器人Dreamwriter\h1建立數據庫\h2機器學習\h3寫作\h4審核\h5分發\h11.2.2繪畫生成:百度發布AI輔助創作平臺—文心·一格\h11.2.3視頻生成:Meta公司推出文字生成短視頻系統Make-A-Video\h11.2.4音頻生成:喜馬拉雅為創作者提供AI音頻合成工具\h1TTS音色難以演繹小說\h2跨語言合成\h3語音轉文字技術\h11.3AIGC領域投資機會\h11.3.1關注上游廠商,瞄準AIGC基礎設施建設\h1商湯科技\h2海天瑞聲\h11.3.2關注下游應用,多家企業嶄露頭角\h第12章未來圖景:未來已來,迎接AI下一個時代\h12.1技術趨勢:AI技術迭代深化AIGC發展\h12.1.1深度學習技術迭代,AIGC內容產出更加智能\h1前深度學習階段\h2深度學習階段\h3超級深度學習階段\h12.1.2多模態技術發展,AIGC模型通用化能力更強\h12.1.3MaaS有望成為現實\h12.2參與主體擴散:由B端向C端擴散\h12.2.1ToB端的AIGC產品豐富,賦能企業發展\h12.2.2ToC端的AIGC工具多樣,引發用戶多種消費\h12.3行業應用賽道拓寬:行業滲透不斷提升\h12.3.1金屬行業:優化行業管理全流程\h1能夠解決礦產采選中的痛點\h2能夠節約人力資源\h3能夠對金屬行業的供應鏈進行管理\h4能夠節約各項成本\h12.3.2機械行業:機械設備智能升級\h1大模型變革生產力工具\h2ChatGPTAPI已經發布,商業化落地潛力巨大\h12.3.3銀行業:優化銀行業務流程\h1銀行客服\h2業務前端\h3業務中端\h12.4落地場景蔓延:滲透生活的方方面面\h12.4.1數字員工多領域落地,解放人工\h12.4.2AIGC營銷多領域落地,自動生成視頻第1章AIGC:引爆內容生產力AIGC指的是利用人工智能(AI)技術生成內容,這是近年來AI領域的一項重大科研成果。AIGC在一定程度上代表了AI發展的新趨勢,其不僅推動內容創作生產力大幅提升,而且賦能元宇宙,為元宇宙的發展提供核心驅動力。1.1ChatGPT:AI新紀元已經開啟隨著深度學習、自然語言處理等AI技術的深度發展,ChatGPT橫空出世,且在各大領域中得到應用和發展。ChatGPT為眾多大型企業打造了更加便捷、高效的服務方式,幫助企業進一步實現了降本增效。如今,人類已經進入AI發展的新紀元。1.1.1智能應用ChatGPT掀起AIGC熱潮2022年11月30日,人工智能研究公司OpenAI推出了新一代聊天機器人—ChatGPT。智能應用ChatGPT是AI文本處理方式的新研究和新突破,掀起了AIGC熱潮,刺激了眾多大型企業加快布局智能化內容生成領域。ChatGPT基于GPT-3.5參數規模和底層數據,對原有的數據規模進行了進一步拓展,也對原有的數據模型進行了進一步強化和完善,實現了人類知識和計算機數據的突破性結合。ChatGPT通過自然對話方式進行交互,可以自動生成文本內容,自動回答復雜性語言。自推出后,ChatGPT用戶迅速增長,成為當下火爆的消費級應用。騰訊、亞馬遜、字節跳動等大型企業竭力將ChatGPT融入自身的業務中,以加深AI對企業業務的滲透,助力企業降本增效。例如,字節跳動利用ChatGPT加快“AI+”內容的布局,實現了自動輔助寫作、自動生成短視頻等。而阿里巴巴利用AI技術自動生成高質量的產品介紹文案,不僅提升了文案的生產效率,還極大地提升了文案質量。騰訊將AI技術融入廣告制作中,實現了廣告視頻和文案的自動生成,極大地降低了廣告的制作成本。ChatGPT助力眾多大型企業加快AIGC應用布局,在文本內容設計和生成方面給企業提供了有力幫助,推動內容生成的降本增效。2023年3月14日,OpenAI發布了新一代大型多模態模型—GPT-4。和ChatGPT所用的模型相比,GPT-4優勢更為顯著。GPT-4的重大突破便是除了處理文本內容,還可以處理圖像內容。用戶可以同時輸入文本內容和圖像內容,GPT-4將根據這些內容生成語言、代碼等。在官方演示中,GPT-4只用了2秒左右的時間就完成了網站圖片的識別,生成了網頁代碼,并制作出了相應的網站。除了普通圖像,GPT-4還能夠處理論文截圖、漫畫等內容復雜的圖像,提煉其中的要點內容。GPT-4在語言方面的功能更加強大。在測試中,GPT-4在多種語言方面的表現均優于此前的GPT系列大語言模型的語言性能。其中,GPT-4的英文準確性為85.5%,中文準確性為80.1%,兩者的語言準確性較之前都有很大提高。與ChatGPT不同,GPT-4目前僅向付費用戶開放。同時,其也將作為API(應用程序編程接口)提供給各大企業,使這些企業將該模型集成到自己的應用程序中。未來,伴隨著GPT-4應用的普及,其將為企業發展提供更多助力。1.1.2應用場景:ChatGPT的多場景應用ChatGPT應用場景廣泛,社會效應顯著。隨著AI技術的快速發展,AIGC將代替人工完成大量的文本設計和創作工作。以下是ChatGPT的主要應用場景,如圖1-1所示。1傳媒ChatGPT能夠幫助傳媒企業實現新聞的智能寫作,提升新聞發布時效。同時,ChatGPT基于算法模型,能夠自動策劃、編寫新聞,實現新聞自動化采編,幫助傳媒企業更加快速、精準地生成內容。圖1-1ChatGPT的主要應用場景2電商ChatGPT能夠打造虛擬客服,助力電商企業為用戶提供24小時無縫對接服務。虛擬客服能夠填補電商平臺人工客服休息時的時間空白,實時為用戶提供服務,更加全面、準確、快速地了解和響應用戶需求。ChatGPT對虛擬客服的話術有嚴格的約束,極大地增強了虛擬客服服務的可控性。3影視ChatGPT能夠分析海量劇本,并通過對分析結果的總結和歸納,為影視創作者提供更符合觀眾需求的創作思路。ChatGPT也能夠按照預設風格自動生成劇本,影視創作者可以對ChatGPT生成的劇本進行篩選、加工和優化,以更好地完善劇本,縮短影視作品的創作周期。4教育ChatGPT能夠實時生成教育資料,為學生解答學習疑惑。學生可以通過ChatGPT提供的在線問答功能與虛擬語音機器人實時交流問題和困惑,極大地提升了學生學習的自主性。此外,ChatGPT還能夠幫助學校和教師快速生成大量教學課件、試卷和試題等。5金融ChatGPT能夠幫助金融企業為客戶提供更加及時、人性化的服務。金融企業利用ChatGPT能夠自動生成產品介紹和金融咨詢的文本,提升金融咨詢服務效率。同時,金融企業還能夠利用ChatGPT構建虛擬客服,實現與客戶的在線實時交互,提升金融服務的效率和溫度。6醫療ChatGPT可以幫助醫院自動生成醫生與患者之間的對話交互文本,輔助醫院錄入電子病歷,在一定程度上減輕醫生的工作量,提升醫生的工作效率。ChatGPT多元化的應用場景幫助諸多領域實現了高效、高質量的用戶交互和服務。同時,ChatGPT推動了眾多領域的技術和服務升級,加快了各個行業的智能化發展。1.1.3關注要點:安全性+版權保護+道德問題2023年年初,ChatGPT頻頻登上熱搜榜,引發了眾人的關注,其也在兩個月的時間內收獲了2億個活躍用戶。在感嘆于ChatGPT的智能時,一些人也表達了對ChatGPT的擔憂。那么,關于ChatGPT,我們應該關注什么?1安全性ChatGPT表現出了強大的智能性,展現出了巨大的市場價值。ChatGPT在為人們的生活提供便利的同時,也可能會因對其濫用而產生安全威脅。第一,ChatGPT可能會成為不法分子進行網絡攻擊的工具。不法分子可能會借助ChatGPT進行代碼編寫,并進行有規模的網絡安全攻擊。這將增加網絡安全攻擊的頻次。同時,以往以大型企業為目標的攻擊模式或將轉變,大中小企業都將成為網絡安全攻擊的目標。第二,不法分子可能會借助ChatGPT的信息編寫功能生成規模化的釣魚軟件。同時,智能生成的詐騙信息更加難以識別真偽,可能會導致更多人受騙。第三,ChatGPT的算法邏輯中缺乏事實核查能力,很容易產生虛假信息,而這種風險又會在社交媒體中不斷放大。網絡用戶難以識別出這些信息的真偽,由此也會加大網絡輿情治理的壓力。針對以上安全性問題,我們應該怎么做?當前,我國已經頒布了《中華人民共和國網絡安全法》《網絡信息內容生態治理規定》《互聯網信息服務算法推薦管理規定》等法律法規,對AI、算法等技術的應用進行了詳細的規定,并建立了完善的監管體系。這些可以應對短期內ChatGPT可能引發的網絡安全風險。同時,各大網絡平臺也要更新監管技術,提升監管力度,積極進行智能生成內容審核產品的研發和推廣。2版權保護ChatGPT功能強大,能夠生成文案、論文、新聞等多內容。從版權的角度來看存在一個問題,那就是使用ChatGPT生成的內容是否受版權保護?《中華人民共和國著作權法》第三條規定:“本法所稱的作品,是指文學、藝術和科學領域內具有獨創性并能以一定形式表現的智力成果。”而ChatGPT的生成邏輯是在海量數據和機器學習的基礎上,應用算法而產生的結果。同時,人類創作內容耗費了很多精力,能夠體現創作者想要傳達的情感,是一種復雜的智力勞動。這種智力勞動是值得著作權法保護的。ChatGPT生成的內容雖具有人類智力創作成果的表象,但其生成過程與創作者的智力創作并不同,其生成的內容并不屬于著作權法所涵蓋的作品。因此,ChatGPT生成的內容并不受著作權法的保護。ChatGPT生成的內容并不受著作權法的保護并不意味著他人可以自由使用ChatGPT生成的內容。ChatGPT生成的內容與作品市場的利益關系密切相關,可能會在未來受到相關法律的關注和保護。目前,已經有學者提出通過鄰接權制度對ChatGPT生成的內容進行保護。鄰接權即與著作權有關的權利,如版式設計者權、表演者權等。未來,這一可行性設想或將實現。3道德問題ChatGPT引發的道德問題同樣值得關注。如果沒有輸出控制,ChatGPT很容易被用來生成不良言論、垃圾郵件等。除了直接生成有害內容,我們還要警惕ChatGPT從海量的訓練數據中嵌入一些偏見和錯誤看法。雖然為了規避出現以上問題,OpenAI公司為ChatGPT安裝了過濾器,但從目前來看,OpenAI公司的防護效果并不理想。未來,ChatGPT還需要進行技術迭代,加強在道德問題相關內容方面的管理。1.1.4類ChatGPT產品出現:阿里巴巴推出“通義千問”在2023年4月11日的阿里云峰會上,阿里巴巴正式推出了類ChatGPT產品“通義千問”。“通義千問”的本質是一個AI驅動的大語言模型,具備智能對話、文案創作、多模態理解、多語言支持等功能。基于多模態的知識理解,其還可以續寫小說、編寫郵件等。目前,一些阿里巴巴旗下產品已經接入了“通義千問”,產品功能變得更加智能。以釘釘為例,在接入“通義千問”后,當用戶進入一個新群聊時,釘釘可以根據群內之前的聊天內容生成聊天摘要,幫助用戶了解群內概況。同時,釘釘可以根據用戶在釘釘文檔中所提的需求,進行相關內容創作,生成創意圖片。在峰會上,阿里巴巴集團董事會主席兼CEO張勇表示:“面對AI時代,所有產品都值得用大模型重做一次。”而阿里巴巴也是這樣做的。基于“通義千問”對各種應用的智能賦能,阿里巴巴表示未來將會在旗下所有產品,如高德集團、閑魚、淘寶等產品中接入“通義千問”,提升旗下產品的智能性。此外,阿里巴巴還將面向企業提供更加普惠的大模型能力,助力企業發展。未來,所有企業都可以借助“通義千問”的大模型能力,結合行業知識、應用場景等,訓練專屬大模型。在此基礎上,所有企業都可以擁有專屬的智能客服、智能語音助手、AI設計師等。1.2發展梳理:從PGC到UGC再到AIGC隨著互聯網的不斷發展,內容生產方式經歷了PGC(專業生產內容)、UGC(用戶生成內容)、AIGC(人工智能生成內容)3個階段。1.2.1PGC:企業和平臺是內容創作的主體在Web1.0時代,內容創作與發布的主體是專家。專家通過專業的方式將信息整合在一起,信息內容具備更高的質量和專業度,這種內容生產方式被稱為PGC。瀏覽器、搜索引擎和門戶網站是當時的主要產品。例如,亞馬遜的互聯網電影資料庫、雅虎的綜合指南網站等都是PGC的典型代表。雖然互聯網上的大多數內容都是由專家創作的,但PGC概念的真正普及是由內容平臺、知識付費企業和互聯網媒體機構共同推動的。PGC內容創作的主體是平臺和企業,它們能夠保障內容的專業性,具備較強的內容生產能力。它們一般以用戶需求為中心對內容進行加工,并借助高質量原創內容賺取內容創作收益,如版權作品、在線課程等。同時,它們所生產的高價值內容能夠收獲大批流量,并最終促成流量變現。現階段,PGC這一內容生產方式仍被廣泛應用。例如,騰訊視頻、優酷、愛奇藝等平臺的影視作品,虎嗅、36氪等平臺的新聞資訊,網易云課堂、得到等平臺的音視頻課程等,都屬于PGC內容生產的范疇。PGC具有針對性強、質量高、易變現等優勢,但也存在明顯的不足。例如,專業性內容對質量要求較高,導致內容創作周期較長,創作門檻較高;PGC內容的產量不足、多樣性欠缺,導致用戶的多樣化需求無法得到更好的滿足。PGC的諸多缺陷也催生了新的內容生產方式的誕生。1.2.2UGC:用戶成為內容創作主體隨著互聯網時代的發展,互聯網用戶逐漸增多,用戶對個性化、多樣化內容的需求越來越大。同時,很多用戶不再滿足于單向地接收內容,而是想參與到內容創作中。此時,眾多社交媒體的誕生逐漸滿足了用戶的這一需求。在Web2.0時代,用戶從內容的消費者轉變為內容的創作者,逐漸展現出自身的創造力。UGC這一內容生產方式迎來爆發式增長,逐漸成為內容生產新趨勢,內容創作主體也逐漸從企業和平臺轉變為用戶。專業性已經不再是內容創作的主要門檻,非專業人士也能夠創作出大眾喜聞樂見的內容,互聯網迎來了用戶創作內容的新時代。在微博、微信等社交平臺上,用戶能夠通過圖文形式記錄、分享自己的生活,同時也能夠了解他人的生活;在豆瓣、貼吧、知乎等論壇上,用戶可以自由探討感興趣的文章、書籍和影視作品;在快手、抖音等自媒體平臺上,用戶能夠通過短視頻創作的形式獲取關注和流量,還能夠實現流量變現。在各類平臺的角逐之下,內容生產方式逐漸從PGC向UGC轉變,用戶成為內容創作的主體。雖然UGC這一內容生產方式具有一定的優勢,但也存在一些問題。例如,用戶素質參差不齊,平臺需要耗費大量的成本和精力去訓練創作者,審核創作者發布的內容,把控創作者的內容版權。在UGC這一內容生產方式下,雖然內容供給問題得到了解決,但內容質量、內容版權和內容更新頻率等方面依然存在問題。相較于PGC的團隊協作,UGC的創作者更多的是“單打獨斗”。因此,內容的原創程度、內容質量、內容發布頻率難以得到更好的保障。在這種情形下,內容創作生態很容易遭到污染和破壞,內容生產效率也難以提升,這催生了Web3.0時代新型內容生產方式—AIGC的誕生。1.2.3AIGC:AI成為內容創作主體面對亟待解決的互聯網內容生產問題,利用AI生成內容的新型內容生產方式—AIGC誕生了。AIGC不僅能夠識別出各種語義信息,還能夠進一步提升內容生產力。在Web3.0時代,虛擬空間的發展需要高效的內容生產方式,而AIGC承載了人們對Web3.0時代內容生產方式的期待,滿足了人們對高效、高質量的內容生產的需求。讓AI學會創作絕非易事,科學家曾做過諸多嘗試。起初,科學家將這一領域稱為生成式AI,主要研究方向為智能文本創建、智能圖像創建、智能視頻創建等多模態。生成式AI通過小模型展開,這種小模型需要通過標準的數據訓練,才能夠應用于解決特定場景的任務。因此,生成式AI的通用性比較差,難以被遷移。同時,由于生成式AI需要依靠人工調整參數,因此很快被基于強算法、大數據的大模型取代。基于大模型的生成式AI不再需要人工調整參數,或者只需要少量調整,因此可以遷移到多種任務場景中。其中,GAN(GenerativeAdversarialNetworks,生成對抗網絡)是AIGC基于大模型生成內容的早期重要嘗試。GAN能夠利用判別器和生成器的對抗關系生成各種形態的內容,基于大模型的AIGC應用逐漸出現在市場中。直到新一代聊天機器人模型ChatGPT出現,AIGC才實現真正的商業化落地。AIGC本質上是一種生產力的變革,其對內容生產力的提升主要體現在以下3個方面。(1)AIGC減少了內容創作中的重復性工作,提升了內容的生產效率和質量。(2)AIGC將創作與創意相互分離,使創作者能夠在人工智能生成的內容中尋找思路和靈感。(3)AIGC綜合了大量訓練數據和模型,拓展了內容創新的邊界,幫助創作者生產出更加獨特的內容。AIGC有著不可逆轉的發展態勢,智能創作時代逐漸開啟。AIGC推動人類進入智能創作的新時代,其將成為智能化生產領域中的重量級新角色。1.3內容生成:AIGC涵蓋多樣的內容模態AIGC集成了AI領域的圖像處理、自然語言處理和聲音處理等多種技術,能夠在不同的內容模態下實現多種數據的協同生成和有效處理。AIGC通過整合不同模態的數據,能夠實現更加精準、全面的智能預測和決策,在諸多領域都具有較高的應用價值。1.3.1AI圖像:AI繪畫趨于普遍自2022年以來,AI繪畫成為藝術創作領域的發展趨勢之一。以Midjourney、DiscoDiffusion等為代表的AI繪畫軟件紛紛涌現,廣受用戶歡迎。在使用AI繪畫軟件作畫時,用戶無須手動繪畫,只需在軟件中選擇自己想要的視角和風格,并輸入關鍵詞,AI繪畫軟件便能夠按照用戶需求自動生成一幅高水準畫作。AI繪畫憑借高超的技術水準和創作能力,逐漸成為主流藝術創作形式。從生產力角度看,AI繪畫是圖像生產領域技術層面的飛躍,大幅提升了圖像的生產效率和質量。AI圖像是AIGC在圖像生成領域的重要應用。目前,AI圖像有兩種較為成熟的應用工具,分別是圖像編輯工具和圖像自主生成工具。其中,圖像編輯工具的主要功能有增設濾鏡、提高圖片分辨率、去除圖片水印等。圖像自主生成工具聚焦功能性圖像生成,常應用于海報、模特圖、品牌Logo等圖像制作方面。除上述兩種外,還有創意圖像生成工具,主要應用于隨機或者按照特定屬性生成畫作。如今,很多互聯網用戶都在自己的朋友圈和短視頻平臺分享各種形式的AI畫作。從運用方式角度看,AI繪畫可以分為3類,分別是借助已有圖像生成新圖像、借助文字描述生成新圖像和二者的結合版。AI繪圖是AI圖像生成技術的具象表現。從技術場景來看,AI圖像生成技術的應用場景可以分為圖像屬性編輯、圖像局部生成及更改、端到端的圖像生成3種,如表1-1所示。AI圖像生成技術不斷發展并實現商業化應用,市場十分廣闊。未來,AI圖像將為藝術創作提供更多可能性。表1-1AI圖像生成技術的應用場景1.3.2AI文本:方案、廣告、小說皆可智能生成隨著人工智能技術的快速發展,AI文本生成技術日趨成熟,并逐漸落地應用。AI文本生成的方式主要有兩類,分別是交互式文本生成和非交互式文本生成。交互式文本生成多應用于心理咨詢、文本交互游戲、虛擬交友等領域;非交互式文本生成多應用于輔助性寫作、結構化寫作和非結構化寫作等領域。其中,輔助性寫作主要包括關聯內容推薦和內容潤色等功能。從嚴格意義上說,輔助性寫作不屬于AIGC的范疇。結構化寫作常見于新聞資訊和文章標題撰寫等領域,非結構性寫作常見于營銷文本和劇情續寫等領域。結構化寫作在早期便得到了應用。例如,四川省綿陽市發生4.3級地震,中國地震臺網利用地震信息播報AI機器人在6秒內便撰寫出一篇500字左右的新聞報道;四川省阿壩州九寨溝縣發生了7級地震,該AI機器人不僅在新聞報道中寫出了震源地地貌特征、天氣情況、人口密度等內容,還自動為新聞報道配置了5張地震現場圖片,整個撰寫過程僅僅花費了二十幾秒的時間;在地震后續的新聞跟進中,該AI機器人撰寫并發布余震資訊僅僅花費了5秒左右的時間。AI結構化寫作通常具有較強的規律性,能夠根據高度結構化的數據生成文章。同時,AI結構化寫作的行文相對客觀、嚴謹,在地震信息播報、股市資訊報道、體育資訊報道和公司年報呈現等方面具有一定的優勢。很多媒體機構都有具有結構化寫作能力的AI小編,如第一財經的“DT稿王”、新華社的“快筆小新”、騰訊財經的“Dreamwriter”、今日頭條的“Xiaomingbot”、封面新聞的“小封”和南方都市報的“小南”等。非結構化寫作難度相對較高,需要更加獨特的創意,常見于詩歌、小說撰寫。即便如此,AI同樣展現出驚人的非結構化寫作能力。例如,微軟推出的AI機器人“小冰”曾編寫并出版詩集《陽光失了玻璃窗》,詩歌整體上富有邏輯、情感和韻律,同時帶有朦朧的意象和美感。AI在交互式文本中的應用具備十分突出的優勢。例如,游戲開發者尼克·沃爾頓推出的一款名為《AI地下城2》的游戲就是一款利用AI文本生成打造的文字冒險游戲。在游戲中,用戶可以通過AI生成設定角色,以祈使句輸入行動,游戲AI能夠根據用戶輸入的行動生成對應的故事。AI生成文本代替了大量文字創作領域的重復性勞動,幫助人類更好地與AI互動。未來,AI很可能成為文本內容創作的主體,幫助人們在創作方面節省大量的時間和精力。1.3.3AI音樂:谷歌AI模型MusicLM實現音樂即興創作2023年1月27日,谷歌發布AI內容生成領域的新模型—MusicLM。這是繼視頻生成工具ImagenVideo、文本生成模型Wordcraft之后,谷歌再次推出的內容生成式AI模型,該模型瞄準了音樂創作領域。其實,普通用戶想通過AI模型創作音樂并不是一件容易的事情。AI音樂是在很多信號的相互作用之下形成的,包括音色、音調、音律、音量等,這是一個充滿復雜性的綜合系統。因此,早期的一些AI自動生成工具所創作的音樂往往具備明顯的合成痕跡,聽起來很不自然。此前,可視化AI工具DanceDiffusion、Riffusion能自主創作音樂,OpenAI也曾推出AI音樂生成工具Jukebox。但是這些AI音樂生成工具受限于數據和技術等因素,只能創作簡單的音樂,而對于相對復雜的音樂,它們無法保障音樂的質量和高保真度。AI模型要實現真正意義上的音樂自動生成,需要通過大量數據模擬和訓練,這是AI自動生成工具在保障音樂質量上必不可少的基礎性步驟。MusicLM能夠在更加復雜的場景中直接將圖像和文字進行合成,自動生成音樂,并且曲風多樣。MusicLM生成的音樂不僅可以滿足用戶的多樣化需求,而且能夠最大限度地保障音樂的高保真度。MusicLM還支持通過圖像生成音樂,世界名作《星空》《格爾尼卡》《吶喊》等都可以作為生成音樂的內容素材,這是AI音樂生成領域的一大突破。MusicLM不僅能夠幫助用戶識別樂器,還能夠融合各種音樂流派,通過用戶提供的抽象概念生成音樂。例如,用戶想為養成型游戲配置一段音樂,只需要輸入文字“養成型游戲的主配樂,動感且輕快”,MusicLM便可以按照要求自動生成音樂。MusicLM的訓練數據很龐大,為理解深度、復雜的音樂場景提供堅實基礎。MusicLM針對音樂生成任務具有缺乏評估數據等問題,專門引入了MusicCaps來為音樂生成任務提供更好的評估。1.3.4AI編程:智能系統重新定義編程AI編程一直是人們對于人工智能應用的一大期望。如今,人們的這一期望正在逐漸實現,AI編程開始走入人們的生活中。AI編程的主要優勢體現在以下三個方面,如圖1-2所示。圖1-2AI編程的主要優勢1錯誤自動查找AI編程能夠利用機器學習和深度學習自動檢測代碼中的錯誤,避免了人工檢測錯誤不精準的問題。AI編程通過給定一個代碼語料庫,自動生成訓練數據,再將這些訓練數據輸入代碼,以向量的形式表現出來,用戶能夠通過訓練好的文本分類器預測新代碼中可能存在的錯誤。2錯誤自動修復查找出代碼中的錯誤之后,如何修復錯誤是一個十分關鍵的問題。AI編程能夠建立編碼解碼器模型,輸入錯誤代碼后,解碼器中能夠生成一個修復后的代碼。對于原始數據集,AI編程可以修復一部分錯誤;對于合成數據集,AI編程可以修復大部分錯誤。3代碼搜索如果用戶想編寫特定的代碼,可以通過AI編程完成系統、標準的信息檢索。在代碼搜索中,AI編程能夠給定一組搜索結果。AI編程代碼搜索主要包含三個要素,分別是代碼描述、代碼片段和隨機錯誤描述。這三個要素能夠更好地捕捉語義的相似性。AI編程發展迅速,未來,AI編程有望替代人類大部分的編程工作,幫助人類解決眾多簡單或復雜的編程問題,推動AIGC不斷向前發展。1.4核心驅動力:AIGC賦能元宇宙隨著AIGC應用領域不斷拓展、應用價值不斷提升,其與元宇宙呈現出融合發展態勢,為元宇宙提供重要基礎設施,成為推動元宇宙發展的核心驅動力。AIGC技術逐漸趨于成熟,AIGC的應用優勢逐漸從降本增效向創造價值轉變。1.4.1AIGC是元宇宙實現的生產力工具AIGC是繼PGC、UGC之后的新型內容生產方式,也是元宇宙實現的重要生產力工具,其在元宇宙領域的主要應用有文字生成圖像、功能性圖像生成、創意圖像生成。AIGC與VR(虛擬現實)、NFT(非同質化通證)一同成為元宇宙的三大重要基礎設施。AIGC進一步深化了PGC、UGC等內容生產方式的優勢,技術進步和模型優化為AIGC的發展提供了核心動力,AIGC的核心技術逐漸從NLP(NaturalLanguageProcessing,自然語言處理)、GAN向Diffusion過渡。其中,GAN是相對傳統的圖像生成模型,廣泛應用于文字轉圖像、圖像修復等領域。然而GAN具有樣本重復、訓練不穩定等缺陷,促使Diffusion逐漸流行起來。相較于GAN模型,Diffusion生成的圖像質量和水平更高,其采用開源方式,成功掀起圖像生成領域AIGC的發展熱潮。雖然目前元宇宙的最終發展形態還不確定,但可以確定的是,元宇宙終將會大范圍拓展人類的生活空間。人類要想在元宇宙虛擬空間中創造更好的生活環境,就需要大量的數字內容做支撐。而這僅僅依靠人工力量是難以完成的,AIGC能夠為人類提供幫助。在元宇宙中,游戲成為主要的生活場景,能夠為用戶提供高度沉浸和擬真的體驗。游戲的開發周期長、成本高,人工開發一般需要耗費大量的時間和精力,而AIGC開發工具能夠大幅提升元宇宙游戲的開發效率。在AIGC的加持下,用戶可以自主打造元宇宙中的游戲場景和游戲內容。游戲中的主程序、人物、劇本、場景、道具、配音、特效和動作等都可以通過AIGC開發工具自動生成。就目前AIGC的發展形勢來看,在游戲開發設計方面,AIGC有望達到專業設計師和開發人員的水平。除游戲外,虛擬人也是元宇宙落地的一個重要領域。AIGC將廣泛應用于打造虛擬人,可以為虛擬人設計形象、性格、動作、聲音及活動場景,增強虛擬人在元宇宙中的功能性,使虛擬人在元宇宙中有更加生動的表現。1.4.2由降本增效轉向創造價值,AIGC價值凸顯近年來,隨著元宇宙概念的興起,AIGC成為新的元宇宙內容生成解決方案,同時也成為元宇宙的發展方向之一。AIGC價值不斷凸顯,其對元宇宙的賦能也將從降本增效逐步轉向創造價值。AIGC作為未來元宇宙發展的重要基礎技術之一,將在元宇宙中開拓出更廣泛的應用場景,創造更多更有趣的人與人、人與物之間的交互體驗。AIGC展現的應用場景令元宇宙用戶向往,無論是工業化應用領域,還是娛樂應用領域,AIGC的價值已經初步顯現。隨著AI技術的不斷發展,AIGC將推動元宇宙生態更加成熟。AIGC賦能元宇宙內容生產,給用戶提供了大量內容創作的靈感和思路,使內容創作更加輕松、簡單、便捷,用戶能夠更加積極、主動地參與元宇宙的內容創作,用戶對內容生產和創造的真實需求能夠得到最大限度的滿足。AIGC改變了內容創作形式,使內容價值進一步凸顯。隨著AIGC的不斷發展和升級,其將助力元宇宙創造出更多、更豐富的價值。第2章技術構成:AIGC實現的關鍵技術AIGC概念全面爆發,迎來了快速發展。AIGC生成的內容類型豐富、質量較高。AIGC的繁榮發展離不開關鍵技術的支持:自然語言處理賦予AI理解與生成能力,AIGC生成算法提升了AI創作能力,深度學習的不斷完善為AIGC提供更多算法模型,多模態交互技術實現全方位的人機交互。2.1自然語言處理:賦予AI理解與生成能力自然語言處理是一門借助構建算法使計算機能夠理解、生成和分析人類自然語言的技術。自然語言處理包括自然語言理解與自然語言生成兩部分,前者能夠使計算機理解自然語言,后者能夠使計算機生成自然語言。這兩種技術賦予了AI理解與生成能力。2.1.1核心能力一:自然語言理解自然語言理解(NaturalLanguageUnderstanding,NLU)是一種幫助計算機理解文本內容的技術,能夠賦予AI理解人類自然語言的能力,并完成語言理解領域的特定任務。NLU的應用范圍十分廣泛,如圖2-1所示。圖2-1NLU的應用范圍1篇章理解AI能夠借助NLU技術處理給定的文章,把握文章的主要內容并按照文章的主題進行分類。AI進行篇章理解大多基于有監督學習,即提供具有標注的訓練集和待測試的測試集。通過訓練,AI將具有準確提取信息、全面把握內容的能力,能夠被應用于測試集的分類任務中。2文本摘要文本摘要指的是為AI提供大量文本,AI借助NLU技術提取文本的中心思想和主要內容,并生成簡潔的摘要。文本摘要有兩種,分別是生成式和提取式。生成式是AI在原文本的基礎上,生成原文本沒有的詞句并組合成摘要;提取式是直接從文本中提取代表性詞匯,經過語句組合形成摘要。生成式比提取式更復雜,但更符合人類的語言習慣,人類在進行文本摘要時,也是先閱讀后理解,并用自己的語言進行融合、總結。3情感分析情感分析指的是AI借助NLU技術,根據語句中的情感詞匯判斷整個語句想要表達的情感傾向。例如,判斷網友的留言是否友好。AI可以借助情感詞典,對語句中出現的情感詞匯進行加權組合,得出整個語句的情感傾向;也可以利用有監督學習,借助標注數據訓練情感分類。4文本翻譯文本翻譯是NLU應用頻率最高的方向之一。每位用戶都或多或少地使用過語言翻譯器,將文本從一種語言翻譯成另一種語言。文本翻譯實質上是一種序列到序列的映射,通過人工標注數據集實現。目前,AI進行文本翻譯最大的挑戰是不能將源文本中的每個字翻譯成目標語言并拼接,而是需要結合語言的語法特點及具體的語用情境有針對性地進行調整。例如,禮來公司曾經依靠NLU技術在全球開展業務。禮來公司多年來一直依靠第三方機構翻譯各種內容,如公司內部的培訓資料、與其他公司技術交流的內容等。為了改變這種依賴第三方的現狀,禮來公司借助NLU技術和深度學習技術,開發了一套名為“LillyTranslate”的本土IT解決方案。LillyTranslate能夠為用戶提供多種辦公軟件的實時翻譯,并通過不斷學習提高了翻譯的準確性。LillyTranslate為禮來公司節約了資金,提高了效率。5問答系統傳統搜索引擎根據用戶的搜索關鍵詞,按照相關性從強到弱顯示搜索結果。這種顯示方式需要用戶依次瀏覽才能夠找到想要的內容。問答系統則是通過NLU系統為用戶提供最準確的答案,提高搜索準確性。語言是人類思維的載體,AI理解自然語言,實際上是學習自然語言背后所指代的真實世界,以及符號與符號之間隱藏的人類認知思維過程。NLU是一項關鍵技術,對于AI理解人類社會具有重要作用。2.1.2核心能力二:自然語言生成自然語言生成(NaturalLanguageGeneration,NLG)主要用于提高人類與計算機之間的溝通效率,將計算機生成的數據轉換為人類可以理解的語言形式。例如,用戶詢問智能音箱時間,智能音箱需要先利用NLU技術理解用戶的意思,再利用NLG技術進行回復。自然語言生成主要有文本到語言的生成(text-to-text)和數據到語言的生成(data-to-text)兩種方式。自然語言生成需要經過六個步驟:(1)內容確定。NLG需要對信息進行確認,確認部分信息是否應該包含在建構的文本中。內容確定時會篩選一部分信息,最終傳達的信息往往少于數據中包含的信息。(2)文本結構。NLG在確定內容后,會對文本順序進行合理的排序。例如,描述一場會議時,會首先說明會議的時間、地點與參加人員,其次表明會議的內容,最后描述會議的結果。(3)組合語句。NLG會對語句進行合并,使得語句更加簡潔、流暢。(4)注重語法。NLG會注重語法,且在各個語句之間添加關鍵詞,使其拼成一個完整的句子。(5)參考表達式生成。這一步驟與上一個步驟相似,但區別在于,這一步驟會識別文本內容所屬的領域,使用該領域的詞匯。(6)語言實現。在確定好所有的詞和短語后,將它們組合成完整的句子。自然語言生成的潛力巨大,可以運用到多個場景中。1相似問生成面對全新的業務場景,AI可能會缺少相關標注數據,這時可以使用自然語言生成技術擴充標注數據。相似問生成完全適配這個場景,其任務是輸入一個問句,利用模型生成許多意思相近的問句。AI模型一般會利用文本生成與相似度匹配同時進行訓練。例如,輸入文字“QQ音樂與網易云音樂哪個更好用?”,下面會生成許多相似的問句,按照關聯度從大到小進行排列。關聯度最大的句子較為完整地表述了原句的意思,關聯度最小的句子則背離了原句的意思。在實際操作中,關聯度的閾值可以靈活調整。2可控文本生成可控文本生成指的是在生成的文本中添加一些控制因素,使文本符合一定的要求,如生成文本的感情控制、風格切換等。例如,對生成的文本進行風格控制,可以輸入彩妝廣告標題,將其對應的廣告分類作為控制條件。借助這個功能,可以生成符合指定語境的標題。NLG技術的不斷成熟,為自然語言處理技術的發展帶來更多的可能性。同時,自然語言處理技術將賦能AIGC,創作出更多優秀的作品。2.2AIGC生成算法:提升AI創作能力隨著AI技術的發展,生成式AI隨之出現。生成式AI能夠提升AI創作能力,大幅推動數字化內容生產與創造,助力AI創作進入爆發期。2.2.1生成式AIVS分析式AIAI模型主要有兩種:一種是生成式AI,另一種是分析式AI。生成式AI指的是借助機器學習對已有數據進行學習,進而創造出全新的、原創的內容。分析式AI能夠對大量數據進行分析,在此基礎上進行判斷、預測,更有利于用戶做出決策。生成式AI與分析式AI各有利弊,應用的領域也各不相同。1生成式AI生成式AI的應用范圍廣,既能夠在內容領域滿足用戶日益增長的創作需求,又能夠在垂直領域大幅提高生產力,創造巨大的市場價值。(1)生成式AI應用于娛樂媒體領域。生成式AI具有文本糾錯、文本轉語音、語音轉文本、智能編輯圖像、智能編輯視頻等功能,不僅能夠取代機械性勞動,而且能夠通過不斷學習,為用戶提供新奇創意。隨著AI算力、數據的進一步提高,生成式AI可能會達到專業水平或者擁有獨特的創意,從而替代一部分內容創作者。例如,2022年8月,在一場數字藝術家比賽中,一名參賽者憑借一幅AIGC繪畫作品《太空歌劇院》(如圖2-2所示)獲得了第一名,這表明生成式AI在繪畫領域的水平有超越人類的趨勢。圖2-2AIGC繪畫作品《太空歌劇院》(2)生成式AI應用于多個垂直領域。例如,生成式AI能夠進行代碼生成,將自然語言快速翻譯成代碼,推動了計算機編程的智能化,提高了程序員的工作效率;ChatGPT是一個聊天機器人模型,不僅能夠將自然語言轉化為代碼,還能夠對代碼進行挑錯并提出修改意見。相較于傳統搜索引擎,ChatGPT給用戶帶來了更好的體驗。但是,生成式AI也存在一些隱患,例如,生成式AI容易陷入抄襲風波。當用戶利用ChatGPT生成內容時,所生成的內容只是基于曾經訓練過的模型,從各類數據中復制粘貼合成的,在人類社會中這種行為會被定義為“抄襲”。生成式AI生成的內容由大量文本拼接而成,很難對其進行溯源。而且盡管生成式AI生成的內容十分強大,但缺乏獨特性,不能在創新性方面有所突破。2分析式AI隨著AI技術大爆發,分析式AI得到了發展,其主要被應用于推薦系統、圖像識別等領域。分析式AI在電商領域的顯著應用之一是推薦系統。推薦系統能夠深度挖掘用戶與產品之間的關系,將用戶感興趣的產品精準地推送給用戶,提升產品購買率;推薦系統能夠借助算法,實現商品與用戶需求的精準匹配,節省用戶的檢索用時;推薦系統能夠提升電商平臺的銷售額。分析式AI能夠利用推薦系統幫助音頻、視頻等娛樂領域快速發展。分析式AI能夠對用戶的視頻數據進行分析,并通過分析結果將用戶可能感興趣的內容推送給他們,顯著提高了用戶的觀看率,增加了用戶黏性。分析式AI能夠利用圖像識別技術促進自動駕駛領域的發展。自動駕駛汽車可以根據分析式AI提供的分析結果判斷路況,對路上的障礙物進行識別,減少了安全事故的發生。分析式AI也存在弊端,即無法對數據進行精確判斷,無法在需要精確判斷的場景中使用。因此,分析式AI在與安全有關的領域具有一定的局限性。同時,分析式AI難以在未知領域應用,因為其太過于依賴大量數據的輸入與算法優化。分析式AI更傾向于利用給定的模型不斷地試錯并做出判斷,試錯越多,判斷越準確。在判斷后,分析式AI會給出數據反饋,并對參數進行調整,使下一次判斷更準確。生成式AI傾向于在已有的知識上進行模仿與生成,二者的使用領域不同,工作原理也不大相同。2.2.2AI算法成熟,創作能力爆發目前,ChatGPT獲得了廣大用戶的歡迎。ChatGPT能夠與用戶以對話的方式進行交互,進行高質量的回復,給用戶帶來新鮮感。ChatGPT的發展吸引了眾多用戶的目光,也標志著AI算法趨于成熟,創作能力即將實現爆發。在AI的助力下,多樣化的產品爭相出現。生成式AI在2021年、2022年連續兩年入選Gartner發布的HypeCycleforArtificialIntelligence(《人工智能技術成熟度曲線報告》),被認為是AI在未來重要的發展趨勢之一。除ChatGPT外,AI模型—MusicLM也大放異彩,可以根據輸入的文本、圖像生成音樂,而且曲風多樣。這些AI模型的出現意味著AI的觸角已經深入藝術創作領域。2022年,擴散模型Diffusion引發了人們的討論熱潮,越來越多的人開始選擇研究Diffusion。Diffusion作為一個高性能深度學習模型,能夠根據輸入的文字輸出精美圖片,提高AI圖像的生成效率與精度。用戶只需要在其基礎終端設備內輸入關鍵詞,便可以獲得高質量的AI圖像。生成式AI的火熱促使許多企業不斷研發相關產品。例如,用戶在百度研發的產品“文心ERNIE3.0”中輸入一個題目,就可以獲取體裁、風格不同的內容;華為云推出了可用于虛擬直播、虛擬視頻內容制作的數字內容生產線—MetaStudio;Midjourney作為一個圖片生成應用,在Discord中擁有百萬粉絲;ChatGPT僅上線一周,粉絲數量便直逼百萬。例如,在論壇上,一個名為“Reddit”的用戶發布了一段自己與ChatGPT的對話。在對話中,Reddit詢問ChatGPT“如何用JavaScript方法在調制控制臺中打印一只狗?”ChatGPT立即做出了回應,并利用代碼在屏幕中拼湊出狗的形狀。看似簡單的一段對話,卻顯示出了ChatGPT的強大能力,用戶只需要輸入一段文字便可以解決難題。由于ChatGPT的能力過于強大,因此越來越多的用戶認為其在將來有可能完全取代搜索引擎,甚至取代學校中的助教。雖然生成式AI的未來發展前景廣闊,但是其在目前發展階段還存在一些問題,例如,生成式AI在生成文本方面缺乏可控性與穩定性,具體表現為:AI在回復論文方面的問題時,可能會使用一些不恰當的例子;AI在寫代碼時,可能會生成一些錯誤代碼。在圖片生成方面,生成式AI面臨著AI創作的畫作質量不高、設計侵權等問題。AI創作畫作時,會根據用戶給出的關鍵詞借鑒其他畫作,因此生成的畫作可能與其借鑒的畫作相似性高,由此引發許多爭議。為了表達對AI創作侵權的不滿,一些藝術作品展示平臺積極呼吁“NOTOAIGENERATEDIMAGES”(拒絕AI繪畫),并且有的平臺還添加了過濾功能,用來屏蔽AI作品。生成式AI的創作數據在AI技術與深度學習的助力下不斷發展,甚至有些內容的創作水平極高。但是,除侵權問題外,“換臉”“變聲”等AI生成內容可能會加速虛假信息的傳播,增加了監管隱患。雖然目前生成式AI發展迅速,但是在減少模型訓練成本、打造差異化優勢、改變用戶獲取策略等方面仍需不斷努力,以逐步構建起可持續發展的AI商業模式,幫助用戶快速、高效、低成本地創作。2.3預訓練大模型崛起,賦能深度學習當今時代是數字化時代,得益于數據挖掘、數據分析、大數據等技術的飛速發展,預訓練大模型也實現了崛起。預訓練大模型是深度學習的一次重要變革,能夠降低AI開發與落地的門檻。預訓練大模型作為一種“大算力+強算法”的產物,能夠賦能深度學習,促進AI發展。2.3.1預訓練大模型發展,破解深度學習難題隨著數據越來越多,算法越來越強大,算力也越來越強大。在這種背景下,預訓練大模型得到了重視。想要實現AI的發展,就需要運用大量的數據進行訓練,訓練質量的高低取決于數據的數量與質量。預訓練大模型是預先訓練好的模型,通過對大量數據的挖掘與學習,進入可大規模量產的落地階段,幫助用戶降低創建模型和訓練的成本。預訓練大模型是多種技術的結合,既需要深度學習算法的支撐,也需要大量數據、超高算力與自監督學習能力,還需要在多種任務、多種場景內進行遷移學習,確保模型能夠應用于多個場景,賦能各行各業。深度學習彌補了傳統機器學習的不足,是從數據中進行學習,而預訓練大模型則是借助大量模型訓練數據。深度學習的優勢是可以對各種類型的數據進行處理,如圖片、文本等很難通過機器處理的數據。而預訓練大模型的優勢不僅體現在處理數據的類型更加廣泛上,還體現在處理數據的級別更高上。此外,深度學習不需要借助大量的數據模型來挖掘數據特征之間的關聯,但是預訓練大模型需要,這表明其需要更強的算力支撐。預訓練大模型在訓練過程中會運用大量數據,深度學習過程中也需要大量數據,預訓練大模型能夠為深度學習賦能,并推動AI不斷發展。1預訓練大模型能夠推進AI產業化發展,實現AI轉型雖然AI發展得如火如荼,但其仍處在商業落地的初級階段,面臨著一系列問題,如碎片化的場景需求、人力成本過高、缺乏場景數據等。而預訓練大模型能夠有效解決模型通用性、研發成本等方面的問題,加快AI落地。AI模型在使用深度學習技術時,僅對特定的應用場景進行訓練,采取傳統定制化的開發方式,然而傳統AI模型的流程較長,涵蓋了從研發到應用的整條路徑。完成這一整套流程對研發人員的要求很高,研發人員不僅需要扎實的專業知識,而且需要齊心協力、通力合作,這樣才能完成瑣碎、復雜的工作。預訓練大模型的訓練原理是借助龐大、多樣的場景數據,訓練出適合不同場景、不同業務的通用能力,使預訓練大模型能夠適配全新業務場景。預訓練大模型的通用能力解決了AI多樣化的需求,降低了AI應用落地的門檻。2預訓練大模型借助自監督學習功能降低AI開發成本傳統模型訓練過程需要研發人員參與調參調優工作,模型訓練還需要大規模標注數據,對數據要求很高。但是,許多行業面臨著原始數據收集困難、收集數據成本高的問題。例如,在醫療行業中,為了保護用戶的隱私,難以大規模獲取用戶數據進行AI模型訓練。預訓練大模型的自監督學習功能能夠很好地解決傳統模型訓練所面臨的問題。自監督學習功能無須或很少依靠人工對數據進行標注,能夠自動學習區分原始數據,并構建學習任務,解決了人工標注成本高的問題。與傳統AI模型開發模式相比,預訓練大模型更具有通用性,能夠實現多個場景的廣泛應用。自監督學習功能有效降低了研發成本,為AI產業化提供助力。預訓練大模型作為深度學習的一種模型,具有大量處理數據、提高模型準確性等優點。預訓練大模型還能夠為深度學習提供支持,提高深度學習的訓練效率。2.3.2破解通用性難題,應用全方位突破深度學習作為建構、訓練AI的基石,為AI的發展提供了核心技術,但是AI模型仍然面臨著很多挑戰,其中的重要挑戰之一是AI模型的通用性太差,即A模型只能用于A領域,而無法適配B領域。針對這一問題,預訓練大模型提供了解決方案。預訓練大模型能夠使AI模型具有泛化能力,從而具有通用性與實用性。傳統AI模型往往使用已知數據進行訓練,然而已知數據與實際數據可能存在一定的誤差,擬合程度不高。如果在測試環境中,還可以對AI模型進行調整,但在實際應用中,重新調整的經濟成本過高,也很難發揮更好的作用。碎片化、適配性差、成本高等問題,給AI規模化落地造成阻礙。預訓練大模型能夠解決這些問題,提高AI的開發效率。預訓練大模型可以通過大規模的數據訓練適應下游任務,即借助“大規模訓練+微調”的方式破解通用性難題,實現全方位突破。例如,2022年12月,百度與鵬城實驗室共同研發了知識增強千億大模型—鵬城-百度·文心。鵬城-百度·文心的通用性很強,能夠完美完成閱讀理解、文本生成、跨模態語義理解等60多項任務。同時,鵬城-百度·文心還具有泛化能力,能夠在30多項小樣本任務上刷新基準。鵬城-百度·文心以解決AI模型泛化能力弱、落地成本高為目的,賦能各行各業。目前,文心大模型已經對外開放,在工業、金融等多個領域得到應用。預訓練大模型的出現解決了AI模型通用性難題,未來,預訓練大模型將向著促進AI模型便捷化、高效化的方向發展。2.4多模態交互技術:實現全方位的人機交互多模態交互技術是一種感官融合技術,用戶可通過文字、語言、視覺、動作與計算機進行交互。借助多模態交互技術,AI能夠充分模擬人與人之間的交互,實現全方位的人機交互,為用戶提供更好的體驗。2.4.1多模態交互:文字+語音+視覺+動作近年來,多模態交互技術得到了廣泛的應用。多模態交互技術實現了文字、語音、視覺、動作4個方面的感官交互,使用戶與計算機的交互從單模態走向多模態,為AIGC智能創作賦能。在我們的日常生活中,最常見的兩種模態是文字與視覺。視覺模型可以為AI提供強大的環境感知能力,文字模型使AI具有認知能力。如果AIGC僅能生成單模態內容,會對AIGC應用場景的拓展、內容生產方式的革新造成阻礙。由此,多模態營運而生。多模態能夠處理多種數據,為人機交互提供動力。多模態大模型擁有兩種能力:一種是尋找不同模態數據之間的內在關系。例如,將一段文字與圖片聯系起來;另一種是實現數據在不同模態之間的相互轉換。例如,根據動作生成對應的圖片。多模態大模型的工作原理是將不同模態的數據放到相似或相同的語義空間中,通過不同模態之間的理解尋找不同模態數據的對應關系。例如,在網頁中搜索圖片,需要輸入與之相關的文字。多模態交互也在人機交互中實現了廣泛應用。AI的發展使服務機器人逐步走近用戶,在商場、餐廳、酒店等場景中,能看到服務機器人忙碌的身影。但是,大多數服務機器人都不夠智能,僅能如同平板電腦一般在用戶發出需求后響應,無法主動為用戶提供服務。在推動服務機器人智能化、人性化的需求下,百度率先對小度機器人進行了技術革新。百度借助多模態交互技術,使小度機器人能夠快速理解當前場景,理解用戶的意圖,主動和用戶互動。雖然讓機器人擁有主動互動能力并不是一項全新的技術創舉,但相較于以往的互動模式,機器人的互動能力有了很大提升。百度自主研制了人機主動交互系統,設計了上千個模態動作,在觀察服務場景后,小度機器人能夠提供主動迎賓、引領講解、問答咨詢、互動娛樂等服務,推動了機器人行業和AI行業的發展。多模態大模型能夠幫助AI進行多種交互,是AI邁向通用人工智能的重要步驟。未來,AI將借助多模態大模型,擁有更多認知,幫助人類解決更多難題。2.4.2多模態人機交互讓虛擬數字人更加鮮活手機廠商紛紛推出虛擬數字人智能助手,京東、阿里巴巴等互聯網企業推出自己的數字人,美妝品牌紛紛邀請虛擬數字人代言……各行各業中的企業布局動作不斷,虛擬數字人成為熱門應用,逐步走進人們的生活。虛擬數字人的火爆并不是偶然,而是用戶對于人機交互的深層次需求的體現。用戶不再滿足于單模態的單向輸出,而是渴望多模態的聽覺、視覺、動作和語言的融合。多模態人機交互技術的出現,能滿足用戶的需求,使虛擬數字人更加鮮活。例如,百度推出了可交互數字人—度曉曉。度曉曉具有豐富多彩的聊天功能:基于“人設”與用戶互動,充分體現自己的個性;支持表情包、語音、視頻等多種聊天形式;擁有講故事、唱歌等多種玩法。度曉曉如同活在電子世界的真人,為用戶帶來真實的交互體驗。而這一切都離不開百度的技術支持。度曉曉運用多模態交互技術,能夠在學習大量數據后,實現對語言、圖片和視頻的理解,不僅能夠與用戶產開交流,還能夠在長久的互動中實現成長。目前,多模態交互技術已經在多個領域實現落地。未來,這一技術會進入多場景應用新階段,賦能各行各業,催生更加鮮活的虛擬數字人。第3章產業生態:產業生態已現雛形自2022年以來,從頻頻出圈的AI繪畫到火爆社交網絡的聊天機器人ChatGPT,AIGC相關應用引發熱議。其強大的內容生產力讓很多企業看到了發展機遇,企業紛紛加快布局。在越來越多的企業紛紛擁抱AIGC的態勢下,AIGC產業生態已現雛形。3.1產業生態拆解:上中下游產業鏈逐步搭建AIGC產業生態呈現3層架構:產業上游為AIGC提供技術基礎,搭建基礎設施;產業中游提供各種算法模型,為AIGC的應用提供工具;產業下游是AIGC的多領域應用,聚集著諸多嘗試將AIGC落地的企業。3.1.1產業上游:提供核心數據服務在AIGC產業發展的過程中,人工智能的分析、決策、創作等功能的實現都離不開海量數據的支持。而AIGC產業的上游供應商,主要提供的就是各種各樣的數據服務。整體而言,AIGC產業上游生態如表3-1所示。表3-1AIGC產業上游生態AIGC產業上游提供的數據服務包括數據處理、數據標注、數據治理等。1數據處理一般而言,數據庫有兩類:一類數據庫匯集各類數據但不做區分;另一類數據庫會分門別類地存儲數據。隨著技術的發展,供應商往往會將兩種數據庫進行結合,以打造完善的數據庫,使數據庫同時具有易用性和規范性的特點,為用戶提供多元化的服務。從數據處理時效性的角度看,提供數據處理服務的供應商包括異步處理型企業和實時處理型企業兩類。數據處理包括數據提取、數據加載、數據轉換、數據集成等。根據處理方式的不同,提供數據處理服務的供應商又分為本地部署型企業和云原生型企業兩種。2數據標注無論哪種機器學習模型,都需要對數據進行標注、管理、訓練,從而形成算法模型。當前市場上,谷歌推出AI系統LaMDA,與一家美國數據標注服務商合作;Meta推出對話機器人BlenderBot3,與數據標注平臺亞馬遜MTurk合作。不難看出,很多大模型的背后都有數據標注平臺的支撐。在技術、需求的驅動下,數據標注公司借助AI輔助標注、模擬仿真等技術不斷提高數據標注的質量和效率,為用戶提供更優質的服務。3數據治理在AIGC蓬勃發展的數字經濟時代,數據是重要的生產資料。因此,數據資產管理需要有明確的規范,數據訪問、數據調取等要做到合規。數據合規服務供應商可以為企業提供多樣的數據治理工具和定制化的數據治理方案,為企業的AIGC探索提供數據支撐。3.1.2產業中游:搭建算法模型AIGC產業中游提供各種算法模型,這是AIGC最終落地應用的關鍵環節。從整體來看,AIGC產業中游生態如表3-2所示。表3-2AIGC產業中游生態AIGC產業中游主要包括3類參與者。1AI實驗室算法模型是AI系統實現智能決策的關鍵,也是AI系統完成任務的基礎。為了更好地研究算法、推動AIGC商業化落地,很多企業打造了專業的AI實驗室。例如,谷歌收購了AI實驗室DeepMind,將機器學習、系統神經科學等先進技術結合起來,構建強大的算法模型。除附屬于企業的AI實驗室外,還有獨立的AI實驗室。當下獲得諸多關注的OpenAI就是一個獨立的AI實驗室,致力于AI技術的開發。OpenAI推出的大型語言模型經過了海量數據訓練,可以準確地生成文本,完成各種任務。2企業研究院一些實力強勁的大型企業往往會設立專注于前沿科技研發的研究院,以加強頂層設計,構建企業創新的主體,推動企業進行新一輪變革。例如,阿里巴巴達摩院就是一家典型的企業研究院,旗下的M6團隊專注于認知智能方向的研究,發布了大規模圖神經網絡平臺AIiGraph、AI預訓練模型M6等。其中,AI預訓練模型M6功能強大,可以完成設計、對答、寫作等任務,在電商、工業制造、藝術創作等領域都有所應用。3開源社區開源社區對AIGC的發展十分重要。它提供了一個代碼共創的平臺,支持多人協作,可以推動AIGC技術的進步。例如,GitHub就是一個知名的開源社區,它可以通過不同編程語言托管用戶的源代碼項目。其功能主要包括以下4個方面。(1)實現代碼項目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論