區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具_第1頁
區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具_第2頁
區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具_第3頁
區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具_第4頁
區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時代的生產(chǎn)力工具1.2022:AIGC崛起之年近期,硅谷的眾多一線VC們開始將目光瞄準AI初創(chuàng)公司,尤其是生成式AI藝術(shù)這一領(lǐng)域。今年9月23日,紅杉美國官網(wǎng)發(fā)表了一篇名為《生成式AI:一個創(chuàng)造性的新世界》的文章,認為AIGC(AI-GeneratedContent人工智能生成內(nèi)容)會代表新一輪范式轉(zhuǎn)移的開始。2022年10月,英國開源人工智能公司StabilityAI宣布獲得1.01億美元融資,估值高達10億美元,躋身獨角獸行列,由Coatue、LightspeedVenturePartners和O'ShaughnessyVenturesLLC參與投資。StabilityAI今年發(fā)布了StableDiffusion的模型,主要用于根據(jù)用戶輸入的文字描述自動生成圖像。StableDiffusion的誕生讓AI繪畫這個領(lǐng)域愈發(fā)火爆。最近,巴比特正式對外宣布,全面擁抱AIGC,開始規(guī)模化采用AI配圖,其中頭條圖片,全面由AI創(chuàng)作。包括但不限于巴比特網(wǎng)站和APP,微信公眾號、百家號、網(wǎng)易號等自媒體平臺,以及微博等社交媒體賬號。除了繪畫以外,文字、音頻、視頻均可通過AI來生成。文字:以Jasper為例,以AI文字生成為主打產(chǎn)品,通過其文字生成功能,用戶可以生成Instagram標題,編寫TikTok視頻腳本、廣告營銷文本、電子郵件內(nèi)容等工作。截止2021年,Japer已擁有超過70000位客戶,并創(chuàng)造了4000萬美元的收入。音頻:以Podcast.ai為例,作為一個由AI生成的博客,每周都會探討一個話題。在第一期節(jié)目中,其通過喬布斯的傳記和收集網(wǎng)絡上關(guān)于他的所有錄音,Play.ht的語言模型大量訓練,最終生成了一段假JoeRogan采訪喬布斯的播客內(nèi)容。視頻:目前的AI技術(shù)不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。經(jīng)過160小時,完成3萬多張獨立插畫,再進行手動微調(diào)。雖然目前還只是在原腳本和視頻的基礎(chǔ)上,通過AI逐幀完成圖片生成的,但看到了AIGC參與到視頻創(chuàng)作中的可能。而在諸多垂直類應用中,如體育、財經(jīng)等,已經(jīng)可以通過文字直接生成相應的短視頻,如果配上虛擬人則可以實現(xiàn)自動播報。相比于單一的虛擬人讀稿,基于AIGC生產(chǎn)的內(nèi)容在鏡頭轉(zhuǎn)換、表情動作結(jié)合方面更加逼真。隨著NLP(NaturalLanguageProcessing,自然語言處理)技術(shù)和擴散模型(DiffusionModel)的發(fā)展,AI創(chuàng)造生成內(nèi)容成為了可能。此前,內(nèi)容生成主要運用GAN(GenerativeAdversarialNetwork,生成對抗網(wǎng)絡)來實現(xiàn)的,GAN不同于擴散模型依賴于超大規(guī)模語言模型,因此難以實現(xiàn)通過文字的描述,自主理解內(nèi)容并創(chuàng)造出圖像、視頻等。近年來,隨著擴散模型的成熟,生成方式更接近于人腦的聯(lián)想,AIGC完成了內(nèi)容創(chuàng)造輔助工具到內(nèi)容創(chuàng)作主體的角色轉(zhuǎn)變。2.AIGC是什么?AIGC是通過人工智能技術(shù)自動生成內(nèi)容的生產(chǎn)方式。從Web1.0的單向信息傳遞的“只讀”模式到Web2.0的人與人通過網(wǎng)絡雙向溝通交流的“交互”模式,內(nèi)容的需求在不斷增加。為了滿足這一需求,同時也因為互聯(lián)網(wǎng)的發(fā)展,內(nèi)容的生成從單一的PGC演變到了現(xiàn)在的UGC并占據(jù)了主要市場。Youtube、Instagram、抖音、快手、B站上有大量的內(nèi)容來自于UGC創(chuàng)作者。當我們邁入Web3.0時代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡構(gòu)建,形成人與機器網(wǎng)絡的全面鏈接,內(nèi)容消費需求飛速增長,UGC\PGC這樣的內(nèi)容生成方式將難以匹配擴張的需求。我們認為,AIGC將是Web3時代全新的內(nèi)容生成工具,同樣,將對現(xiàn)有的短視頻、游戲及廣告行業(yè)帶來巨大的影響。AIGC的生成利用人工智能學習知識圖譜、自動生成,在內(nèi)容的創(chuàng)作為人類提供協(xié)助或是完全由AI產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。2.1AIGC發(fā)展簡史AIGC的發(fā)展可以大致分為以下三個階段:

早期萌芽階段:20世紀50年代—90年代中期,受限于科技水平,AIGC僅限于小范圍實驗;

沉積積累階段:20世紀90年代中期—21世紀10年代中期,AIGC從實驗向?qū)嵱棉D(zhuǎn)變,受限于算法,無法直接進行內(nèi)容生成

快速發(fā)展階段:21世紀10年代中期—現(xiàn)在,深度學習算法不斷迭代,AI生成內(nèi)容種類多樣豐富且效果逼真。近年來,AIGC的發(fā)展迅速,從原來作為邊緣側(cè)服務于企業(yè)、機構(gòu)的角色變?yōu)榱爽F(xiàn)在C端零基礎(chǔ)用戶都可以使用的創(chuàng)作工具。開發(fā)側(cè)重點上,AIGC也從原先用于翻譯、語音合成以及重復性工作轉(zhuǎn)變?yōu)榱烁⒅貞脤用妫脩裟軌虮憬莶僮鞯姆较颉?.2技術(shù)隨著NLP(NaturalLanguageProcessing,自然語言處理)技術(shù)和擴散模型(DiffusionModel)的發(fā)展,AI不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。自然語言處理技術(shù)NLP自然語言處理是實現(xiàn)人與計算機之間如何通過自然語言進行交互的手段。融合了語言學、計算機學、數(shù)學,使得計算機可以理解自然語言,提取信息并自動翻譯、分析和處理。在自然語言處理技術(shù)發(fā)展之前,人類只能通過一些固定模式的指令來與計算機進行溝通,這對于人工智能的發(fā)展是一個重大的突破。自然語言處理最早可以追溯到1950年,圖靈發(fā)表論文“計算機器與智能”,提出“圖靈測試”的概念作為判斷智能的條件。這一測試包含了自動語意翻譯和自然語言生成。自然語言處理技術(shù)可以分為兩個核心任務:自然語言理解NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去,計算機只能處理結(jié)構(gòu)化的數(shù)據(jù),NLU使得計算機能夠識別和提取語言中的意圖來實現(xiàn)對于自然語言的理解。由于自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以NLU至今還遠不如人類的表現(xiàn)。自然語言理解跟整個人工智能的發(fā)展歷史類似,一共經(jīng)歷了3次迭代:基于規(guī)則的方法、基于統(tǒng)計的方法和基于深度學習的方法。自然語言生成NLG:將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式,如文章、報告等。NLG的發(fā)展經(jīng)歷了三個階段,從早期的簡單的數(shù)據(jù)合并到模板驅(qū)動模式再到現(xiàn)在的高級NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,并將結(jié)果呈現(xiàn)在用戶可以輕松閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:

內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語法化、參考表達式生成和語言實現(xiàn)。NLP主要被應用在四個方面:

情感分析:互聯(lián)網(wǎng)上存在大量的信息,表達的內(nèi)容都是多種多樣的,但抒發(fā)的感情大致可以分為正面和負面的,可以被用來快速了解用戶的輿情情況。聊天機器人:近年來,智能家居的發(fā)展和普及使得聊天機器人的價值擴大。語音識別:微信中可以通過語音進行輸入或直接將語音轉(zhuǎn)化為文字,汽車導航可以直接說目的地,大大提升了便利性。機器翻譯:機器翻譯的準確率在近年大幅提高,youtube和netflix甚至可以做到視頻機器翻譯。商業(yè)上,NLP主要被應用在一下領(lǐng)域:

用于處理財務、醫(yī)療保健、零售、政府和其他部門手寫或機器建立檔案。文字處理工作,如:名稱實體辨識(NER)、分類、摘要和關(guān)聯(lián)擷取。這能將擷取、識別和分析文檔資訊的流程自動化。語意搜尋和資訊擷取和知識圖表建立。跨零售、財務、旅游和其他產(chǎn)業(yè)客戶的交互AI系統(tǒng)等。神經(jīng)網(wǎng)絡,尤其是循環(huán)神經(jīng)網(wǎng)絡(RNN)是當前NLP的主要方法的核心。其中,2017年由Google開發(fā)的Transformer模型現(xiàn)已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型。Transformer的并行化優(yōu)勢允許其在更大的數(shù)據(jù)集上進行訓練。這也促成了BERT、GPT等預訓練模型的發(fā)展。這些系統(tǒng)使用了維基百科、CommonCrawl等大型語料庫進行訓練,并可以針對特定任務進行微調(diào)。Transformer模型是一種采用自注意力機制的深度學習模型,這一機制可以按輸入數(shù)據(jù)各部分重要性的不同而分配不同的權(quán)重。除了NLP以外,也被用于計算機視覺領(lǐng)域。與循環(huán)神經(jīng)網(wǎng)絡(RNN)一樣,Transformer模型旨在處理自然語言等順序輸入數(shù)據(jù),可應用于翻譯、文本摘要等任務。而與RNN不同的是,Transformer模型能夠一次性處理所有輸入數(shù)據(jù)。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數(shù)據(jù)是自然語言,則Transformer不必像RNN一樣一次只處理一個單詞,這種架構(gòu)允許更多的并行計算,并以此減少訓練時間。AIGC生成模型近年來,AIGC的快速發(fā)展歸功于生成算法領(lǐng)域的技術(shù)積累,其中包含了:生成對抗網(wǎng)絡

(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(DiffusionModel)。可以看到,大模型、大數(shù)據(jù)、大算力是未來的發(fā)展趨勢。我們認為,算法模型的突破是近年來AIGC得以快速突破的催化劑,下面將展開介紹一下兩個非常常用的模型,分別是生成對抗網(wǎng)絡和擴散模型。生成對抗網(wǎng)絡GAN(GenerativeAdversarialNetworks)2014年,IanJ.Goodfellow提出了GAN,是一種深度神經(jīng)網(wǎng)絡架構(gòu),由一個生成網(wǎng)絡和一個判別網(wǎng)絡組成。生成網(wǎng)絡產(chǎn)生“假”數(shù)據(jù),并試圖欺騙判別網(wǎng)絡;判別網(wǎng)絡對生成數(shù)據(jù)進行真?zhèn)舞b別,試圖正確識別所有“假”數(shù)據(jù)。在訓練迭代的過程中,兩個網(wǎng)絡持續(xù)地進化和對抗,直到達到平衡狀態(tài),判別網(wǎng)絡無法再識別“假”數(shù)據(jù),訓練結(jié)束。GAN被廣泛應用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構(gòu)的人物、場景,模擬人臉老化,圖像風格變換,以及產(chǎn)生化學分子式等等。其優(yōu)點在于:

能更好建模數(shù)據(jù)分布。無需利用馬爾科夫鏈反復采樣,無需在學習過程中進行推斷,沒有復雜的變分下界,避開近似計算棘手的概率的難題缺點:

難訓練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實際訓練中很容易判別器收斂,生成器發(fā)散。兩者的訓練需要精心的設(shè)計。模式缺失(ModeCollapse)問題。GANs的學習過程可能出現(xiàn)模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續(xù)學習。擴散模型DiffusionModel擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia和Google設(shè)法訓練大模型之后,它們已經(jīng)引起了很多關(guān)注。基于擴散模型的示例架構(gòu)包括GLIDE,DALLE-2,Imagen和完全開源的穩(wěn)定擴散。擴散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。以DALL-E為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創(chuàng)造力。擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期AIGC擁有了開放性的創(chuàng)造力。本質(zhì)上,擴散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓練數(shù)據(jù),然后通過反轉(zhuǎn)這個噪聲過程來學習恢復數(shù)據(jù)。訓練后,我們可以通過簡單地將隨機采樣的噪聲傳遞給學習的去噪過程來生成數(shù)據(jù)。相比于其他模型,擴散模型的優(yōu)勢在于生成的圖像質(zhì)量更高,且無需通過對抗性訓練,這使得其訓練的效率有所提升。同時,擴散模型還具有可擴展性和并行性。高斯噪聲是一種概率密度函數(shù)符合正態(tài)分布的函數(shù),當AIGC運用擴散模型來生成內(nèi)容的時候,是通過在一副純白的畫布(隨機白噪聲)上逐步去噪來生成最終的目標畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態(tài)分布函數(shù)的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個逐步縮小范圍的過程。這與人類的思維模式很類似。簡言之,在AI訓練階段,我們將數(shù)據(jù)集中上億組圖文對進行訓練,提取特征值;生產(chǎn)過程中,通過添加文字描述,引入不同的特征值進行去噪,從而生產(chǎn)一副AI理解下的內(nèi)容作品。例如,在當我們在腦海中想象一個畫面的時候,比如:一只柯基通過一個小號玩火焰。我們的思維模式也是先有一只柯基,再去想象小號和火焰,最后將這些元素疊加在柯基身上。簡述完原理以后,我們可以通過目前非常先進的AI圖像生成應用DALL-E2來舉例闡述具體的工作過程:

將文本提示輸入到一個經(jīng)過訓練能夠?qū)⑻崾居成涞奖硎究臻g的文本編碼器中;

通過一個被稱為“先驗”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;

圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現(xiàn)。這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自于OpenAI的Clip模型,其通過4億組文字-圖片對進行訓練。當然,其中的模型訓練都是基于英文實現(xiàn),語言的區(qū)別又會給AIGC帶來另一重挑戰(zhàn)。除了上述提到的自然語言處理技術(shù)和AIGC生成算法模型以外,超級計算機和算力這些硬件作為基礎(chǔ)設(shè)施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現(xiàn)更準確的結(jié)果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達

A100構(gòu)建的計算集群完成,而國內(nèi)外的初創(chuàng)企業(yè)也會通過云實現(xiàn)。2.3當我們開始用AIGC——商業(yè)模式的探索AIGC已被廣泛應用在文字、圖像、音頻、游戲和代碼的生成當中,一些較早創(chuàng)立的企業(yè)已經(jīng)實現(xiàn)了較好的商業(yè)化。尤其在一些具備高重復性的任務、對于精度要求并不那么高的領(lǐng)域應用較為成熟。隨著AIGC技術(shù)的發(fā)展,其適用面將會逐漸擴大。這類AIGC服務的提供商大多數(shù)時候會以提供SaaS服務的形式變現(xiàn)。文字創(chuàng)作AIGC生成文字目前主要被應用于新聞的撰寫、給定格式的撰寫以及風格改寫。其中,有一家成立還不滿兩年的獨角獸企業(yè)Jasper在最新一輪的融資里獲得了1.25億美元資金,目前估值為15億美元。Jasper成立于2021年,是一個AI內(nèi)容平臺,允許個人和團隊利用AI來創(chuàng)作內(nèi)容,多用于商業(yè)。用戶可以在借助Jasper生成具有豐富關(guān)鍵詞、搜索引擎優(yōu)化的原創(chuàng)博客,可以通過文字描述讓Jasper幫助完成文章的創(chuàng)作、創(chuàng)建廣告話術(shù)。通過Jasper用戶可以尋找創(chuàng)作思路、高效完成文案、突破語言壁壘,而不會存在抄襲的嫌疑。目前,Jasper擁有7萬多名客戶,包括Airbnb、Ibm等企業(yè)。僅2021年一年便創(chuàng)造了4000萬美元的收入,今年預估收入為9000萬美元。用戶可以通過輸入一段對于目標文章的描述或者要求,系統(tǒng)會自動抓取數(shù)據(jù),根據(jù)我們描述的指令進行創(chuàng)作。作者本人進行如下實驗,輸入的描述為【寫一篇關(guān)于AIGC的文章,其中要包含AIGC的定義、發(fā)展史、應用、現(xiàn)階段發(fā)展情況和對于未來發(fā)展趨勢的看法,同時,要包含細節(jié)和舉例】。同時,在風格上我選擇了“專業(yè)性”。Jasper很快就生成了一篇AIGC撰寫的AIGC文章(如下圖所示),可以看到這篇文章語義通順,按照我們給出的描述逐段闡述,并且包含了一些舉例,這個生成效果無疑會大幅度提升人類的寫作效率。并且,在Jasper的網(wǎng)頁版APP上,還給出了數(shù)百種模板,可以根據(jù)需求更好的完成作品。圖像創(chuàng)作MidJourney降低了藝術(shù)繪畫創(chuàng)作的門檻,用戶只需要通過輸入文字描述,計算機將會自動生成一張作品。其背后的邏輯在于計算機通過NLP識別語意并翻譯成計算機語言,結(jié)合后臺的數(shù)據(jù)集(這些數(shù)據(jù)集主要通過自有素材或機器人爬取公開版權(quán)的內(nèi)容獲得),創(chuàng)作出一副全新的作品。這樣產(chǎn)生的作品原則上屬于AI創(chuàng)作,因此,在新聞媒體等平臺被廣泛使用,不僅減少了成本,同時避免了潛在的版權(quán)糾紛風險。除此以外,在抖音、微信等社交平臺上,已經(jīng)有一些數(shù)據(jù)集圖庫博主通過AIGC創(chuàng)造素材并結(jié)合自己的私域流量進行商業(yè)變現(xiàn)。近期,OpenAI已經(jīng)與全球最大的版權(quán)圖片供應商之一的Shutterstock達成深度合作,Shutterstock將開始出售利用OpenAI的DALL-E生成的圖片,并禁止銷售非DALL-E生成的圖片,完成深度獨家綁定。AIGC除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉(zhuǎn)換,這在寫專利時可以被用到。視頻創(chuàng)作除了繪畫以外,AIGC也能夠被運用在視頻創(chuàng)作中。Google推出了AI視頻生成模型Phenaki能夠根據(jù)文本內(nèi)容生成可變時長視頻的技術(shù),在公布的DEMO中,Phenaki基于幾百個單詞組成一段前后邏輯連貫的視頻只需兩分鐘。相比原有的Imagen基礎(chǔ)上衍生的ImagenVideo瞄準短視頻,Phenaki瞄準的是長視頻。AIGC視頻中的運用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內(nèi)容產(chǎn)出的效率和多樣性。音頻剪輯AIGC生成音頻早被應用于我們的日常生活當中。我們常用的手機導航,可以切換不同明星甚至于卡通人物的語音提示。這是通過提前請明星或卡通人物的配音朗讀完成一個語音庫,再通過反復的訓練學習使得可以用指定的聲音說出任何話。我們自己也可以通過高德地圖錄制自己的語音導航包。而更深層次的應用將會是虛擬人領(lǐng)域,AIGC不僅可以生成虛擬人的聲音,并可以創(chuàng)造出說的內(nèi)容。虛擬人在未來有望和我們一樣表達自己的想法,靈魂逐步顯現(xiàn)。游戲開發(fā)AIGC在游戲當中的應用可以分為兩方面,一方面是用于場景和故事的搭建。開放世界游戲越來越受歡迎,通過AIGC來創(chuàng)建場景和NPC都將會大幅度提升效率和降低成本。另一方面,玩家可以通過AIGC的平臺工具來創(chuàng)建自己的虛擬人,可以用于游戲中的打金等活動。有一家叫做Delysium的游戲已經(jīng)開始引入這一功能。或許在未來的開放世界游戲中,不同的玩家將對應不同的游戲劇情和副本,這無疑將是令人興奮的應用。代碼生成GitHubCopilot是一個GitHub和OpenAI合作產(chǎn)生的AI代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來自GitHub上公開可用存儲庫的數(shù)十億行代碼的訓練,支持大多數(shù)編程語言。3.AIGC的未來發(fā)展趨勢AIGC是PGC、UGC之后,全新的內(nèi)容生產(chǎn)方式。不僅能提升內(nèi)容生產(chǎn)的效率以滿足我們飛速增長的內(nèi)容需求,也能夠豐富內(nèi)容的多樣性。在2022年百度世界大會上,李彥宏提到了:“AIGC將走過三個發(fā)展階段:第一個階段是“助手階段”,AIGC用來輔助人類進行內(nèi)容生產(chǎn);第二個階段是“協(xié)作階段”,AIGC以虛實并存的虛擬人形態(tài)出現(xiàn),形成人機共生的局面;第三個階段是“原創(chuàng)階段”,AIGC將獨立完成內(nèi)容創(chuàng)作。未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”3.1面臨的挑戰(zhàn)技術(shù)上來看,雖然當前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問題使得無法滿足較高的質(zhì)量要求。我們可以發(fā)現(xiàn)在二次元或抽象的圖片生成中,AIGC的表現(xiàn)較好。但對于比較具體和細節(jié)的內(nèi)容,生成的效果不盡如人意。下圖是筆者通過AIGC生成的一副“美女與布偶貓”的圖片,從這一張圖片我們可以發(fā)現(xiàn)有兩個問題:

其中有兩幅圖片的貓咪眼睛很奇怪,在這些細節(jié)描繪上還無法和真人畫師媲美。輸入的關(guān)鍵詞是“美女”與“布偶貓”,但是生成的“美女”均長著一張貓臉,從這里反映出AIGC繪畫會出現(xiàn)一些空間位置以及數(shù)量上的偏差。產(chǎn)生的原因主要還是來源于語義理解和處理上的問題。與此同時,參考上文中的圖表23,我們可以發(fā)現(xiàn)不同的應用平臺,輸入幾乎一致信息點的文本,生成的圖片的質(zhì)量和內(nèi)容差距是巨大的。那么造成以上的這些問題和差距的原因在哪里呢?我們依舊可以從AIGC的工作原理上來分析:

自然語義的理解在處理一些空間關(guān)系上還存在一定的誤差,這也是為什么在空間位置、數(shù)量上存在不精確的問題。目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當前主流的、訓練完善的是來自與OpenAI的Clip模型,其函數(shù)是開源的,但訓練的數(shù)據(jù)集是封閉的。AIGC需要大量的良好畫質(zhì)的文本-圖片對才能訓練到Clip這樣的程度。從Clip本身公開的信息來看,它使用了超4億個文本-圖片對來完成訓練,這些都是基于英文的。那么存在以下幾個問題:1、億級別的高質(zhì)量的文本-圖片對在于其他的語言上獲得的難度大幅提高,這也是為什么目前大多除英語外的其他語言的AIGC都是需要在整個流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言習慣等潛在的因素,很難被精確翻譯,對于翻譯模型的挑戰(zhàn)很大。2、Clip的模式很難復刻,即使運用Clip開源的函數(shù),基于不同的數(shù)據(jù)庫訓練出的結(jié)果不同。據(jù)我們了解,海外有團隊運用了20億的文本-圖片對才接近復刻了Clip;

運用的AIGC生成算法不同也會導致產(chǎn)生的內(nèi)容的差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論