“你的AI侵犯了我的版權”:淺談AIGC背后的版權保護問題_第1頁
“你的AI侵犯了我的版權”:淺談AIGC背后的版權保護問題_第2頁
“你的AI侵犯了我的版權”:淺談AIGC背后的版權保護問題_第3頁
“你的AI侵犯了我的版權”:淺談AIGC背后的版權保護問題_第4頁
“你的AI侵犯了我的版權”:淺談AIGC背后的版權保護問題_第5頁
免費預覽已結束,剩余3頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ChatGPT的大火,帶來了AIGC技術及相關應用的“強勢出圈”。除了感慨AI超強的內容生成輸出能力之外,各界也開始思考AIGC可能產生的潛在風險。2023年1月23日,美國三名漫畫藝術家針對包括StabilityAI在內的三家AIGC商業應用公司,在加州北區法院發起集體訴訟,指控StabilityAI研發的StableDiffusion模型以及三名被告各自推出的、基于上述模型開發的付費AI圖像生成工具構成版權侵無獨有偶,2月15日《華爾街日報》記者弗朗西斯科·馬可尼(FrancescoMarconi)也公開指責,OpenAI公司未經授權大量使用路透社、紐約時報、衛報、BBC等國外主流媒體的文章訓練ChatGPT模型,但從AIGC技術開發與應用中的知識產權尤其是版權侵權問題之所以受到高度關注,其根源在于AIGC模型的形成和完善依賴于大量的數據訓練,而用于訓練的數據往往包含受版權法保護的內容。AIGC是如何利用版權作品進行數據訓練與輸出成果的?這一過程存在哪些版權侵權風險?應當如何有效應對AIGC版權利用帶來的侵權風險?本文以“StableDiffusion案”為引,結合AIGC內容生產模式的技術原理,對上述“StableDiffusion” AIGC模型版權侵權案作為全球首例知名的AIGC商業化應用領域,算法模型及訓練數據版權侵權案,“StableDiffusion案”自起訴書公布伊始便引起了各界關注與探討,其最終判決結果亦將對AIGC產業和技術發展產生舉足輕重的影響?;貧w到案件本身,我們發現:其一,從核心爭議來看,當前國內外對于AIGC獲取與利用版權作品進行算法訓練是否合法存在諸多爭議,尚無立法和司法層面的明確共識;其二,從涉案技術原理而言,StableDiffusion模型訓練過程中利用版權作品的方式、利用行為的版權定待分析明確。在本案中,原告圍繞StabilityAI公司未經權利人許可,獲取與利用其版權作品作為StableDiffusion的“訓練圖像”展開指控。原告將StableDiffusion模型定性為“一個復雜的拼貼工具”(acomplexcollagetool)——“將無數受版權保護的圖像存儲和合并為訓練圖像后……生成完全基于訓練圖像的‘新’圖像”。被告“從使用受版權保護的圖像中獲得商業利益和豐厚利潤”,而數百萬權利人則因生成的AIGC模型涉及 表面看,不同AIGC模型生成的內容形式各異,涵蓋文字、圖像、語音、視頻等。但各類AIGC模型利用現有作品進行模型訓練、生成最終結果的方式卻存在異曲同工之處:將數據庫中的作品數據進行一定程度的形式轉換后輸入AIGC模型,利用AIGC模型自主學習能力從中提取有價值的內容,再根據輸入的指令生成與之相匹配的學習結果加以輸出。以此次陷入糾紛的StableDiffusion模型為例,其以包含數以億計的圖像數據庫——LAION-5B[4]作為訓練數據來源,原告主張的被侵權作品亦包含于內。簡單來講,StableDiffusion模型對版權作品的利用存在于兩個階段。第一,AI模型訓練階段。StableDiffusion利用版權作品訓練內部組件“圖像編碼器”(U-Net模型),輔之以“Clip文本編碼器”(TextEncoder模型),最終做到只需輸入一段描述性文字,即可生成對應的圖像內容。第二,AI模型應用階段。StableDiffusion經過充分訓練后,可以依據用戶給出的文本輸出最終圖像。但這些生成的圖像內容,很大的概率包含并展現出作為訓練數據的版權作品的元素及特征。AIGC模型訓練階段存在哪些 在模型訓練階段,StableDiffusion會將版權作品和與之對應的文本數據轉換為同一個“圖像信息空間” (latentspace)的“潛在表現形式”(LatentRepresentations)。具言之,StableDiffusion模型以從數據庫中下載的作品作為輸入對象,對其添加噪點并進行編碼(壓縮),使作品進入“圖像信息空間”。進入這個空間的版權作品,會與被“Clip文本編碼器”編碼的描述性文本進行“交互”,得到兩者信息融合的簡單解釋,之所以StableDiffusion模型訓練涉及增加噪點和去噪點的過程,是因為:不同于人類作畫的起點是“從無到有”,即在白紙上開始增加線條顏色等,最終形成圖像;StableDiffusion模型作畫是“從有到無”,即從布滿雜亂噪點的底板(類似于九十年代電視的“雪花屏”),不斷去掉無關的噪點,直至保留最終目標圖像的過程。若將訓練前數據準備過程,也囊括至模型訓練階段。則StableDiffusion模型對版權作品的主要利用行為系“復制”與“改編”。相關行為主要體現于兩個步驟中。其一,是準備訓練數據過程中的復制。由于LAION-5B數據庫本身并不提供版權作品副本而僅提供版權作品在線URL列表的索引,因此在訓練StableDiffusion模型前,需要先將作為訓練數據的作品從相應網絡地址下載并存儲,以形成版權作品的副本。其二,是對作品進行編碼后,將其輸入至“圖像信息空間”的改編。較之于對作品的直接下載與存儲,過程對作品進行了噪聲添加與編碼(壓縮),未在“圖像信息空間”“無差還原”原始版權作品,但其仍保留了作品內容中最關鍵、本質的特征,應當認定為版權法意義上的改編。 AIGC存在哪些版權侵權風險?在內容輸出階段,通過StableDiffusion模型生成最終圖像,首先需要先通過“Clip文本編碼器”將用戶輸入的文本對應至“圖像信息空間”的“潛在表現形式”。其次,由經過噪聲輸出訓練的“U-Net模塊”,對該潛在表現形式中添加的噪聲進行預測。再次,對該文本的潛在表現形式減去“U-Net模塊”所預測的噪聲,根據用戶的設定進行若干次“去噪”,最終得到新的圖像內容。這一階段,對原版權作品的利用需結合最終生成內容判斷。若去噪與解碼后生成的內容,與原作品在表達上構成“實質性相似”,則落入“復制權”的規制范圍;若不構成“實質性相似”,而是在保留作品基礎表達的前提下形成了新的表達,則可能構成對原作品“改編權”的侵害。在將討論對象放寬至整體意義上的AIGC模型,谷歌公司的研究人員KevinP.Murphy指出:機器學習模型有時會重建輸入數據的特性,而不是反映這些數據的潛在趨勢。此類模型可以視為生成作品的概率模型,落入原作“復制品”或“衍生作品”的寬泛定義,存在侵犯“復制權”與“改編權”的風險。[6]此外,依據StableDiffusion官方網站的聲明,StableDiffusion生成的新內容會以“CC01.0通用協議”的方式呈現于互聯網環境中,“完全開源”。[7]從版權法來看,根據上述傳播生成內容的方式是交互式或非交互式,即是否能使公眾在自行選定的時間和地點獲取,還可能分別落入“信息網絡傳播權”與“廣播權”(網絡直播)的規制范疇。AIGC版權侵權是 有觀點認為,AIGC輸出內容侵犯版權是極小概率的事件,因為在數以億計的訓練數據前擔憂生成結果與某一張或某幾張作品相似,似乎過于“杞人憂天”。如英國薩塞克斯大學的AndrésGuadamuz教授便指出,“經過訓練的機器模型,最終通常會產生與原始圖像不同的新圖像”。[8]然而,在最新一項以StableDiffusion等AI擴散生成模型為研究對象的實驗中,馬里蘭大學和紐約大學的聯合研究團隊指出:利用StableDiffusion模型生成的內容與數據集作品相似度超過50%的可能性達到了1.88%,鑒于龐大的用戶使用量,令人無法忽略這其中侵權問題的存在。研究人員表示,由于該項實驗中對復制(版權作品)的檢索,僅涵蓋訓練數據集中的1200萬張圖像(占訓練數據集整體很小一部分),再加之有較大概率存在檢索方法無法識別的復制內容等因素,該實驗的結果實際上會低估了StableDiffusion的侵權復制量。[9]由此可見,AIGC模型作品侵權風險不能為各界所忽視。AIGC能否構成在美國,雖然在合理使用認定標準上相較于其他國家更為靈活,更傾向于鼓勵作品二次利用,但AIGC模型對于訓練數據中作品的使用也難謂完全合法?!癝tableDiffusion案”后,很多美國學者和律師認為,結合美國版權法上的“四要素分析法”[10],很難將AIGC對于作品的使用納入合理使用的范疇。一方面,StableDiffusion生成的絕大部分內容并未在原作品的基礎上增加新的表達形式,產生區別于原作品的新功能或價值,不符合“轉換性使用”的要求。另一方面,在版權作品授權許可市場已經十分成熟的背景下,AIGC生成的內容很大程度上擠壓與替代了被利用作品的原有市場。AIGC:“個人使[11]“個人使用”適用目的存在嚴格限制,而目前AIGC模型最終落腳于對不特定主體的商業性服務,難以與之契合;“適當引用”的適用前提“為介紹、評論說明某一作品”或“說明某一問題”,AIGC模型商業化領域的應用顯然難以歸于此類;“科學研究”對作品的利用限定在“學校課堂教學或者科學研究”,同時還強調僅能“少量復制”,AIGC模型大量復制與利用作品的現狀無法滿足該項要求。 國內學者曾形象地將AIGC模型與海量訓練數據的關系,比喻為“孩子”與“母乳”。[12]人工智能技術的發展與提升必須以體量龐大的數據供給為前提,而被提供的數據中不可避免地包括受版權保護的作品。若嚴格遵循現行《著作權法》,則人工智能合法獲取與利用作品的方式似乎僅剩傳統的“授權許可模式”。但對于AIGC內容生產而言,既有的授權許可模式又存在天然的適用困境。一方面,授權許可模式可能造成AIGC研發的“寒蟬效應”。在面臨版權作品高昂的授權許可費用時,AIGC研發主體往往面臨兩種選擇:一是,放棄AIGC領域,進而轉向其他行業;二是,堅守AIGC領域,但使用免費數據進行訓練。然而,前者無疑阻礙了人工智能技術和產業發展的趨勢,與科技進步規律相違背;后者則可能因訓練數據的不足,而引發算法模型偏見等不良后果。另一方面,授權許可模式在實操層面存在難以落地的問題。AIGC模型所需的訓練數據中包含的作品數量眾多、來源各異、權屬不同,若采用事先授權許可的方式則:首先,需要精準地將受保護的作品從海量數據中進行分離、提取;其次,再找到每一部版權作品對應的權利人與之協商授權,并支付價格不一的授權費用。上述過程漫長且復雜,很難落地執行。此外,AIGC數據訓練對作品數量的需求遠超出著作權集體管理組織所能調控與規制的范疇,集體管理組織制度同樣面臨適用的“失靈”。不可否認,當前通過StableDiffusion等AIGC模型生成的結果存在侵權風險,但可以預想隨著AI算法的不斷改進優化與訓練數據的倍數增長,單個版權作品在這一過程中的價值將被“沖淡”,生成結果的侵權概率也將隨之進一步降低。更加關注AI模型訓練 中的版權問題雖然國內目前尚未出現類似于“ChatGPT”和“StableDiffusion”般的現象級應用,但AIGC領域的侵權訴訟也已出現。關注度較高的兩個案件分別是2018年的“菲林訴百度案”和2019年的“騰訊訴盈訊案”。但上述案件涉及更多的是AIGC“小模型時代”,對于特定領域(法律、財經)內容的生成和輸出,模型訓練數據需求量仍較低。特定專業數據庫和公開信息即可滿足,不完全等同于當下AIGC“大模型時代”多類型、多領域海量數據的訓練要求?!胺屏衷V百度案”涉及,在享有合法授權的“科威先行數據庫”基礎上生成輸出的內容;“騰訊訴盈訊案”涉及,在“股市歷史和實時數據”這類不受版權法保護的事實信息的基礎上生成和輸出的內容。各界的關注點,也多停留在AIGC輸出內容“是否構成作品”以及“權利歸屬何方”。但隨著國內AIGC技術的應用與發展,AIGC模型訓練和構建中的版權保護也需要保持重視。國內重點科技企業和科研機構已經在AIGC領域完成技術、產業布局。在全球超千億參數的大模型中,中國企業或機構占1/3,比如過去幾年國內相繼推出了百度文心大模型、騰訊混元大模型等。而我國發展人工智能具有的海量數據、豐富場景和用戶基礎,正是未來AIGC“大模型時代”發展和競爭的有力優勢。AIGC內容生產模式 的版權治理探索思考(一):在規則層面,2018年日本《著作權法》修訂中增加了“靈活的權利限制條款”,為AIGC技術爬取與利用版權作品創造了條件。新條款規定,如果互聯網公司對作品的使用“不侵害著作權所有者利益”或者“對所有權的損害程度輕微”,則可不經權利人許可而直接使用。歐盟則于2019年正式通過《單一數字市場版權指令》,創設文本與數據挖掘(TDM)的例外,支持數據科學和人工智能的發展。但如果權利人以適當的方式明確保留對作品或其他客體的使用,則不適用該例外。日本與歐盟在這一領域的做法,為當前AIGC版權侵權治理提供了一個可供參考的路徑。整體來看,日本傾向于從結果出發具體認定AIGC技術利用版權作品是否合法,最終還是需要落腳到具體個案的分析;而歐盟則主張保障版權人事前選擇權利以避免侵權的發生,強調數據的開發利用不得侵害權利人的利益。思考(二):在實操層面,據報道,StabilityAI公司近期表示將修改《用戶協議》中“數據庫不得加入或退出”的規定,允許權利人從后續發布的StableDiffusion3.0的訓練數據集中刪除自己的作品。版權人可在“HaveIBeenTrained”網站上找到自己的作品,選擇退出數據訓練集。[13]具言之,在將版權作品納入AIGC模型訓練數據庫前,給予版權人一定的期限,自由選擇是否從訓練數據庫中將其版權作品刪除。若版權人在規定期限內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論