




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
浙江省普通本科高校“十四五”重點教材大語言模型通識什么是ChatGPTOpenAI是一家人工智能研究實驗室,進行AI研究的目的是促進和開發友好的AI。OpenAI系統運行在世界上第五強大的超級計算機上。馬斯克、微軟都是該組織的捐助者。2020年OpenAI發布GPT-3,這是一種在大型互聯網數據集上訓練的語言模型,旨在用自然語言回答問題,但它也可以在語言之間進行翻譯并連貫地生成即興文本。什么是ChatGPT2021年OpenAI推出DALL-E,這是一種深度學習模型,可以從自然語言描述中生成數字圖像。2022年12月,OpenAI推出基于GPT-3.5的新型AI聊天機器人ChatGPT,受到媒體的廣泛報道。在發布僅兩個月后就擁有1億用戶(成為史上用戶增長最快的應用)。2023年3月14日,OpenAI發布了GPT-4聊天機器人語言模型。相比GPT3.5,GPT4.0訪問更加穩定,數據更加準確,并且更加符合我們人類的思維方式。簡而言之,更智能!什么是MidjourneyMidjourney(簡稱MJ)是AI繪圖里實用性最強的軟件,其開發團隊是美國舊金山的小型自籌資金團隊,專注于設計、人類基礎設施和人工智能。MJ是一個致力于探索新的思維方式并擴展人類的想象力的人工智能繪圖平臺。它于2022年7月12日首次公測,并于2022年3月14日正式以架設在Discord上的服務器形式推出,用戶注冊Discord并加入MJ服務器即可開始AI創作。ChatGPT+Midjourney一雙丹鳳三角眼,兩彎柳葉吊梢眉,身量苗條,體格風騷,粉面含春威不露,丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯:王熙鳳ChatGPT+Midjourney一雙丹鳳三角眼,兩彎柳葉吊梢眉,身量苗條,體格風騷,粉面含春威不露,丹唇未啟笑先聞。ApairofDanfengtriangleeyes,Twocurvedwillowleaveshangingeyebrows,Slimandcoquettish,Powdernoodlescontainspringpower,Dandidn'tsmileandsmellfirst.谷歌翻譯:王熙鳳大語言模型通識周蘇教授QQ:81505050第1章概述人類,又稱智人,即有智慧的人,這是因為智能對于人類來說尤其重要。幾千年來,人們一直在試圖理解人類是如何思考和行動的,也就是不斷地了解人類的大腦是如何憑借它那小部分的物質去感知、理解、預測并操縱一個遠比其自身更大更復雜的世界。第1章概論“數據成為新生產要素,算力成為新基礎能源,人工智能成為新生產工具?!?023年被稱為生成式人工智能(GenerativeAI)元年,以ChatGPT為代表的生成式人工智能技術的涌現獲得了前所未有的關注。大型科技公司、各類創業公司迅速入場,投入海量資源,推動了大語言模型(LargeLanguageModel,LLM,簡稱“大模型”)能力和應用的快速演進。第1章概論01人工智能基礎02大語言模型的定義03大語言模型形成基礎04通用人工智能目錄/CONTENTSPART01人工智能基礎人工智能是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學,是一門自然科學、社會科學和技術科學交叉的邊緣學科,它涉及的學科內容包括哲學和認知科學、數學、神經生理學、心理學、計算機科學、信息論、控制論、不定性論、仿生學、社會結構學與科學發展觀等。1.1人工智能基礎作為計算機科學的一個分支,人工智能專注于創建“智能系統”,這些系統具有推理、學習、適應和自主行動的能力。人工智能是一個多元化的領域,圍繞著設計、理論、開發和應用能夠展現出類似人類認知功能的機器而展開。具有人工智能的機器努力模仿人類的思維和行為,包括但不限于理解自然語言、識別模式、解決問題和做出決策。1.1.1人工智能的定義人工智能研究領域的一個較早流行的定義,是由約翰·麥卡錫在1956年的達特茅斯會議上提出的,即:人工智能就是要讓機器的行為看起來像是人類所表現出的智能行為一樣。另一個定義指出:人工智能是人造機器所表現出來的智能性。總體來講,對人工智能的定義大多可劃分為四類,即機器“像人一樣思考”“像人一樣行動”“理性地思考”和“理性地行動”。這里“行動”應廣義地理解為采取行動,或制定行動的決策,而不是肢體動作。1.1.1人工智能的定義尼爾遜教授對人工智能下了這樣一個定義:“人工智能是關于知識的學科――怎樣表示知識以及怎樣獲得知識并使用知識的科學。”而溫斯頓教授認為:“人工智能就是研究如何使計算機去做過去只有人才能做的智能工作?!边@些說法反映了人工智能學科的基本思想和基本內容。即人工智能是研究人類智能活動的規律,構造具有一定智能的人工系統,研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應用計算機的軟/硬件來模擬人類某些智能行為的基本理論、方法和技術。1.1.1人工智能的定義可以把人工智能定義為一種工具,用來幫助或者替代人類思維。它是一項計算機程序,可以獨立存在于數據中心、個人計算機,也可以通過諸如機器人之類的設備體現出來。它具備智能的外在特征,有能力在特定環境中有目的地獲取和應用知識與技能。人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考,甚至也可能超過人的智能。1.1.1人工智能的定義20世紀七十年代以來,人工智能被稱為世界三大尖端技術之一(空間技術、能源技術、人工智能),也被認為是21世紀三大尖端技術(基因工程、納米科學、人工智能)之一,這是因為近幾十年來人工智能獲得了迅速的發展,在很多學科領域都獲得了廣泛應用,取得了豐碩成果。1.1.1人工智能的定義對于人的思維模擬的研究可以從兩個方向進行,一是結構模擬,仿照人腦的結構機制,制造出“類人腦”的機器;二是功能模擬,從人腦的功能過程進行模擬?,F代電子計算機的產生便是對人腦思維功能的模擬,是對人腦思維的信息過程的模擬。1.1.2人工智能的實現途徑實現人工智能有三種途徑,即強人工智能、弱人工智能和實用型人工智能。強人工智能,又稱多元智能。研究人員希望人工智能最終能成為多元智能并且超越大部分人類的能力。有些人認為要達成以上目標,可能需要擬人化的特性,如人工意識或人工大腦,這被認為是人工智能的完整性:為了解決其中一個問題,你必須解決全部的問題。即使一個簡單和特定的任務,如機器翻譯,要求機器按照作者的論點(推理),知道什么是被人談論(知識),忠實地再現作者的意圖(情感計算)。因此,機器翻譯被認為是具有人工智能完整性。1.1.2人工智能的實現途徑強人工智能的觀點認為有可能制造出真正能推理和解決問題的智能機器,并且這樣的機器將被認為是有知覺的,有自我意識的。強人工智能可以有兩類:(1)類人的人工智能,即機器的思考和推理就像人的思維一樣;(2)非類人的人工智能,即機器產生了和人完全不一樣的知覺和意識,使用和人完全不一樣的推理方式。強人工智能即便可以實現也很難被證實。為了創建具備強人工智能的計算機程序,我們首先必須清楚了解人類思維的工作原理,而想要實現這樣的目標,還有很長的路要走。1.1.2人工智能的實現途徑弱人工智能,認為不可能制造出能真正地推理和解決問題的智能機器,這些機器只不過看起來像是智能的,但是并不真正擁有智能,也不會有自主意識。它只要求機器能夠擁有智能行為,具體的實施細節并不重要。深藍就是在這樣的理念下產生的,它沒有試圖模仿國際象棋大師的思維,僅僅遵循既定的操作步驟。計算機每秒驗算的可能走位就高達2億個,就算思維驚人的象棋大師也不太可能達到這樣的速度。1.1.2人工智能的實現途徑人類擁有高度發達的戰略意識,這種意識將需要考慮的走位限制在幾步或是幾十步以內,而計算機的考慮數以百萬計。就弱人工智能而言,這種差異無關緊要,能證明計算機比人類更會下象棋就足夠了。如今,主流的研究活動都集中在弱人工智能上,并且一般認為這一研究領域已經取得可觀的成就,而強人工智能的研究則處于停滯不前的狀態。1.1.2人工智能的實現途徑第三種途徑稱為實用型人工智能。研究者們將目標放低,不再試圖創造出像人類一般智慧的機器。眼下我們已經知道如何創造出能模擬昆蟲行為的機器人。機械家蠅看起來似乎并沒有什么用,但即使是這樣的機器人,在完成某些特定任務時也是大有裨益的。比如,一群如狗大小,具備螞蟻智商的機器人在清理碎石和在災區找尋幸存者時就能夠發揮很大的作用。圖1-1華盛頓大學研制的靠激光束驅動的RoboFly昆蟲機器人1.1.2人工智能的實現途徑隨著模型變得越來越精細,機器能夠模仿的生物越來越高等,最終,我們可能必須接受這樣的事實:機器似乎變得像人類一樣智慧了。也許實用型人工智能與強人工智能殊途同歸,但考慮到一切的復雜性,我們不會相信機器人會有自我意識。1.1.2人工智能的實現途徑機器學習是人工智能的一個關鍵子集,是一種能夠根據輸入數據訓練模型的系統。它的主要目標是讓計算機系統能夠通過對模型進行訓練,使其能夠從新的或以前未見過的數據中得出有用的預測。換句話說,機器學習的核心是“使用算法解析數據,從中學習,然后對世界上的某件事情做出決定或預測”。這意味著,與其顯式地編寫程序來執行某些任務,不如教計算機學會如何開發一個算法來完成任務。1.1.3機器學習和深度學習在機器學習中,我們不是直接編程告訴計算機如何完成任務,而是提供大量的數據,讓機器通過數據找出隱藏的模式或規律,然后用這些規律來預測新的、未知的數據。機器學習可以根據所處理的數據自主地學習和適應,大大減少了對顯式編程的需求。通常將人工智能看作是自主機器智能的廣泛目標,而機器學習則是實現這一目標的具體方法。1.1.3機器學習和深度學習比如,如果我們通過代碼告訴電腦,圖片里紅色是玫瑰,有說明的是向日葵,那么程序對花種類的判斷就是通過人類直接編寫邏輯達成的,不屬于機器學習,機器什么也沒學。但是如果我們給計算機大量玫瑰和向日葵的圖片,讓電腦自行識別模式、總結規律,從而能對后來新輸入的圖片進行預測和判斷,這就是機器學習。1.1.3機器學習和深度學習深度學習是機器學習的一個子集,其核心在于使用人工神經網絡模仿人腦處理信息的方式,通過層次化的方法提取和表示數據的特征。雖然單層神經網絡就可以做出近似預測,但是添加更多的隱藏層可以優化預測的精度和準確性。神經網絡是由許多基本的計算和儲存單元組成,這些單元被稱為神經元。神經元通過層層連接來處理數據,并且深度學習模型通常有很多層,因此被稱為“深度”學習。深度學習模型能夠學習和表示大量復雜的模式,這使它們在諸如圖像識別、語音識別和自然語言處理等任務中非常有效。1.1.3機器學習和深度學習機器學習有三種主要類型,即監督學習、無監督學習和強化學習。其中,監督學習就像一個有答案的教科書,模型可以從標記的數據中學習,也就是說,它有答案可以參考學習;而無監督學習則更像一個無答案的謎題,模型需要自己在數據中找出結構和關系。此外,還有一種介于兩者之間方法稱為強化學習,其模型通過經驗學習執行動作。
圖1-2機器學習的三種主要類型1.1.4監督學習與無監督學習(1)監督學習,也稱有導師學習,是指輸入數據中有導師信號,以概率函數、代數函數或人工神經網絡為基函數模型,采用迭代計算方法,學習結果為函數。在監督學習里,機器學習算法接受有標簽的訓練數據(標記數據),標簽就是期望的輸出值。所以每一個訓練數據點都既包括輸入特征,也包括期望的輸出值。計算機使用特定的模式來識別每種標記類型的新樣本,即在機器學習過程中提供對錯指示,一般是在數據組中包含最終結果(0,1)。通過算法讓機器自我減少誤差。1.1.4監督學習與無監督學習監督學習從給定的訓練數據集中學習出一個函數,當接收到一個新的數據時,可以根據這個函數預測結果。算法的目標是學習輸入和輸出之間的映射關系,從而在給定新的輸入特征后,能夠準確預測出相應的輸出值。監督學習的主要類型是分類和回歸。在分類中,機器被訓練成將一個組劃分為特定的類,一個簡單例子就是電子郵件中的垃圾郵件過濾器。過濾器分析你以前標記為垃圾郵件的電子郵件,并將它們與新郵件進行比較,如果它們有一定的百分比匹配,這些新郵件將被標記為垃圾郵件并發送到適當的文件夾中。1.1.4監督學習與無監督學習在回歸中,機器使用先前的(標記的)數據來預測未來,天氣應用是回歸的好例子。使用氣象事件的歷史數據(即平均氣溫、濕度和降水量),手機天氣預報APP可以查看當前天氣,并對未來時間的天氣進行預測。例如,拿一堆貓貓狗狗的照片和照片對應的“貓”“狗”標簽進行訓練,然后讓模型根據沒見過的照片預測是貓還是狗,這就屬于分類。拿一些房子特征的數據,比如面積、臥室數量、是否帶陽臺等和相應的房價作為標簽進行訓練,然后讓模型根據沒見過的房子的特征預測房價——這就屬于回歸。1.1.4監督學習與無監督學習(2)無監督學習,又稱無導師學習、歸納性學習。在無監督學習中,學習的數據是沒有標簽的,是指輸入數據中無導師信號,采用聚類方法,學習結果為類別,所以算法的任務是自主發現數據里的模式或規律。典型的無導師學習有發現學習、聚類、競爭學習等。無監督學習通過循環和遞減運算來減小誤差,達到分類的目的。在無監督學習中,數據是無標簽的。由于大多數真實世界的數據都沒有標簽,這樣的算法就特別有用。比如,拿一堆新聞文章,讓模型根據主題或內容的特征自動把相似文章進行組織。1.1.4監督學習與無監督學習無監督學習分為聚類和降維。聚類用于根據屬性和行為對象進行分組。這與分類不同,因為這些組不是你提供的。聚類的一個例子是將一個組劃分成不同的子組(例如,基于年齡和婚姻狀況),然后應用到有針對性的營銷方案中。降維通過找到共同點來減少數據集的變量。大多數大數據可視化使用降維來識別趨勢和規則。1.1.4監督學習與無監督學習(3)強化學習。是讓模型在環境里采取行動,獲得結果反饋。從反饋里學習,從而能在給一定情況下采取最佳行動來最大化獎勵或是最小化損失。例如剛開始的時候,小狗會隨心所欲做出很多動作,但隨著和馴犬師的互動,小狗會發現某些動作能夠獲得零食,某些動作沒有零食,某些動作甚至會遭受懲罰。通過觀察動作和獎懲之間的聯系,小狗的行為會逐漸接近訓犬師的期望。在很多任務上,比如說讓模型下圍棋,獲得不同行動導致的獎勵或損失反饋,從而在一局局游戲里優化策略,學習如何采取行動達到高分。1.1.4監督學習與無監督學習PART02大語言模型的定義大語言模型是深度學習的應用之一,尤其在自然語言處理領域,這些模型的主要目標是理解和生成人類語言。為了實現這個目標,模型需要在大量文本數據上進行訓練,以學習語言的各種模式和結構。例如,ChatGPT就是一個大模型的例子,它被訓練來理解和生成人類語言,以便進行有效的對話和解答各種問題。1.2大語言模型的定義1.大模型和生成式人工智能存在交集生成式人工智能是一種能夠創造新的內容或預測未來數據的人工智能技術。這個技術包括用于生成文本、圖像、音頻和視頻等各種類型的內容的模型。生成式人工智能的一個關鍵特性是,它不僅可以理解和分析數據,還可以創造新的、獨特的輸出,這些輸出是從學習的數據模式中派生出來的。1.2大語言模型的定義2.大型通用語言模型預訓練和微調大模型可以進行預訓練,然后針對特定目標進行微調。以訓練狗為例,可以訓練它坐、跑、蹲和保持不動。但如果訓練的是警犬、導盲犬和獵犬,則需要特殊的訓練方法。大模型的訓練也采用與之類似的思路。大模型被訓練來解決通用(常見)的語言問題,如文本分類、問答、文檔總結和文本生成等。1.2大語言模型的定義(1)文本分類:大模型可以通過對輸入文本進行分析和學習,將其歸類到一個或多個預定義的類別中。例如,可以使用大模型來分類電子郵件是否為垃圾郵件,或將博客文章歸類為積極、消極或中立。(2)問答:大模型可以回答用戶提出的自然語言問題。例如,可以使用大模型來回答搜索引擎中的用戶查詢,或者回答智能助手中的用戶問題。(3)文檔總結:大模型可以自動提取文本中的主要信息,以生成文檔摘要或摘錄。例如,可以使用大模型來生成新聞文章的概要,或從長篇小說中提取關鍵情節和事件。1.2大語言模型的定義(4)文本生成:大模型可以使用先前學習的模式和結構來生成新的文本。例如,可以使用大模型來生成詩歌、短故事、或者以特定主題的文章。另一方面,大模型可以基于特定領域的小規模數據集進行訓練,來定制化解決不同領域如零售、金融、娛樂等的特定問題。1.2大語言模型的定義3.大模型的特征在“大模型”的上下文中,“大”主要有兩層含義。一方面,它指的是模型的參數數量。在這些模型中,參數的數量通常會非常大,達到數十億甚至數百億。這使得模型能夠學習和表示非常復雜的模式。另一方面,“大”也指的是訓練數據的規模。大模型通??梢栽趤碜曰ヂ摼W、書籍、新聞等各種來源的大規模文本數據上進行訓練。1.2大語言模型的定義在大模型中,“通用”這個詞描述的是模型的應用范圍。通用語言模型在訓練時使用了來自各種領域的數據,因此它們能夠處理各種類型的任務,不僅限于某一個特定的任務或領域。這使得這些模型在處理新的、未見過的任務時具有很強的泛化能力。1.2大語言模型的定義預訓練和微調。在預訓練階段,模型在大規模的通用文本數據上進行訓練,學習語言的基本結構和各種常識。然后,在微調階段,模型在更小、更特定的數據集上進行進一步的訓練。這個數據集通常是針對某個特定任務或領域的,例如醫學文本、法律文本,或者是特定的對話數據。微調可以讓模型更好地理解和生成這個特定領域的語言,從而更好地完成特定的任務。1.2大語言模型的定義4.大模型的優勢單一模型可用于不同任務:由于大模型是通用的,并且具有強大的泛化能力,所以它們可以處理各種類型的任務,比如文本分類、命名實體識別、情感分析、問答系統、文本生成等。這意味著可以使用同一個預訓練模型來處理不同的任務,只需要進行相應的微調就可以。這大大減少了開發和維護不同模型的復雜性和成本。1.2大語言模型的定義微調過程只需要最小的數據:盡管大模型在預訓練階段需要大量的通用文本數據,但在微調階段,它們通常只需要相對較小的領域特定數據。這是因為模型在預訓練階段已經學習了大量的語言知識和常識,微調階段主要是讓模型適應特定的任務或領域。這使得大語言模型能夠在數據稀缺的領域中也能表現出色。1.2大語言模型的定義隨著更多的數據和參數,性能持續提升:大模型的性能通常隨著訓練數據的增加和模型參數的增加而提升。這意味著,通過訓練更大的模型,并使用更多的數據,我們可以獲得更好的性能。這是因為更大的模型有更多的參數,能夠學習和表示更復雜的模式;同時,更多的數據能夠提供更豐富的信息,幫助模型更好地理解語言。1.2大語言模型的定義PART03大語言模型形成基礎OpenAI于2023年3月14日發布的多模態預訓練大模型GPT-4可以接受圖像和文本輸入,產生文本輸出。輸出任務依舊是一個自回歸的單詞預測任務。外界曾經預期GPT-4會增加語音、圖像、視頻、文本多模態輸入,輸出也不局限于文字。1.3大語言模型形成基礎對于多年來一直在思考人工智能的哲學家來說,GPT-4就像是一個已經實現了的思維實驗。早在1981年,內德·布洛克就構建了一個“Blockhead(傻瓜)”假說——假定科學家們通過編程,在Blockhead內預先設定好了近乎所有問題的答案,那么,當它回答問題的時候,人們也許就根本無法區分是Blockhead和人類在回答問題。顯然,這里的Blockhead并不被認為是智能的,因為它回答問題的方式僅僅是從其龐大的記憶知識庫中檢索并復述答案,并非通過理解問題之后給出答案。哲學家們一致認為,這樣的系統不符合智能的標準。1.3.1Blockhead思維實驗實際上,GPT-4的許多成就可能就是通過類似的內存檢索操作產生的。GPT-4的訓練集中包括了數億個人類個體生成的對話和數以千計的學術出版物,涵蓋了潛在的問答對。研究發現,深度神經網絡多層結構的設計使其能夠有效地從訓練數據中檢索到正確答案。這表明,GPT-4的回答其實是通過近似甚至是精確復制訓練集中的樣本生成的。1.3.1Blockhead思維實驗如果GPT-4真的是以這種方式運行,那么它就只是Blockhead的現實版本。由此,人們在評估大語言模型時,也就存在一個關鍵問題:它的訓練集中可能包含了評估時使用的測試問題,這被稱為“數據污染”,這些是應該在評估前予以排除的問題。研究者指出,大模型不僅可以簡單地復述其提示的或訓練集的大部分內容,它們還能夠靈活地融合來自訓練集的內容,產生新的輸出。而許多經驗主義哲學家提出,能夠靈活復制先前經驗中的抽象模式,可能不僅是智能的基礎,還是創造力和理性決策的基礎。1.3.1Blockhead思維實驗大模型的起源可以追溯到人工智能研究的開始。早期的自然語言處理主要有兩大流派:符號派和隨機學派。諾姆·喬姆斯基的轉換生成語法對符號派影響重大。該理論認為自然語言的結構可以被一組形式化規則概括,利用這些規則可以產生形式正確的句子。與此同時,受香農信息論的影響,數學家沃倫·韋弗首創了隨機學派。1949年,韋弗提出使用統計技術在計算機上進行機器翻譯的構想。這一思路為統計語言模型的發展鋪平了道路,例如n-gram模型,該模型根據語料庫中單詞組合的頻率估計單詞序列的可能性。1.3.2大模型的歷史基礎現代語言模型的另一個重要基石是分布假設。該假設最早由語言學家澤利格·哈里斯在1950年代提出。這一假設認為,語言單元通過與系統中其他單元的共現模式來獲得特定意義。哈里斯提出,通過了解一個詞在不同語境中的分布特性,可以推斷出這個詞的含義。1.3.2大模型的歷史基礎隨著分布假設研究的不斷深入,人們開發出了在高維向量空間中表示文檔和詞匯的自動化技術。之后的詞嵌入模型通過訓練神經網絡來預測給定詞的上下文(或者根據上下文填詞)學習單詞的分布屬性。與先前的統計方法不同,詞嵌入模型將單詞編碼為密集的、低維的向量表示。由此產生的向量空間在保留有關詞義的語言關系的同時,大幅降低了語言數據的維度。同時,詞嵌入模型的向量空間中存在許多語義和句法關系。
圖1-3多維向量空間中詞嵌入的一個例子1.3.2大模型的歷史基礎圖1-3中A部分指一個在自然語言語料庫上訓練的詞嵌入模型學會將單詞編碼成多維空間中的數值向量,為了視覺上的清晰性而簡化為兩維。在訓練過程中,上下文相關的單詞(例如“age”和“epoch”)的向量變得更加相似,而上下文無關的單詞(例如“age”和“coffee”)的向量變得不那么相似。圖1-3中B部分指在經過訓練的模型的二維向量空間中的詞嵌入。具有相似含義的單詞(如“age”和“epoch”)被放置在更靠近的位置,這由它們的余弦相似度得分高度表示;而具有不同含義的單詞(如“coffee”和“epoch”)則相對較遠,反映在余弦相似度得分較低上。1.3.2大模型的歷史基礎余弦相似度是一種用于確定兩個非零向量夾角余弦的度量,反映它們之間的相似程度。余弦相似度得分越接近1,表示夾角越小,向量之間的相似度越高。詞嵌入模型的發展是自然語言處理歷史上的一個轉折點,為基于在大型語料庫中的統計分布在連續向量空間中表示語言單元提供了強大而高效的手段。然而,這些模型也存在一些顯著的局限性。首先,它們無法捕捉一詞多義和同音異義,因為它們為每個單詞類型分配了單一的嵌入,無法考慮基于上下文的意義變化。1.3.2大模型的歷史基礎隨后的“深度”語言模型引入了類似記憶的機制,使其能夠記住并處理隨時間變化的輸入序列,而不是個別的孤立單詞。這些模型雖然在某些方面優于詞嵌入模型,但它們的訓練速度較慢,處理長文本序列時表現也欠佳。這些問題在瓦斯瓦尼等人于2017年引入的Transformer架構中得到解決,Transformer架構是谷歌云TPU推薦的參考模型,為現代大模型奠定了基礎。1.3.2大模型的歷史基礎Transformer模型的一個關鍵優勢在于,輸入序列中的所有單詞都是并行處理,這種架構不僅極大地提高了訓練效率,還提高了模型處理長文本序列的能力,從而增加了可以執行的語言任務的規模和復雜性。Transformer模型的核心是一種被稱為自注意力的機制。簡而言之,自注意力允許模型在處理序列中的每個單詞時,衡量該序列不同部分的重要性。這一機制幫助大模型通過考慮序列中所有單詞之間的相互關系,構建對長文本序列的復雜表示。在句子層面之上,它使大模型能夠結合段落或整個文檔的主題來進行表達。1.3.3基于Transformer模型Transformer模型并非直接操作單詞,而是操作稱為“詞元(tokens)”的語言單位。詞元可以映射到整個單詞,也可以映射到更小的單詞片段。在將每個單詞序列提供給模型之前,首先進行標記化,將其分塊成相應的詞元。標記化的目的是盡可能多地表示來自不同語言的單詞,包括罕見和復雜的單詞?;赥ransformer模型的最常見變體被稱為“自回歸”,包括GPT-3、GPT-4和ChatGPT。自回歸模型以準確預測下一個詞元為學習目標。1.3.3基于Transformer模型在每次訓練時,模型的目標是根據先前的詞元預測語料庫中抽樣序列的下一個詞元。在第一次預測時,模型使用隨機參數初始化,預測結果并不準確。隨著每次預測的進行,模型的參數逐漸調整,直至預測出的詞元和訓練集中實際的詞元的差異最小。這個過程重復數十億次,直到模型能夠準確預測從訓練集中隨機抽取的內容的下一個詞元。Transformer模型的訓練集包括百科全書、學術文章、書籍、網站,甚至大量計算機代碼等多樣化來源的大型語料庫,旨在概括自然語言和人工語言的廣度和深度,使Transformer模型能夠準確進行下一個詞元的預測。1.3.3基于Transformer模型盡管這種方式訓練的大模型在生成文本段落方面表現出色,但它們對真實的、有用的或無冒犯性的語言沒有固定偏好。為了讓生成的文本更符合人類語言使用規范,此后的大模型如ChatGPT,使用了“從人類反饋中進行強化學習”的微調技術來調整模型的輸出。強化學習允許開發人員更具體和可控地引導模型的輸出。這一微調過程在調整這些模型以更好地滿足人類語言使用規范方面發揮著至關重要的作用。1.3.3基于Transformer模型大模型具有出色的能力,能夠利用文本提示中的文本信息來引導它們的輸出。已部署的語言模型經過預訓練,其參數在訓練后保持固定。盡管大部分架構缺乏可編輯的長期記憶資源,但它們能夠根據所提供的內容靈活調整輸出,包括它們未經明確訓練的任務。這種能力可被視為一種即時學習或適應的形式,通常被稱為“情境學習”。情境學習可被解釋為一種模式完成的形式,如果序列構造為一個熟悉的問題或任務,模型將嘗試以與其訓練一致的方式完成它。可向模型發出具體的指令。1.3.3基于Transformer模型在“少樣本學習”中,提示的結構包括要執行任務的幾個示例,后面是需要響應的新實例。在“零樣本學習”中,模型不會得到任何示例,任務直接在提示中進行概述或暗示。少樣本學習被認為是人類智能的重要方面。而老式機器學習則在少樣本學習任務中表現較差。然而,經過訓練后的大模型在少樣本學習上表現出色。在較大的模型(如GPT-3)中觀察到,少樣本學習能力似乎與模型大小高度相關。通過強化學習精調后,大模型的零樣本學習能力得到增強。1.3.3基于Transformer模型大模型已經應用在自然語言處理領域的許多任務中,且有不錯的表現。除了傳統的自然語言處理任務,大模型還具有執行包括生成代碼、玩基于文本的游戲和提供數學問題答案等。由于大模型出色的信息檢索能力,它們甚至已被提議作為教育、研究、法律和醫學的工具。1.3.3基于Transformer模型人工神經網絡(ANNs,簡稱“神經網絡”),包括早期的自然語言處理結構,一直是哲學討論的焦點。圍繞這些系統的哲學討論主要集中在它們作為建模人類認知的適用性上。具體而言,爭論的焦點在于,相比于比經典的、符號的、基于規則的對應物模型,它們是否構成了更好的人類認知模型。研究中的核心問題之一是,設計用于預測下一個詞元的大模型是否能構建出一個“世界模型”。在機器學習中,世界模型通常指的是模擬外部世界某些方面的內部表征,使系統能夠以反映現實世界動態的方式理解、解釋和預測現象,包括因果關系和直觀的物理現象。1.3.4大模型的世界模型問題大模型的學習方式與通過和環境互動并接收反饋來學習的強化學習代理不同,它能否構建出世界模型。實際上這是在探討它們是否能夠內部構建出對世界的理解,并生成與現實世界知識和動態相一致的語言。這種能力對于反駁大模型僅僅是“Blockheads”的觀點至關重要。1.3.4大模型的世界模型問題評估大模型是否具有世界模型并沒有統一的方法,部分原因在于這個概念通常定義模糊,部分原因在于難以設計實驗來區分大模型是依賴淺層啟發式回答問題,還是使用了環境核心動態的內部表征這一假設。盡管如此,我們還可以向大模型提出一些不能依據記憶來完成的任務,來提供新的證據解決這一問題。1.3.4大模型的世界模型問題有的研究認為,大模型可能學會了模擬世界的一部分,而不僅僅是進行序列概率估計。更具體地說,互聯網規模的訓練數據集由大量單獨的文檔組成。對這些文本的最有效壓縮可能涉及對生成它們的隱藏變量值進行編碼:即文本的人類作者的句法知識、語義信念和交際意圖。1.3.4大模型的世界模型問題另一個有趣的問題是,大模型是否可能參與文化習得并在知識傳遞中發揮作用。一些理論家提出,人類智能的一個關鍵特征在于其獨特的文化學習能力。盡管其他靈長類動物也有類似的能力,但人類在這方面顯得更為突出。人類能夠相互合作,將知識從上一代傳到下一代,人類能夠從上一代結束的地方繼續,并在語言學、科學和社會學知識方面取得新的進展。這種方式使人類的知識積累和發現保持穩步發展,與黑猩猩等其他動物相對停滯的文化演變形成鮮明對比。1.3.5文化知識傳遞和語言支持鑒于深度學習系統已經在多個任務領域超過了人類表現。那么問題就變成了,大模型是否能夠模擬文化學習的許多組成部分,將它們的發現傳遞給人類理論家。研究發現,現在主要是人類通過解釋模型來得到可傳播的知識。但是,大模型是否能夠以理論介導的方式向人類解釋它們的策略,從而參與和增強人類文化學習呢?有證據表明,基于Transformer的模型可能在某些訓練-測試分布轉變下實現組合泛化。但問題涉及到一種不同類型的泛化——解決真正新穎任務的能力。從現有證據來看,大模型似乎能夠在已知任務范圍內處理新數據,實現局部任務泛化。1.3.5文化知識傳遞和語言支持此外,文化的累積進步(棘輪效應:指人的消費習慣形成之后有不可逆性,即易于向上調整,而難于向下調整)不僅涉及創新,還包括穩定的文化傳播。大模型是否能夠像人類一樣,不僅能夠生成新穎的解決方案,還能夠通過認識和表達它們如何超越先前的解決方案,從而“鎖定”這些創新?這種能力不僅涉及生成新穎的響應,還需要對解決方案的新穎性及其影響有深刻理解,類似于人類科學家不僅發現新事物,還能理論化、情境化和傳達他們的發現。1.3.5文化知識傳遞和語言支持因此,對大模型的挑戰不僅僅在于生成問題的新穎解決方案,還在于培養一種能夠反思和傳達其創新性質的能力,從而促進文化學習的累積過程。這種能力可能需要更先進的交際意圖理解和世界模型構建。雖然大模型在各種形式的任務泛化方面表現出有希望的跡象,但它們參與文化學習的程度似乎取決于這些領域的進一步發展,這可能超出了當前體系結構的能力范圍。1.3.5文化知識傳遞和語言支持PART04通用人工智能有別于“專用(特定領域)人工智能”,通用人工智能(GeneralArtificialIntelligence,AGI),是指一種能夠像人類一樣思考、學習和執行多種任務的人工智能系統,它具有高效的學習和泛化能力、能夠根據所處的復雜動態環境自主產生并完成任務,它具備自主感知、認知、決策、學習、執行和社會協作等能力,且符合人類情感、倫理與道德觀念。1.4通用人工智能開發ChatGPT的OpenAI公司將AGI寫在了自己的企業使命中,OpenAI官網上是這樣寫的:“OpenAI的使命是確保通用人工智能,即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統,將為全人類帶來福祉。我們不僅希望直接建造出安全的、符合共同利益的通用人工智能,而且愿意幫助其它研究機構共同建造出這樣的通用人工智能以達成我們的使命?!?.4.1什么是通用人工智能目前,大多數人工智能系統是針對特定任務或領域進行優化的,例如語音識別、圖像識別、自然語言處理、推薦系統等,這是將問題得到簡化的一種解決問題的方法。這些系統在其特定領域中可能表現得很出色,但它們缺乏通用性和靈活性,不能適應各種不同的任務和環境。與專注于解決特定問題或領域不同,通用人工智能的目標是創建一個全面智能的系統,可以解決廣泛的問題并進行多種任務。這種系統能夠在不同的環境中適應和學習,并且可以從不同的來源中獲取信息,像人類一樣進行推理和決策。1.4.1什么是通用人工智能“AGI”這個詞匯最早可以追溯到2003年瑞典哲學家尼克·博斯特羅姆發表的論文《先進人工智能的倫理問題》。在該論文中,博斯特羅姆討論了超級智能的道德問題,并在其中引入了“AGI”這一概念,描述一種能夠像人類一樣思考、學習和執行多種任務的人工智能系統。超級智能被定義為任何智能在幾乎所有感興趣的領域中都大大超過人類認知表現的智能。這個定義允許增強的黑猩猩或海豚也有可能成為超級智能,也允許非生物超級智能的可能性。1.4.1什么是通用人工智能因此,AGI可以被視為是一種更高級別的人工智能,是當前人工智能技術發展的一個重要方向和目標。但由于其在技術和理論方面的挑戰,它仍然是一個較為遙遠的目標。1.4.1什么是通用人工智能大模型是一種基于深度神經網絡學習技術的大型預訓練神經網絡算法模型。雖然大模型已經取得了一些驚人的進展,但它還不符合通用人工智能的要求。1.4.2大模型與通用人工智能(1)大模型在處理任務方面的能力有限。它還只能處理文本領域的任務,無法與物理和社會環境進行互動。這意味著像ChatGPT這樣的模型不能真正“理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年嵩山少林武術職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年山西青年職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年山東畜牧獸醫職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年山東水利職業學院高職單招(數學)歷年真題考點含答案解析
- 2025年寶雞三和職業學院高職單招語文2019-2024歷年真題考點試卷含答案解析
- HSE知識課件教學課件
- 2025年安慶醫藥高等專科學校高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年寧夏民族職業技術學院高職單招(數學)歷年真題考點含答案解析
- 2025年寧夏工商職業技術學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 醫院醫療救護工作總結與未來計劃
- 2024年江蘇連云港市交通控股集團有限公司招聘筆試參考題庫含答案解析
- 【自考復習資料】05175稅收籌劃(重點知識匯總)
- Unit+5+Music+Listening+and+Speaking+高中英語人教版(2019)必修第二冊
- 高級焊工培訓-(焊工識圖基礎知識、焊接符號)
- 2024年中國電信安徽招聘筆試參考題庫附帶答案詳解
- 數據運營全流程手冊
- 5W1H-分析法與5W分析法培訓課件
- 動火作業安全檢查表
- Revit-基礎教程課件
- 尿失禁的康復計劃
- 南昌航空大學往年計算機C語言題目(含六套)
評論
0/150
提交評論