領域大模型的挑戰與機遇^7從構建到應用_第1頁
領域大模型的挑戰與機遇^7從構建到應用_第2頁
領域大模型的挑戰與機遇^7從構建到應用_第3頁
領域大模型的挑戰與機遇^7從構建到應用_第4頁
領域大模型的挑戰與機遇^7從構建到應用_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

#領域大模型的挑戰與機遇:從構建到應用01

背景預訓練語言大模型與大模型時代的知識工程02

大模型的領域適配如何構建領域對齊的大模型?03

大模型的能力提升如何增強大模型在領域應用中的特別能力?04

大模型的協同工作如何讓大模型在現有流程中發光發熱?目錄CONTENT#01背景“Given

the

breadth

and

depth

ofGPT-4’s

capabilities,

we

believe

thatit

could

reasonably

be

viewed

as

anearly

(yet

still

incomplete)

version

ofan

artificial

general

intelligence

(AGI)system

”強大的大模型底座知識能力大模型蘊含豐富的世界知識,內涵大量人類常識人工智能之父MeCarthy:盡管自上世紀50

年代以來,常識知識一直是科研工作者重點關注的研究領域,但在AI眾多的分支中(如:模式識別和推理),該領域是最難解決與突破的分支之一。大模型是否終結了知識工程?大模型的常識推理能力大模型是目前唯一能利用人類常識進行開放推理的技術現實應用中存在大量變數,不能教條式地機械執行傳統常識庫較小且難以用于實際推理傳統規則系統無法事先事無巨細地列舉各種特例規則ConceptNet,過于抽象,難以匹配現實場景年齡錯誤等潛藏矛盾難以事先制定規則避免從封閉到開放開放世界的理解能力大模型Agent可以執行多步復雜任務大模型具備一定的完成復雜任務所需的動作規劃與執行能力大模型Agent在Minecraft中自動采集材料、制造工具并最終構建了所有物品Ghost

in

the

Minecraft:

Generally

Capable

Agents

forOpen-World

Environments

viaLarge

Language

Models

with

Text-basedKnowledgeand

MemoryOpenAI

Code

Interpreter可以通過多步編碼逐步完成各種復雜任務大模型在領域落地仍然遇到了諸多挑戰推理成本能力缺陷難以協同大模型的推理成本限制其應用大模型推理需要大量時間、算力成本,使其難以用在大規模重復應用中在實際應用中,大小模型協同、按需使用大模型尤為重要Bert模型,每個句子0.05s以內(3090)百億模型,每秒10-20個token(3090,使用投機采樣)100000個句子需要138h千億模型,調用API,平均每100個詞0.03rmb100000個句子需要3000r和大量時間對于大批量任務,百億、千億模型推理成本無法接受文本規模較大,智能要求相對低大模型蒸餾小模型知識抽取需要常識推理,傳統模型無法解決必須大模型知識沖突驗證需要智能,調用頻次較低大模型智能問答大模型在復雜決策場景仍有缺陷故障排查、疾病診斷、投資決策等嚴肅應用場景ChatGPT比較好地實現了機器與人類的開放式對話,也就是開放式閑聊然而實際應用場景多需機器的復雜決策能力,復雜決策是領域應用根本特點豐富的應用知識復雜的決策邏輯宏觀態勢的研判能力綜合任務的拆解能力精細嚴密的規劃能力復雜約束的取舍能力未知事物的預見能力不確定場景的推斷能力從開放閑聊到復雜決策仍有漫長道路在ToB應用中需要協同能力和可控性定位:具備各種功能的多功能智能引擎各種企業流程已經定型,目前大模型能力仍不可能直接替代企業整個部門大模型和現有員工現有流程的協同是重中之重如何設計大模型在現有企業流程中的角色?如何往大模型中注入企業私有的內部知識,避免幻覺現象?系統流程設計企業內部知識協同協議和接口如何制定大模型和企業現有流程/工具的接口和協議?如何控制大模型的開放能力,使其穩定以指定協議輸???#02領域適配領域模型的持續預訓練本質上是數據問題相比于訓練模型的流程,數據的收集和配比更為重要模型微調方法已經高度同質化和傻瓜化1GB高質量論文vs

1TB垃圾網絡語料要“高質量”論文模型還是通用網絡語言模型?數據選擇+數據配比混入通用領域數據以避免災難性遺忘收集并選擇有效的領域知識借助大模型能力進行數據增強借助大模型能力或環境反饋構建數據行業/領域大模型的持續訓練行業大模型煉制數據缺乏選擇依據,是否所有行業數據都要加入 訓練?樣本數量少收集成本高基礎模型已經習得是否進行微調不影響模型后續表現太基礎,不必要社會保障號碼有什么用?

買某支股票的流程是什么?太細節,不必要數據多,但知識少(比如實時股價)存在隱私問題公司里面每個人的社會保障號碼是多少?實時股價數據是怎樣的?行業特有反常識高覆蓋形式多樣高價值行業數據社會保障號碼長什么樣子?某股票分析報告?難點針對異質來源的來源提示增強問題:大模型訓練中語料配比難以確定,優化不同下游任務需要提高各自對應數據占比方案:預訓練時向文本加入語料來源,用異質語料的來源信息輔助模型學習;微調和推理時來源可手動添加也可用預訓練模型自我生成效果:在領域和通用的設置下均取得提升;即使不加來源信息也能提高效果<SP>Bank

Indonesia

expects

GDP

will

be

less

than4.9%SourceOriginal

TextModelBank

Indonesia

expects

GDP

will

be

less

than4.9%<News>PretrainFinetune

&

InferenceModelNews

Books

Wiki

Paper

Review

Null

ManualNoSP

ManualSPModelSourceOriginal

TextAutoSP經過來源增強的模型在8個下游任務中甚至超越了更大一檔規模的未增強模型Yipei

Xu,

DakuanLu,

Jiaqing

Liang,

et

al,

Source

Prompt:

Coordinated

Pre-training

of

Language

Models

on

Diverse

Corpora

from

Multiple

Sources基于來源增強的模型效果C4:來源標簽的表述方法不太重要,即使使用不含語義的抽象字符,來源的劃分也能增強模型效果17C1:下游任務中不加入來源信息,完全沿用原來用法也可獲得可觀效果提升C2:指定或使用同一模型自動識別下游任務的所屬來源,可獲得更好效果C3:即使下游任務給定錯誤的來源標簽,也可獲得效果提升,說明模型在預訓練中獲得了增強建立訓練數據的分類體系掌握大模型煉制工藝的關鍵參數,及其對大模型效果的評價體系什么樣的數據決定怎樣的能力?建立數據特性與模型能力之間的因果關系數學、生物學、歷史學、哲學、經濟學、計算機科學...學科知識領域

自然語言、編程語言、邏輯表達式英語、中文、德語、日語、法語、俄語...

嚴肅、正式、幽默、口語、科普、學術...

新聞、小說、散文、詩歌、自傳、日記、網絡用語...積極、消極、中性、憤怒、快樂、悲傷兒童、青少年、成年人、專業人士、普通大眾科學、文學、藝術、歷史、養生、體育、金融、政治圖像描述、視頻描述、音頻轉錄、圖表和數據表格語言類型

語種

文風

文體

情感和情緒

目標受眾

題材

多模態數據

#03能力提升大模型理解復雜指令的能力現有大模型評估基準主要集中在知識、復雜推 理、代碼。證明小模型已經具備一定指令泛化 的能力,可以完成簡單指令。然而,專業領域場景下的指令往往非常復雜任務描述:多任務、形式約束、語義約束、數值約束輸入文本:長度長、噪音多、異構、多輪對話小模型對復雜指令的理解仍存在較大缺陷忽略語義約束生成的答案不符合形式約束生成的答案長度、樣本數量不對不遵循給定的輸入文本作答缺乏一個系統性研究大模型復雜指令理解能力 的評估基準Can

Large

Language

Models

Understand

Real-World

Complex

Instructions?

AAAI2024復雜指令評估基準系統性總結了復雜指令的8個特征,構建了包含9個任務的復雜指令評估數據集,提出了4個評估準則以及對應的自動化評估指標,以期系統性地評估大模型理解真實場景下復雜指令的能力針對復雜指令開放任務的評估指標精確匹配不適用于開放任務模糊匹配語義很相似不一定是正確答案GPT-4打分Large

Language

Models

are

not

Fair

Evaluators得分點設計得分點自動組合和挖掘問題正確答案待評估答案后置nvme硬盤使用的是哪種接口?后置nvme硬盤使用的是pcie接口NVMe硬盤的接口類型為PCIe

NVMe。什么是license的公共郵箱?license公郵:

license@License的公共郵箱是:

license@。典型的Agent復雜指令:完成xxx任務從以下行為中進行選擇以json格式輸??不要有多余的推理過程提升大模型數量推理能力專業領域需要大模型理解大量數值、量綱表述,比如制造業、財務、金融、醫療事件A,臨界溫度,150K,當前溫度-100攝氏度,事件A觸發了嗎?一個長方形長和寬分別是4米和5米,周長是多少厘米?大模型產生的錯誤答案:(4+5)

*

2=

18,正確答案:1800

(厘米)通用大模型對于數值處理、量綱理解能力有限Enhancing

Quantitative

Reasoning

Skills

of

Large

Language

Models

through

Dimension

Perception.

ICDE

2024大模型的量綱與數值認知增強優良的數據集、高質量的知識庫仍是優化通用大模型某方面能力的捷徑量綱單位知識庫:通過面向量綱特性的單位知識庫,以補充LLM缺失的量綱常識量綱認知的預訓練增強:通過量綱認知預訓練,將量綱常識和量綱認知能力隱式注入模型中數量推理下游應用:面向量綱認知的數據增強+基于知識提示增強推理,提升在數量推理任務上的能力經過維度感知增強的模型在帶單位的物理量推理任務上顯著超過了GPT-4(50.67%

vs

43.55%)大模型的自我糾正能力動機:大模型生成答案時,并不是一次性就能形成正確、可信、完備的結果。通過賦予模型自我糾正的能力,模型能夠檢查自己初始生成結果并且進一步改進生成答案,從而提升模型生成質量。方案:在大模型中引入“內在的自我糾正”機制。設計構造自我糾正數據集,通過指令微調,并提出部分答案掩碼(PAM)訓練方法,激發大模型的自我糾正能力。使得模型自身能夠自發地對自己生成的初始答案進行自我驗證、自我修改。經過自我糾錯增強的模型,其自我糾錯一輪后的問題回答正確率相比直接回答提升5.6%利用模型內在的自我糾正機制處理用戶請求的流程自我糾正數據的處理流程基于環境反饋的代碼模型修正增強核心思想:使用來自代碼執行環境的結果反饋,借助大模型的代碼修正能力以及對錯誤信息的理解能力構建面向命令修正的數據集,增強自研小型專業模型的命令生成能力,使自研模型對運維命令生成具備自我修正能力。以NL2Shell(命令生成)任務為例在訓練階段,使用來自代碼執行環境的結果反饋,借助大模型的代碼修正能力以及對錯誤信息的理解能力構建面向命令修正的數據集,構建相應的指令集,通過指令微調,訓練小型專業模型對于運維命令的評估、生成與修正能力。在推理階段,利用自研模型的命令生成與評估能力,實現自研模型的自我反思優化。ShellGPT在領域任務上的性能超過ChatGPT,基于反饋能夠提升自然語言轉命令、命令糾錯準確率約3-5%Jie

Shi,

Bo

Xu,

Jiaqing

Liang,

Yanghua

Xiao.

ShellGPT:

A

Small

Self-Refining

Language

Model

for

Shell

Command

Generation#04協同工作大模型與知識工程的結合當前大模型能力仍不足以完全替代目前較為成熟的知識工程流程大模型需要與當前成熟的知識工程方案進行協同和結合如知識抽取,知識庫問答、文檔檢索、規則推理系統等大模型使能知識工程傳統知識工程流程中 的大模型協同知識工程增強大模型領域知識檢索增強的 大模型應用從“小模型+專家”到“小模型+大模型+專家”極大增強開放推理能力從“端到端”到“檢索-增強-溯源-驗證”極大緩解大模型“亂說話”的問題大小模型協作的例子大小模型協作是降低應用成本的有效方法絕大多數簡單例子(80-20法則),傳統的BERT模型就可解決,其應用成本可忽略不計需要常識、推理、分析的樣本才交由大模型解決xxx(1957年1月3日-2011年1月2日),男,漢族,安徽人,

1984年4月參加工作。xxx和yyy在車庫里夜以繼日地寫??了DOS1.0,這就是微軟公司的第一個產品。大模型小模型成功失敗/拒答輸??結果基于拒答回退的大小模型協作大小模型協作的抽取-糾錯-問答流程知識庫語料關系抽取文檔多,使用小模型主語糾錯基于別名庫常識檢測依賴常識,使用大模型,離線進行同名檢測小模型篩選,大模型語義識別問答訪問頻率低,使用大模型現階段大模型作為重型高成本工具,應當被用在非它不可的部分大模型使能知識工程為什么不使用大模型直接端到端問答?業務要求高可控性,中間知識庫提供了人類維護的接口真實場景中語料的錯誤或矛盾不可忽視解耦的知識庫可以支撐其他更多下游應用大模型在這一流程中起什么作用?不可替代的常識驗證和推理能力高準確率的保底/教師方案迄今為止最強大的Few-shot

Learner僅需1-3個示例即可讓模型完成各種特異的任務僅需不到100條數據的微調即可定制化更復雜的任務大小模型協作的抽取-糾錯-問答流程關系抽取知識庫沿用傳統知識抽取-入庫-問答流程,但使用大模型提升其能力語料文檔多,使用小模型主語糾錯基于別名庫常識檢測依賴常識,使用大模型,離線進行同名檢測小模型篩選,大模型語義識別問答訪問頻率低,使用大模型基于大模型的抽取:SnoopIE復雜知識抽取任務需要多種不同的能力識別元素、關系識別、實體配對等通過多階段指令微調來增強模型抽取能力將現有抽取數據集自動拆分為各種抽取子任務以課程學習從簡單到困難訓練模型各種子任務使用前通過少量訓練適配具體抽取任務中文通用大模型SnoopIEeasySnoopIE新聞抽取簡歷抽取網頁抽取通用NLP任務簡單抽取任務實體識別關系抽取復雜抽取任務復雜Schema抽取任務復雜格式定義復雜任務描述具體抽取任務數據微調提升單一任務的抽取能力在新聞人物信息抽取任務中,僅使用300條數據微調達到了92%準確率(由于格式和需求不一致問題,ChatGPT僅有60%準確率)……三元組抽取的大小模型協同(LS-RTE)動機:小模型和大模型在不同子任務上各有優劣,大小模型結合可以互相配合,取長補短方法:將三元組抽取任務分解成四部分,每部分讓表現最好的模型來做:關系分類:小模型做,只取得分最高的3個關系實體抽取:大模型做,構建提問模板,分兩步提問頭尾實體實體補全:小模型做,補充大模型的遺漏錯誤消除:大模型做,把錯誤的不合語義的三元組刪除實驗:超過單獨小模型SOTA

17.93%,以及單獨大模型基線方法26.7%KG-Verify:基于大模型的知識驗證與更新大模型可以對抽取出的知識進行驗證,并決策該知識應當插入/替換/丟棄大模型包含大量世界常識,可以進行精準的實體匹配和實體鏈接通過與已有知識庫中的知識進行比對,能夠有效糾正邏輯矛盾與常識錯誤知識驗證結束后,對知識庫進行更新、補充、刪除等不同操作核心:基于知識圖譜的證據檢索將模糊匹配實體相關信息作為證據,由大模型能力進行推理輸入文本……2022年度央視十佳主持人評選活動于今日開啟,薩貝寧、尼格買提、李詠等知名主持人??席活動,并組織、監督投票工作……候選知識(薩貝寧,參加活動,2022年度央視十佳主持人評選)(尼格買提,參加活動,…)(李詠,參加活動,…)庫內知識(撒貝寧,職業,央視主持人)已有知識比對糾錯(薩貝寧撒貝寧,參加活動,2022年度央視十佳主持人評選)大模型常識推理驗證Prompt:請根據已有信息判斷上述知識是否存在邏輯矛盾或常識錯誤

Ans:(李詠,參加活動,2022年度央視十佳主持人評選)錯誤,李詠已于2018年去世,這與“2022年??席活動”相違背LLM事實驗證比對糾錯相關知識檢索……2018年10月25日凌晨5點20分,前央視主持人李詠因癌癥在美國去世……知識庫編輯知識更新知識補充錯誤/過期知識刪除在新聞人物信息抽取任務中,糾錯準確率達到了90%,召回率達到70%基于自動生成數據的Schema對齊問題:領域數據庫Schema過于復雜,無法放入Prompt上下文中例:200張表格,平均每表100列Schema檢索方案:面向文檔的檢索方式對Schema檢索效果較差Agent方案:成功率堪憂,同一流程需要重復探索,Memory放不下基于合成數據微調的Schema適配策略通用大模型已有較好的問題意圖識別和SQL翻譯能力但其不知道領域數據庫的具體Schema在種子樣本基礎上,大模型自動構造樣本讓模型學習Schema從通用表述翻譯到私有領域表述,需要首先理解領域Schema從私有領域表述翻譯到通用表述,只需要通用常識大模型不知道:為何“表現”對應于“近1年區間回報(%)”?大模型不知道:為何“消費基金”需要從基金名字進行查詢?未覆蓋

Schema枚舉問題生成SQL生成查詢糾正微調訓練僅通過約300條樣本的微調,對覆蓋的Schema部分達到97%問答準確率,且可繼續增加數據訓練針對大模型文檔問答的融合檢索方法問題:基于領域文檔的檢索+問答已經成為常見的流程,但現有方法召回率不高大模型問答中的知識檢索對于排序不敏感,但對于召回率和總長度較為關注稀疏檢索(如BM25)對領域中常見的精確問題檢索效果較好,但缺乏語義泛化性,召回率低稠密檢索(如BGE)模糊語義檢索效果較好,但容易召回語義相近但不準確的內容,精確率低方案:結合稀疏檢索和稠密檢索的結果,通過問題中實體的IDF信息控制兩種檢索結果的融合比例若問題中包含大量專有名詞,則應

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論