張功貫-大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐_第1頁(yè)
張功貫-大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐_第2頁(yè)
張功貫-大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐_第3頁(yè)
張功貫-大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐_第4頁(yè)
張功貫-大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

張功貫騰訊平臺(tái)智能技術(shù)架構(gòu)師多年負(fù)責(zé)搜、推、廣場(chǎng)景數(shù)據(jù)相關(guān)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)平臺(tái)及算法系統(tǒng)架構(gòu)設(shè)計(jì)與工程實(shí)現(xiàn)的數(shù)據(jù)工作經(jīng)驗(yàn);加入騰訊后,主要負(fù)責(zé)騰訊天穹大數(shù)據(jù)平臺(tái)的平臺(tái)智能自治、數(shù)據(jù)治理、智能化相關(guān)的系統(tǒng)架構(gòu)設(shè)計(jì)、工程實(shí)現(xiàn)以及業(yè)務(wù)落地的工作。演講主題:大語(yǔ)言模型在大數(shù)據(jù)研效場(chǎng)景中的智能化探索與實(shí)踐大數(shù)據(jù)的研效場(chǎng)景概述&痛點(diǎn)大數(shù)據(jù)研效場(chǎng)景的智能化思考未來(lái)思考與規(guī)劃大數(shù)據(jù)場(chǎng)景中的業(yè)務(wù)協(xié)作關(guān)系快、準(zhǔn)、穩(wěn)成本效率業(yè)務(wù)抽象數(shù)據(jù)科學(xué)家數(shù)據(jù)分析師 成本效率業(yè)務(wù)抽象數(shù)據(jù)湖穩(wěn)定數(shù)據(jù)組織數(shù)據(jù)湖穩(wěn)定數(shù)據(jù)倉(cāng)庫(kù)工程師數(shù)據(jù)計(jì)算數(shù)據(jù)存儲(chǔ)數(shù)據(jù)計(jì)算數(shù)據(jù)存儲(chǔ)運(yùn)維工程師大數(shù)據(jù)場(chǎng)景中各個(gè)角色的工作內(nèi)容存儲(chǔ)成本計(jì)算性能系統(tǒng)SLA系統(tǒng)兼容性系統(tǒng)計(jì)算能力底層技術(shù)底層技術(shù)數(shù)據(jù)倉(cāng)庫(kù)工程師(DE)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖、湖倉(cāng)一體ADS數(shù)據(jù)數(shù)據(jù)模型數(shù)據(jù)邏輯數(shù)據(jù)邏輯數(shù)據(jù)科學(xué)家/分析師(DA)業(yè)務(wù)指標(biāo)計(jì)算口徑數(shù)據(jù)報(bào)表業(yè)務(wù)歸因業(yè)務(wù)邏輯業(yè)務(wù)邏輯大數(shù)據(jù)的研效場(chǎng)景各個(gè)角色的關(guān)注點(diǎn)數(shù)據(jù)科學(xué)家/分析師(DA)數(shù)據(jù)倉(cāng)庫(kù)工程師(DE)快、準(zhǔn)、穩(wěn)效率成本通過(guò)業(yè)務(wù)數(shù)據(jù)如何快速推理出數(shù)據(jù)背后快、準(zhǔn)、穩(wěn)效率成本通過(guò)業(yè)務(wù)數(shù)據(jù)如何快速推理出數(shù)據(jù)背后穩(wěn)定業(yè)務(wù)需求如何快速轉(zhuǎn)化成技術(shù)邏輯的表穩(wěn)定業(yè)務(wù)需求如何快速轉(zhuǎn)化成技術(shù)邏輯的表達(dá)并計(jì)算取得想要的數(shù)據(jù)?倉(cāng)庫(kù)?并保存數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的質(zhì)量、離不開(kāi)成本、效率、穩(wěn)定性查問(wèn)題?如何以合理的計(jì)算/存儲(chǔ)資源大數(shù)據(jù)的研效場(chǎng)景中的智能化思路AI4Data的能力模型:圍繞成本、效效率?全鏈路診斷:解決作業(yè)運(yùn)行過(guò)程中的黑洞問(wèn)題,將作業(yè)運(yùn)行過(guò)程進(jìn)行全鏈路根因定位。成本?作業(yè)調(diào)優(yōu):基于專(zhuān)家經(jīng)驗(yàn)和黑盒算法進(jìn)行內(nèi)存和Core的優(yōu)化。?數(shù)據(jù)治理:針對(duì)表的存儲(chǔ)、生命周期、小文件等維度進(jìn)行優(yōu)化。穩(wěn)定性?異常感知:感知到單進(jìn)程粒度的狀態(tài)、性能、資源等維度數(shù)據(jù)信息。?異常告警:秒級(jí)感知到異常、失敗等狀態(tài)信息,進(jìn)行實(shí)時(shí)告知。SQL智能?SQL改寫(xiě):通過(guò)大語(yǔ)言模型來(lái)理解SQL包含的業(yè)務(wù)算法,通過(guò)改寫(xiě)SQL業(yè)務(wù)邏輯來(lái)對(duì)SQL計(jì)算進(jìn)行深度優(yōu)化。?SQL診斷:通過(guò)事前、事中、事后的能力構(gòu)建,快速幫助用戶(hù)定位到問(wèn)題,解決SQL中的邏輯錯(cuò)誤。數(shù)據(jù)智能?Text2SQL:是將自然語(yǔ)言文本(Text)轉(zhuǎn)換成結(jié)構(gòu)化查詢(xún)語(yǔ)言SQL,并將SQL結(jié)果給與展?ChatBI:針對(duì)BI報(bào)表的若干指標(biāo),進(jìn)行數(shù)據(jù)逇深度歸因分析,得出BI報(bào)表中的風(fēng)險(xiǎn)與機(jī)遇等分析相關(guān)的結(jié)論。湖倉(cāng)智能?智能索引/分區(qū)智能視圖/分層?執(zhí)行計(jì)劃優(yōu)化冷熱數(shù)據(jù)等大數(shù)據(jù)的研效場(chǎng)景中的智能化落地經(jīng)驗(yàn)碰到的問(wèn)題解決方案碰到的問(wèn)題規(guī)律輸入預(yù)測(cè)相結(jié)合解決方案碰到的問(wèn)題解決方案模型輸入預(yù)測(cè)歷史數(shù)據(jù)大數(shù)據(jù)的研效場(chǎng)景中的智能化落地AI4DataSystem的能力體系構(gòu)建之可觀測(cè)性JVM粒度數(shù)據(jù)采集滲透已基本覆蓋天穹平臺(tái)所有物據(jù)量在萬(wàn)億的規(guī)模指標(biāo)評(píng)估體系支撐到任務(wù)、進(jìn)程粒度的數(shù)據(jù)上卷和下大數(shù)據(jù)的研效場(chǎng)景中的智能化落地AI4DataSystem的能力體系構(gòu)建之診斷能力全鏈路診斷全鏈路診斷SQL執(zhí)行計(jì)劃的回放與診斷大數(shù)據(jù)的研效場(chǎng)景中的智能化落地AI4DataSystem的能力體系構(gòu)建之成本優(yōu)化白盒+黑盒的機(jī)制:白盒,采用歷史數(shù)據(jù)進(jìn)行趨勢(shì)預(yù)估預(yù)測(cè)。工干預(yù)。超過(guò)50%的內(nèi)存成本30%的CPU成本節(jié)省SQL-CopilotSQL優(yōu)化數(shù)倉(cāng)優(yōu)化SQL診斷SQL知識(shí)庫(kù)邏輯追蹤性能分析分層SQL合理性診斷…感知分析健康評(píng)估慢SQL-CopilotSQL優(yōu)化數(shù)倉(cāng)優(yōu)化SQL診斷SQL知識(shí)庫(kù)邏輯追蹤性能分析分層SQL合理性診斷…感知分析健康評(píng)估慢SQL影響分析毛刺分析數(shù)倉(cāng)合理性分析優(yōu)化收益分析資源分析…根因診斷資源診斷性能診斷邏輯追蹤物理執(zhí)行計(jì)劃診斷異常錯(cuò)誤診斷延遲/內(nèi)存診斷…空間優(yōu)化熱點(diǎn)優(yōu)化SQL改寫(xiě)優(yōu)化AddHints優(yōu)化參數(shù)優(yōu)化數(shù)倉(cāng)優(yōu)化ODS層優(yōu)化改寫(xiě)DWD層優(yōu)化改寫(xiě)DWS層優(yōu)化改寫(xiě)ADS層優(yōu)化改寫(xiě)SQL知識(shí)庫(kù)語(yǔ)法錯(cuò)誤碼庫(kù)引擎異常錯(cuò)誤碼庫(kù)基于引擎的異常解決基于引擎的計(jì)算特性基于方言的語(yǔ)法兼容主機(jī)數(shù)據(jù) SQL/日志 全量查詢(xún)慢SQL 實(shí)例數(shù)據(jù) 其他 變更歷史監(jiān)控指標(biāo) 技術(shù)數(shù)據(jù)湖倉(cāng)大數(shù)據(jù)的研效場(chǎng)景中的智能化落地●SQL優(yōu)化SQL優(yōu)化改寫(xiě),依據(jù)用戶(hù)寫(xiě)的SQL,解決SQL運(yùn)行過(guò)程中的運(yùn)行慢問(wèn)題。●SQL生成ChatBI/Text2SQL針對(duì)數(shù)據(jù)分析場(chǎng)景,通過(guò)LLM技術(shù),將自然語(yǔ)言轉(zhuǎn)成SQL并進(jìn)行數(shù)據(jù)分析,總結(jié)結(jié)論。幫助用戶(hù)快速解決幫助用戶(hù)快速解決SQL運(yùn)行異常的問(wèn)題,運(yùn)行異常包含本身引擎執(zhí)行失敗和運(yùn)行成功得到錯(cuò)誤的數(shù)據(jù)。數(shù)倉(cāng)優(yōu)化ChatBIChatBI/Text2SQL針對(duì)數(shù)據(jù)分析場(chǎng)景,通過(guò)LLM技術(shù),將自然語(yǔ)言轉(zhuǎn)成SQL并進(jìn)行數(shù)據(jù)分析,總結(jié)結(jié)論。數(shù)據(jù)生產(chǎn)部分進(jìn)行數(shù)據(jù)深度加工數(shù)據(jù)生產(chǎn)部分進(jìn)行數(shù)據(jù)深度加工,從源頭數(shù)據(jù)ETL到數(shù)倉(cāng)建模。整個(gè)過(guò)程重度依賴(lài)SQL。的文本長(zhǎng)。分析作業(yè)運(yùn)行慢,業(yè)務(wù)結(jié)果優(yōu)化等等。重點(diǎn)關(guān)注SQL的計(jì)算、異常、穩(wěn)定性等問(wèn)題。大數(shù)據(jù)的研效場(chǎng)景中的智能化落地?cái)?shù)據(jù)分析部分?jǐn)?shù)據(jù)需求多,業(yè)務(wù)需求非固需求比較急迫。大數(shù)據(jù)生態(tài)SQL自動(dòng)生成、診斷、SQL優(yōu)化等數(shù)倉(cāng)生產(chǎn)、數(shù)據(jù)分析工作,之前的解決方案上,絕大大部分是從既定的SQL邏輯往引擎下層推進(jìn)。缺乏對(duì)業(yè)務(wù)邏輯算法重構(gòu)的能力,而LLM的出現(xiàn),突破了這層限制。SQL大數(shù)據(jù)場(chǎng)景的核心角色大數(shù)據(jù)的研效場(chǎng)景中的智能化落地AI4DataWareHouse之SQL度考慮是否需要計(jì)算長(zhǎng)周期的數(shù)據(jù)。基于業(yè)務(wù)的SQL優(yōu)化基于系統(tǒng)引擎的優(yōu)化改進(jìn)更多業(yè)務(wù)邏輯、業(yè)大數(shù)據(jù)的研效場(chǎng)景中的智能化落地AI4DataWareHouse之SQL-Co大模型業(yè)務(wù)落地過(guò)程中的“攔路虎”4.業(yè)務(wù)結(jié)果可評(píng)測(cè)性問(wèn)題業(yè)界大語(yǔ)言模型業(yè)務(wù)落地過(guò)程中的關(guān)鍵問(wèn)題暴力掃描數(shù)據(jù)傾斜暴力掃描數(shù)據(jù)傾斜大數(shù)據(jù)的研效場(chǎng)景中的智能化落地?cái)?shù)據(jù)可視化元數(shù)據(jù)查詢(xún)效果驗(yàn)證抽樣驗(yàn)證元數(shù)據(jù)查詢(xún)可驗(yàn)證問(wèn)題?模型微調(diào)模型微調(diào)理解理解任務(wù)拆解規(guī)劃設(shè)計(jì)對(duì)齊意圖大語(yǔ)言模型(LLM)對(duì)齊意圖知識(shí)庫(kù)這里通過(guò)問(wèn)題分類(lèi)來(lái)重構(gòu)CoT思路,讓LLM能夠有針對(duì)性的提供解決方案。知識(shí)庫(kù)Join優(yōu)化WithAsJoin優(yōu)化WithAs優(yōu)化多Distinct等等大數(shù)據(jù)的研效場(chǎng)景中的智能化落地大語(yǔ)言模型中的幻覺(jué)問(wèn)題和可迭代性問(wèn)題解決方案有效減少幻覺(jué)問(wèn)題通過(guò)垂直化來(lái)提升可迭代性SQL問(wèn)題分類(lèi)模型效果驗(yàn)證數(shù)據(jù)可視化SQL問(wèn)題分類(lèi)模型效果驗(yàn)證抽樣驗(yàn)證元數(shù)據(jù)查詢(xún)抽樣驗(yàn)證工具工具模型微調(diào)任務(wù)拆解規(guī)劃設(shè)計(jì)對(duì)齊意圖理解執(zhí)行生成多模態(tài)大語(yǔ)言模型(LLM)程SQL智能體-----b模型微調(diào)任務(wù)拆解規(guī)劃設(shè)計(jì)對(duì)齊意圖理解執(zhí)行生成多模態(tài)大語(yǔ)言模型(LLM)程SQL智能體-----b知識(shí)庫(kù)按問(wèn)題分類(lèi)的子PromptWithAs優(yōu)化nct暴力掃描等Join優(yōu)化Join優(yōu)化通用指令集通用指令集暴力掃描數(shù)據(jù)傾斜優(yōu)化診斷MapJoin、WithAs優(yōu)化Join優(yōu)化多暴力掃描數(shù)據(jù)傾斜優(yōu)化診斷MapJoin、MapJoin、WithAs優(yōu)化暴力掃描Join優(yōu)化多Distinct等等數(shù)據(jù)傾斜大數(shù)據(jù)的研效場(chǎng)景中的智能化落地大語(yǔ)言模型中的可評(píng)測(cè)性的解決方案數(shù)據(jù)可視化元數(shù)據(jù)查詢(xún)效果驗(yàn)證元數(shù)據(jù)查詢(xún)工具模型微調(diào)工具理解理解執(zhí)行生成多模態(tài)程SQL智能體規(guī)劃設(shè)計(jì)大語(yǔ)言模型(LLM大語(yǔ)言模型(LLM)知識(shí)庫(kù)優(yōu)化優(yōu)化大數(shù)據(jù)的研效場(chǎng)景中的智能化落地SQL智能體SQL優(yōu)化改寫(xiě)的落地針對(duì)多個(gè)Count(Distinct)優(yōu)化最終結(jié)果大數(shù)據(jù)的研效場(chǎng)景中的智能化落地SQL智能體SQL優(yōu)化改寫(xiě)的落地針對(duì)IN(SELECT)的場(chǎng)景優(yōu)化最終結(jié)果最終結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論