豆包MarsCode智能編程的探索實(shí)踐_第1頁
豆包MarsCode智能編程的探索實(shí)踐_第2頁
豆包MarsCode智能編程的探索實(shí)踐_第3頁
豆包MarsCode智能編程的探索實(shí)踐_第4頁
豆包MarsCode智能編程的探索實(shí)踐_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

江波字節(jié)跳動(dòng)豆包MarsCode團(tuán)隊(duì)算法專家碩士畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所,研究領(lǐng)域包括大規(guī)模分布式訓(xùn)練、代碼領(lǐng)域模型等。作為豆包MarsCode代碼補(bǔ)全、代碼補(bǔ)全Pro、代碼問答等AI功能算法負(fù)責(zé)人,負(fù)責(zé)代碼領(lǐng)域模型調(diào)優(yōu)、推理加速以及更多開發(fā)者AI功能孵化。長期致力于軟工任務(wù)與大模型的結(jié)合與實(shí)用化落地,在代碼補(bǔ)全、代碼生成以及代碼理解等AI能力產(chǎn)品化有豐富的實(shí)踐經(jīng)驗(yàn)。演講主題:豆包MarsCode,智能編程的探索實(shí)踐品化落地。AI輔助編程的發(fā)展歷程預(yù)訓(xùn)練模型深度學(xué)習(xí)時(shí)期機(jī)器學(xué)習(xí)時(shí)期早期使用規(guī)則使用預(yù)訓(xùn)練大模型進(jìn)行預(yù)測(cè),誕生了使用深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè),使用深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè),egLSTM和Seq2Seq進(jìn)行缺陷分析,預(yù)測(cè)潛在問題基于靜態(tài)分析和規(guī)則,通過分析代碼的語法和結(jié)構(gòu)來進(jìn)行預(yù)測(cè)進(jìn)行缺陷分析,預(yù)測(cè)潛在問題已經(jīng)接近20年的歷史代碼大語言模型興起基于LLM方案的優(yōu)勢(shì):?泛化能力強(qiáng),易于擴(kuò)展新的規(guī)則/語言/框架提升代碼補(bǔ)全場(chǎng)景下的性能豆包MarsCode產(chǎn)品歷程?2022年初開始探索LLM驅(qū)動(dòng)的代碼補(bǔ)全產(chǎn)品?組建算法、工程和產(chǎn)品一體的智能編程助手團(tuán)隊(duì)?構(gòu)建代碼LLM評(píng)測(cè)集和自動(dòng)評(píng)測(cè)系統(tǒng)?構(gòu)建數(shù)據(jù)鏈路和線上A/B測(cè)試體系?補(bǔ)全模型切換到豆包大模型?引入代碼補(bǔ)全Pro功能豆包MarsCode與豆包大模型豆包大模型升級(jí)支撐應(yīng)用革新豆包豆包MarsCodeCopilot/NativeIDE智能體Embedding/RerankerDoubao-proOther代碼生成碼?交互方式仍在持續(xù)摸索迭代中。代碼補(bǔ)全-預(yù)測(cè)下一個(gè)字符?下拉列表選擇→GhostTe?發(fā)揮模型在多行補(bǔ)全上的優(yōu)勢(shì)體?Context-aware代碼補(bǔ)全-原理?倉庫級(jí)上下文采集引擎?語法感知的前后處理策略代碼補(bǔ)全-核心三要素基于靜態(tài)分析工具對(duì)補(bǔ)全代基于靜態(tài)分析工具對(duì)補(bǔ)全代的連貫以及語法完整性。延。代碼補(bǔ)全-自研模型?模型結(jié)構(gòu)及訓(xùn)練策略?采納率可以被直觀感受到了,帶來多巴胺刺激?但采納率容易被操縱,無法帶來優(yōu)化指導(dǎo)意見。?需要找到平衡點(diǎn),不能一味追求某個(gè)指標(biāo)價(jià)值不夠發(fā)人員幾乎總是在建議顯示之前就采取了下一步行動(dòng)。也許采納率還不錯(cuò),但交付的實(shí)際價(jià)值卻很差。候不要推薦多行block等等。?這是一個(gè)經(jīng)常被公開引用的度量標(biāo)準(zhǔn),但一味追求采納率會(huì)帶來誤導(dǎo)。?如果一個(gè)大語言模型的每個(gè)token生成了更多字符,實(shí)際?實(shí)踐思路:基于代碼基座模型,通過大量開源倉庫歷史Commit中建模從歷史編輯生成當(dāng)前編輯推薦。CoEdPilot整體架構(gòu)過程中下一步的行為受到近5分鐘的行為所決定)?下一個(gè)編輯位置預(yù)測(cè):實(shí)現(xiàn)單文件多處、倉庫內(nèi)跨文件編輯點(diǎn)位預(yù)測(cè)與跳轉(zhuǎn)。來逐步獲取執(zhí)行鏈路的上下文)?SWE-benchLite是由普林斯頓大學(xué)提出的一個(gè)和創(chuàng)業(yè)團(tuán)隊(duì)的廣泛關(guān)注。?截圖來自于SWE-BenchLite排行榜維護(hù)人JohnYang也在X中明確指出“BytedanceMarsCode?快速上手熟悉代碼倉庫?倉庫級(jí)代碼生成/代碼編輯?快速索引代碼知識(shí)圖譜?如何剪枝出最合適的上下文保證召回信息完備性相關(guān)上下文Claude3.5sonnet支持2M窗口?動(dòng)態(tài)Prompt渲染:有限Token限制下實(shí)現(xiàn)最優(yōu)解?模型知識(shí)的時(shí)效性和幻覺。?通過聯(lián)網(wǎng)來補(bǔ)充上下文代碼大模型模型的展望?模型結(jié)構(gòu)與效率提升計(jì)算友好的模型結(jié)構(gòu)能夠大幅降低模型延產(chǎn)品交互體驗(yàn)。強(qiáng)模型在復(fù)雜任務(wù)中的表現(xiàn)AI輔助編程→AI驅(qū)動(dòng)編程??AI思考過程的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論