




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
全球機器學習技術大會主辦方合作伙伴異步社區wwwwnuhitwww.epuDl.Co清華大學出版社TSINGHUAUNIVERSITYPRESS清華大學出版社TSINGHUAUNIVERSITYPRESSCHINAMACHINEPRESS2025技術會議一技術人的思想盛宴2025技術會議一技術人的思想盛宴全球機器學習04月18-19日上海10月17-18日北京全球產品經理大會6月6-7日北京Summit全球軟件研發8月15-16日上海全球全球C++及系統軟件技術大會12月12-13日北京SoftwareSummitAIGC怏空2024長沙中國12024長沙中國1I111!!!2020-2024產品評測客戶案例活動整理專題權威出版大模型驅動軟件開發智能化的四大誤區《新程序員》聚集全球技術大師、行業技術先鋒,從前沿技術到《中國開發者調查報告》中國樣本豐富的開發者調查報告,目前已成為完整準確了解中國開發者市場的重要參考資料。CSDNCSDN掃碼購買最新版程序員雜志Al掃碼購買最新版程序員雜志MLML-Summit2024全球機器學習技術大會張俊林新浪微博首席科學家、新技術研發負責人中國中文信息學會理事,中科院軟件所博士。目前擔任新浪微博技術研發負責人,在此之前在阿里巴巴擔任資深技術專家,負責新技術團隊。《這就是搜索引擎:核心技術詳解》、《大數據日知錄:架構與算法》的作者,目前主要研發興趣集中在推薦系統及自然語言處理演講主題:OpenAlo1技術原理解析ML-SummitML-Summit2024全球機器學習技術大會OpenAlo1技術原理解析MLML-Summit2024全球機器學習技術大會小OpenAlo1模型的意義小o1的可能訓練過程小強化學習與LLM融合構造01模型全球機器學習技術大會全球機器學習技術大會人類大腦擅長快思考的系統1和擅長慢思考的系統2,GPT4類似于大腦中的系統1,OpenAIo1類似于大腦中的系統2。系統1系統2系統17慢慢刻意練習復雜決策下意識自動人類大腦的兩套系統人類大腦的兩套系統全球機器學習技術大會o1全球機器學習技術大會復雜邏輯推理能力的極大提升復雜邏輯推理能力的極大提升全球機器學習技術大會全球機器學習技術大會ScalingLaw是驅動最近幾年大模型發展的主要因素,目前面臨因數據短缺而曲線開始平緩的階段,不可持續。5.0-5.0-4.03.0-2.0-Compute大模型發展的第一驅動力:ScalingLaw全球機器學習技術大會全球機器學習技術大會o1AIMEo1AIMEaccuracyo1RLTrain-timeScalingo1Inference全球機器學習技術大會全球機器學習技術大會O1-mini的效果在某些場景甚至比規模大的多的o1-Preview要好。AIMEAIME全球機器學習技術大會o1為小模型發展掃清了障礙全球機器學習技術大會 “能力分治”模式推進小模型技術發展:把語言、世界知識及邏輯推理三個能力解耦,語言能力靠小模型自身、邏輯推理LanguageLogicKnowledge01引發的安全對齊新模式MLML-Summit2024全球機器學習技術大會RevisesharmfulAlresponsesthroughiterativeself-critiqueandfine-tuning.UsesAlevaluationsofresponsesaccordingtoconstitutionalprinciplestogeneratepreferencedataforharmlessnessandusesittotrainanewmodelviaReinforcementLearningfromAIFeedback.UsesAlevaluationsofresponsesaccordingtoconstitutionalprinciplestogeneratepreferencedataforharmlessnessandusesittotrainanewmodelviaReinforcementLearningfromAIFeedback.4.AIGENERATESDATASETOFPREFERENCESFORHARMLESSNESSapproachthatharnessestheirreasoningcapabilitiestomakethemadheretosafetyandalignmentguidelines.Bybeingabletoreasonaboutoursafetyrulesincontext,itcanapplythemmore4.AIGENERATESDATASETOFPREFERENCESFORHARMLESSNESSUSINGTHENEWPREFERENCEMODEL(RLAIF)4.TRAINPREFERENCEMODEL2.CRITIQUEANDREVISERESPONSE “深度思考”在復雜任務中的廣泛應用-大模型搜索全球機器學習技術大會深度思考能力善于解決長鏈條復雜任務,目前在LLM搜索已廣泛采用,也會快速拓展到更多應用領域。perplexity.ai類似產品:Kimi探索版、ChatGPT搜索發布日期:2024年10月15日OpenAlco-founder,trackingwhentheyleavethecompanyandhighlightingwheretheywork特點:特點:Co-founderNameSamAltmanLeftOpenAICurrentWorkplace√將復雜問題拆解成若干子查詢,通過復雜推理集成最終搜索1結果√Perplexity集成Co-founderNameSamAltmanLeftOpenAICurrentWorkplace20182ElonMusk√20182ElonMusk2024-05-14llyaSutskever2024-05-14+Askfollow-upVickiCheung2017-12-01a(OpenAI所有聯合創始人何時離開公司以及現在在哪個公司)MLML-Summit2024全球機器學習技術大會小OpenAIo1模型的意義小o1的可能訓練過程小強化學習與LLM融合構造01模型全球機器學習技術大會OpenAIol的在線推理過程全球機器學習技術大會oyfjdnisdroyfjdnisdrrtqwainracxzmynzbhhx->ThinkstepUsetheexampleabovetodecode:oyekaijzdfaaptcgsuaokybhaiouowaqhtmynznvaatzacdfoulxxzFirst,whatisgoingonhere?Wearegiven:First,anexample:"oyfjdnisdrrtqwainracxzmynzbhhx->ThinkstepWecanseethatwhen"oyfjdnisdrrtqwainracxzmynzbhhx"istransformedto"Thinkstepbystep"Todecodethegivenciphertextusingtheexampleprovided,we'llusethepatternidentifiedintheexample.CiphertextExample:1oyfjdnisdrrtqwainrac3.HiddenCOT摘要1THEREARETHREER'SINSTRAWBERRY全球機器學習技術大會全球機器學習技術大會基礎能力服從指令/內容安全基礎能力Pre-TrainingPost-TrainingInference思考/COT摘要生成答案基礎能力(增強邏輯)服從指令(增強邏輯)思考/COT摘要生成答案全球機器學習技術大會大概率是不對的,也要重視增強基座模型的基礎邏輯能力,兩者相互促進。PerformanceItemPerformanceItemDifficulty=(0.85,0.4)NumberofLLMCallsNumberofLLMCallsItemDifficulty=(0.85,0.3)隨著邏輯題目難度上升/集theScalingPropertiesofCompoundAISystems—α(easyfraction)=0.4—α(easyfraction)=0.5—α(easyfraction)=0.6OpenAIOpenAIo1發布之前的研究結論全球機器學習技術大會只強調Inference-TimeScaling大概率是不對的,也要重視增強基座模型的基礎邏輯能力,兩者相互促進。pass@pass@laccuracyjustaskol-minimajorityi40·/hughbzhang/status/1838288NN全球機器學習技術大會最小構成:主模型+COT摘要模型。producingdisallowedcontentinthesesummaries.Wefindthemodelhasstrongperformancehere.summarycontaineddisfoundthatthishappensinonly0.06%ofcompletions.Additionally,wepromptedol-previewwith全球機器學習技術大會gpt-4ogpt-4o-2024-08-06gpt-4o-2024-05-13Pricing$5.00/1Minputtokens$15.00/1Moutputtokens$2.50/1Minputtokens$10.00/1Moutputtokens$5.00/1Minputtokens$15.00/1Moutputtokens$2.50/1Minputtokens$7.50/1Moutputtokens$5.00/1Moutputtokens$2.50/1Minputtokens$7.50/1MoutputtokensVS.$15.00/1Minputtokens$60.00/1Moutput*tokensModelgpt-4o-mini$0.600/1Moutputtokens$0.600/1Moutputtokens$0.075/1Minputtokens$0.300/1MoutputtokensVS.$0.075/1Minputtokens$0.300/1Moutputtokens01-mini-2024-09-12$12.00/1Moutput*tokens$12.00/1Moutput*tokensNN全球機器學習技術大會MLML-Summit2024全球機器學習技術大會模型的意義小o1的可能訓練過程小強化學習與LLM融合構造o1模型強化學習(ReinforcementLearning,RL)基礎(1/4)全球機器學習技術大會1.Agent觀察世界2.Agent改變狀態3.Agent作出行為,對外部世界有某種影響希望在這個過程中獲得最大收益希望在這個過程中獲強化學習(ReinforcementLearning,RL)基礎(2/4)全球機器學習技術大會變自己的狀態(State)獲得獎勵(Reward)與環境(Environment)發生交互的循環過程。AMarkovDecisionProcessisatuple(S,A,P,R,γ〉狀態采取行為a后轉移■Risarewardfunction,Rs=E[Rt+1|St=s,At=a]全球機器學習技術大會強化學習(ReinforcementLearning,RL)全球機器學習技術大會目標:自動駕駛汽車行駛路程越遠越好越快FastSlowSlowSlowSlowFastFast全球機器學習技術大會強化學習(ReinforcementLearning,RL)基礎(4/4)全球機器學習技術大會DensestateS01中強化學習的狀態空間(1/2)全球機器學習技術大會關于01的RL狀態空間,首先的問題是:這個狀態空間是離散的還是連續的?大概率是連續狀態空間,或者說最好把它看成是連續狀態空間。format'[1,2],3,4],5,Sotheuserisrequestingathatcantakeastringrepresenmatrix,suchas'[1,2],3,4],5,6]'andformat'[1,2],3,4],5,State1Token序列組成的連續狀態空間01中強化學習的狀態空間(2/2)MLML-Summit2024全球機器學習技術大會是連續狀態空間。各種操控動作作為離散行為空間SotheuserisrequestingabashscriptO1:LLM+RLnojoVnOCnojoVnOC兩者類似Prompt:Writeabashscriptthattakesamatrixrepresentedasastringwith兩者類似format'[1,2],[3,4],[5,6]'andprintsthetransposeinthesameformat.01:Token序列作為連續狀態空間輸入RL打Atari游戲:圖像作為連續狀態空間輸入和游戲RL的類比全球機器學習技術大會01中強化學習的行為空間(1/2)全球機器學習技術大會人在思考復雜問題時,有比較固定且數量并不太多的“思考模式”或者可以叫“思考因子”。比如拿到一個復雜問題,我們一般會首先明確這個問題的目標是什么,然后把復雜問題拆解成幾個環節或者步驟,為了得到某一個具體步驟的解法,可能會提出一個假設,然后驗證這個假設是否成立,如果不成立,那么繼續提出新的假設,直到解決這個子問題…Sum:15+25=40Sum:15+25=40Alternatively,perhapssubtract:25-15=10.plaintextfromtheciphert提出猜測否定猜測提出猜測從HiddenCOT從HiddenCOT可以歸納出一些典型的人類思考問題的一些隱含的“思考因子”Alternatively,perhapscombinethenumbersinsomeway.Alternatively,thinkabouttheirpositionsinthealphabet.Alternatively,perhapstheletter提出候選方案Wait,earlierImissedLet'sre-expresstheSoSotheuserisrequestingabashscriptthatcantakeastringrepresentingamatrix,suchas'[1,2],[3,4],[5,6]'andoutputitstranspose,inthesameformat.自我發現&修正錯誤Approach:-Parsetheinputstringtoextractthematrixelements.-Buildthematrixasanarrayofarrays.-Transposethematrix.01中強化學習的行為空間(2/2)全球機器學習技術大會習調整因子標簽內部Token的生成概率。■outputformats.....O1:LLM+RLamatrixrepresentedasastringwithformat'[1,2],3,4],[5,6]'andprintsthetransposeinthesameformat.AppendACTRephraseTarget-Starl>Sotheuserisrequestingabashscriptthatcantakeastringrepresentingamatrix,suchas'[
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滾針操作流程護理
- 臨床護理帶教老師
- 避孕藥知識培訓課件下載
- 物聯網行業分析24
- 移動互聯網技術產業進展與發展趨勢講義
- 湖北省孝感市漢川市第二中學2024-2025學年3月高三適應性考試(一)語文試題含解析
- 廣西職業師范學院《數字移動通信原理》2023-2024學年第二學期期末試卷
- 浙江中醫藥大學《口腔頜面外科學》2023-2024學年第二學期期末試卷
- 大理白族自治州巍山彝族回族自治縣2025年三下數學期末學業質量監測模擬試題含解析
- 桂林電子科技大學《水資源利用與管理》2023-2024學年第一學期期末試卷
- 第五屆綿陽市職業技能大賽賽項技術文件-焊工技術文件
- 拉森鋼板樁支護施工方案
- 2025年荊門市水務局事業單位公開招聘工作人員招聘歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 六年級《盼》說課
- 云南省2025年七年級下學期語文月考試卷含答案
- 2025年中國冶金地質總局三局校園招聘48人筆試參考題庫附帶答案詳解
- 娛樂行業藝人經紀部年度工作總結
- 第十八屆“地球小博士”全國地理知識科普競賽題庫(附答案)
- 實驗室管理團隊建設與文化建設
- 2025年發展對象考試題庫附含答案
- 創業思維-創造你喜愛的人生知到智慧樹章節測試課后答案2024年秋浙江旅游職業學院
評論
0/150
提交評論