




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
中文大模型基準(zhǔn)測評2025年3月報告—2025中文大模型階段性進展3月評估SuperCLUE團隊2025.03.18精準(zhǔn)量化通用人工智能(AGI)進展,定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI.報告目錄一、2025年度關(guān)鍵進展及趨勢?2025年大模型關(guān)鍵進展?2025年值得關(guān)注的中文大模型全景圖?2025年國內(nèi)外大模型差距三、總體測評結(jié)果與分析?SuperCLUE通用能力測評總榜?SuperCLUE模型象限?SuperCLUE推理模型總榜?SuperCLUE推理任務(wù)總榜?SuperCLUE基礎(chǔ)模型總榜?性價比區(qū)間分布?綜合效能區(qū)間分布?國內(nèi)大模型成熟度-SC成熟度指數(shù)?評測與人類一致性驗證?開源模型榜單?10B級別小模型榜單?端側(cè)5B級別小模型榜單二、年度通用測評介紹?SuperCLUE基準(zhǔn)介紹?SuperCLUE大模型綜合測評體系?SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式?各維度測評說明及示例?測評模型列表四、DeepSeek系列模型深度分析?DeepSeek-R1及其蒸餾模型對比?DeepSeek-R1和國內(nèi)外頭部推理模型對比?DeepSeek-R1第三方平臺聯(lián)網(wǎng)搜索能力測試(網(wǎng)頁端)?DeepSeek-R1第三方平臺穩(wěn)定性測試報告摘要(一)?o3-mini(high)穩(wěn)居第一,推理能力全面領(lǐng)先o3-mini(high)在SuperCLUE-3月評測中表現(xiàn)卓越,以76.01分和84.51分穩(wěn)居總榜和推理任務(wù)總榜第一,雙榜均領(lǐng)先國內(nèi)第一近5分,展現(xiàn)出?推理模型較基礎(chǔ)模型優(yōu)勢明顯,且國內(nèi)較海外頭部推理模型略有領(lǐng)先國內(nèi)模型推理DeepSeek-R1在總榜上領(lǐng)先Claude3.7任務(wù)榜單上領(lǐng)先Gemini-2.0-Flash-Thinking?大模型在推理速度和性價比的兩級分化逐漸明顯國內(nèi)推理模型DeepSeek-R1和QwQ-32B雖然推理任務(wù)上表現(xiàn)出色,但推理時間也隨之變長;在性價比方面,DeepSeek、Qwen系列模型具有極高的性價比優(yōu)勢,但Claude3.7Sonnet由于?小參數(shù)模型表現(xiàn)超出預(yù)期多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是DeepSeek-R1-Distill系列,其中7B和3數(shù)據(jù)來源:SuperCLUE,2025年3月18日;推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、數(shù)據(jù)來源:SuperCLUE,2025年3月18日??茖W(xué)推理和代碼的平均分。開源模型如QwQ-數(shù)據(jù)來源:SuperCLUE,2025年3月18日。輸入tokens與輸出tokens3:1的比例來估算其整體價格。價格信息取自官方在3月的標(biāo)準(zhǔn)價格(非優(yōu)惠價格)。45第1部分2025年度關(guān)鍵進展及趨勢1.2025年大模型關(guān)鍵進展2.2025年值得關(guān)注的中文大模型全景圖3.2025年國內(nèi)外大模型差距62025年大模型關(guān)鍵進展具體可分為:準(zhǔn)備期、躍進期、繁榮期和深化期。關(guān)鍵進展?ChatGPT發(fā)布,全球范圍內(nèi)迅速形成大模型共識。?GPT4發(fā)布,進一步掀起大模型研發(fā)熱潮。?國內(nèi)快速跟進大模型研發(fā)。文心一言腦、ChatGLM等首批模型相繼發(fā)布。開發(fā)者生態(tài)。?GPT-4Turbo、Gemini等海外大模型發(fā)布,繼續(xù)提升模型性能。元、商量3.0、盤古3.0、AndesGPT、BlueLM、星火3.0等陸續(xù)發(fā)布。Yi-34B等系列模型引領(lǐng)開源熱潮。視頻領(lǐng)域的想象力。入“一超多強”的競爭格局。續(xù)發(fā)布,并在海外取得較大應(yīng)用進展。?國內(nèi)通用模型持續(xù)提升。Qwen2.5、型陸續(xù)更新。前者推動成本效益推理,后者展現(xiàn)出較高的情感智能。Claude-3.7-Sonnet、Grok3發(fā)布,海外推理模型引發(fā)熱潮,推理性能大幅度提升。破推理能力的上限。勢持續(xù)推動行業(yè)技術(shù)普惠化進程。2022.12時間通用閉源AndesGPTZTE中興MINIMAX通用開源Deepseek-v3Hunyuan-LargeMiniMax-01TeleChat2-35B推理Qwen-QWQ-32BDeepSeek-R1K1.5長思考360gpt2-o1實時交互星火極速智譜清言通義APP視覺理解視覺理解訊飛語音合成百度TTSCosyVoice文生圖部分領(lǐng)域醫(yī)療BA醫(yī)聯(lián)MedGPTJli百川AI全科醫(yī)生......教育汽車極氪Kr大模型易車大模型教育汽車極氪Kr大模型易車大模型金融妙想金融大模型軒轅大模型......工業(yè)奇智孔明AInno-15B華為盤古工業(yè)大模型......更多行業(yè)法律:AI4S:DP'深勢分子大模型......82025年國內(nèi)外大模型差距?總體趨勢上,國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最但隨著DeepSeek–R1的發(fā)布,差距從15.05%縮小至7.46%。SuperCLUE基準(zhǔn):過去23個月國內(nèi)外TOP大模型對比趨勢GPT最新模型(GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.476.01國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.370.34國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.366.38國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.464.69來源:SuperCLUE,2023年5月~2025年3月,期間發(fā)布的15次大模型基9第2部分年度通用測評介紹1.SuperCLUE基準(zhǔn)介紹2.SuperCLUE大模型綜合測評體系3.SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式4.各維度測評說明及示例5.測評模型列表SuperCLUE基準(zhǔn)介紹LanguageUnderstandingEvaluation)發(fā)起于2019年,陸續(xù)推出過CLUE、FewCLUE、ZeroCLUE等廣為引用的測評基準(zhǔn)。201920202021202220232024.01-062024.07-09CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文,并承辦了NLPCC2020開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語義中文領(lǐng)域首個通用大模型測評基準(zhǔn)SuperCLUE正式發(fā)布理解數(shù)據(jù)集發(fā)布首個中文多輪開放式測評基準(zhǔn)SuperCLUE-Open;發(fā)布行業(yè)測評基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn);發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手、實時交互等AI應(yīng)用測評基準(zhǔn);發(fā)布智能座艙測評基準(zhǔn)。發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE發(fā)布數(shù)學(xué)競賽、科學(xué)推推理測評基準(zhǔn);發(fā)布實時音視頻、視覺語言多模態(tài)測評基準(zhǔn)發(fā)布DeepSeek第三方平臺性能基準(zhǔn)VSSupe\\“Live”更新,“Live”更新,0數(shù)據(jù)污染測評題庫每2個月100%替換且全部原創(chuàng),杜絕過擬合風(fēng)險。體系維度根據(jù)大模型進展Live更新。測評方式與用戶交互一致測測評方式與用戶交互一致測評方法與用戶交互方式保持一致,測評任務(wù)貼近真實落地場景,高度還原用戶視角。獨立第三方,無自家模型獨立第三方,無自家模型諾提供無偏倚的客觀、中立評測結(jié)果。SuperCLUE大模型綜合測評體系重要參考。SuperCLUE大模型綜合測評基準(zhǔn)框架通用基準(zhǔn)文本專項基準(zhǔn)多模態(tài)基準(zhǔn)推理基準(zhǔn)通用基準(zhǔn)文本專項基準(zhǔn)多模態(tài)基準(zhǔn)推理基準(zhǔn)AI產(chǎn)品AI產(chǎn)品AgentCLUE已發(fā)布即將發(fā)布注:通用基準(zhǔn)介紹可在報告中查看,其余可點擊可跳轉(zhuǎn)最新的測評文章SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式本次2025年3月報告聚焦通用能力測評,由六大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1509道多輪簡答題?!維uperCLUE通用數(shù)據(jù)集】分為數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作;【SuperCLUE評價方式】分為基于人工校驗參考答案的評估(0–1得分)、基于代碼單元測試的評估(0–1得分)、結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(0–1得分)、基于規(guī)則腳本的評估(0–1得分)、人工校驗參考答案的、多維度評價標(biāo)準(zhǔn)的評估。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價方式1.數(shù)學(xué)推理介紹:主要考察模型運用數(shù)學(xué)概念和邏輯進行多步推理和問題解答的能力。包括但不限于平面幾何、代數(shù)、初等數(shù)論、組合問題等競賽級的數(shù)學(xué)推理數(shù)據(jù)集。評價方式:基于人工校驗參考答案的評估(0-1得分)4.智能體Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。評價方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評2.科學(xué)推理介紹:主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式:基于人工校驗參考答案的評估(0-1得分)5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價方式:基于規(guī)則腳本的評估(0-1得分)3.代碼生成介紹:主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。HumanEval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。評價方式:基于代碼單元測試的評估(0-1得分)6.文本理解與創(chuàng)作介紹:主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。評價方式:人工校驗參考答案的、多維度評價標(biāo)準(zhǔn)數(shù)學(xué)推理測評說明SuperCLUE–數(shù)學(xué)推理評測數(shù)據(jù)集數(shù)學(xué)推理主要考察模型運用數(shù)學(xué)概念和邏輯進行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、初等數(shù)論、概率與統(tǒng)計、三角學(xué)、數(shù)列與極限數(shù)據(jù)集。測評方法評測流程:我們采用模型評價的方式來評估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯以【代數(shù)學(xué)】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考問題:設(shè)?,y為實數(shù),且滿足sinz+siny=sin(a+y).求coszc+cosy的所有可能取值。<篇幅有限省略>問題及改進的反饋意見:模型的回答邏輯清晰,步驟詳盡,且最終結(jié)論與參考答案一致??茖W(xué)推理測評說明SuperCLUE–科學(xué)推理評測數(shù)據(jù)集科學(xué)推理等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。測評方法評測流程:我們采用模型評價的方式來評估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯以【物理】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目<篇幅有限省略>問題及改進的反饋意見:AI助手的回答清晰地分解了問題,使用了器的旅行時間,并且最終結(jié)果與參考答案一致。唯一的不足是,雖然答案的精度足夠,但可以進AI助手的最終答案為\(\boxed{4.39\,\text{年}}\),與參考答案“約4.4年”在數(shù)值上本質(zhì)一代碼生成測評說明SuperCLUE–代碼生成評測數(shù)據(jù)集代碼生成主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。HumanEval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。測評方法評測流程:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一個代碼補全問題,每2.提取功能函數(shù):對于一個代碼補全問題,將提取得到的代碼和該問題對應(yīng)的N個測試用例組裝成N個可獨立運行4.計算模型得分:對于一個代碼補全問題和1個測試用例,構(gòu)成一個單元測試,通過測試得1分。最終計算模型在問題:deftask_func(matrix:List[List[int]])->格的高度,該矩陣代表一個大陸的高度“北冰洋”接觸矩陣的上邊,“印度右)從一個單元流向高度更低或相等的請找出所有可以同時流向北冰洋和印-返回的坐標(biāo)列表應(yīng)按唯一順序排列模型回答:deftask_func(matrix:List[List[int]])->List[List[int]]:ifnotmatrixornotmatrix[0]:m,n=len(matrix),len(matrix[0can_flow_to_south=set()returifju[2]<=0:ifju[i]==0:max_amount=math.floor(ju[i]/res=math.ceil(target/max_amount)ifres>0:<篇幅有限省略>forjinrange(n):if(i,j)incan_flow_to_northand(i,j)inresult.append([i,j])智能體Agent測評說明SuperCLUE–智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。測評方法評測流程:我們將模型回復(fù)的函數(shù)調(diào)用進行實際執(zhí)行后判定是如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模模型得分=(答對的記分單元數(shù)量/記分單?旅游出行:該工具屬于旅行系統(tǒng),該系統(tǒng)允許用戶預(yù)對于問題中的計算需求,你必須調(diào)用提供的函數(shù)第2個函數(shù)調(diào)用:get_nearest_airport_by_city(location='拉薩')【模型回復(fù)2】:[get_flight_cost(tr【模型得到的反饋2】:第1個函數(shù)調(diào)用:get_flight_cost(travel_from='HGH',travel_to='LXA',travel_date='2025-03-10',travel_class='經(jīng)濟艙'),執(zhí)行返回結(jié)果為:{"tra【模型回復(fù)3】:[book_flight(access_token="abc123xyz123",card_id="card001",travel_date="2025-03-10",travel_from="HGH",travel_to="LXA",travel_class="經(jīng)濟艙",travel_cos【模型得到的反饋3】:第1個函數(shù)調(diào)用:book_flight(accesstravel_from='HGH',travel_to='LXA',travel_class='經(jīng)濟艙',travel_cost=460.0),執(zhí)行返回結(jié)果為:{"booking_id": <篇幅有限省略其余對話>精確指令遵循測評說明SuperCLUE–精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法評測流程:以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個詞,字?jǐn)?shù)不少于10設(shè)定的評價標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會最后,我們將所有題目的評估結(jié)果進行匯總,根據(jù)模型完全命中的題目數(shù)量計算模型的最終命中率,命中率以示例–精確指令遵循回答:文化和歷史,也可以從中獲得深深的體驗。我們感到一種溫暖的感覺,也會讓我們感受到一種被懷念的感覺。在這些故事中,我們會看到許多橋,連接著不同的人和不同的事物,燈火的閃爍,會讓我們感到一種被連接的感覺,也會讓我們感受到一種被融合的感覺。讀這些故事和看到燈火的閃爍,體驗到遠(yuǎn)方的文化和歷史,也可以從中獲得深深的體驗。評價打分:文本理解與創(chuàng)作測評說明SuperCLUE–文本理解與創(chuàng)作評測數(shù)據(jù)集文本理解與創(chuàng)作主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。測評方法評測流程:假設(shè)在一個具體的題目中,模型A的得分如下:符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整示例–文本理解與創(chuàng)作問題:你是一家人工智能芯片研發(fā)公司的研發(fā)部門經(jīng)理,需要撰寫一份《AI芯片性能優(yōu)化項目延期情況說明》。該項目原計劃在6個月內(nèi)完成新一代7nm制程AI芯片的性能提升和功耗優(yōu)化,但目前已超期2個月。請向技術(shù)副總裁提交一份正式的項目延期情況說明,詳細(xì)解釋延期原因(包括技術(shù)瓶頸、供應(yīng)鏈風(fēng)險等),并提出具體的改進措施。說明文件需要采用技術(shù)管理報告的規(guī)范格式,包含數(shù)據(jù)分模型回答:<篇幅有限省略部分內(nèi)容>1.基于標(biāo)準(zhǔn)1的符合基本要求:模型的回答完全滿足了用戶問題的所有基本要求,針對延期原因、改進措施和調(diào)整后的計劃都予以了詳細(xì)說明,且遵循了技術(shù)管理報告的規(guī)范格式?;卮鹬苯忧彝耆采w了用戶需求,沒有遺漏。2.基于標(biāo)準(zhǔn)2的創(chuàng)造性:模型體現(xiàn)了較高的技術(shù)分析能力且提供了詳實的具體解決方案,如動態(tài)緩存方法、寄生參數(shù)建模優(yōu)化等,但創(chuàng)新性略顯不足。盡管內(nèi)容詳細(xì),但大部分回復(fù)屬于常規(guī)應(yīng)對措施,沒有顯著超出一般技術(shù)報告的期望范圍(如缺乏對后續(xù)類似問題的預(yù)防機3.基于標(biāo)準(zhǔn)3的語言與邏輯連貫性:回答語言流暢,邏輯清晰,段落布局井然有序,各部分彼此間的過渡與銜接自然。數(shù)據(jù)和技術(shù)細(xì)節(jié)也支撐了邏輯推演,整體呈現(xiàn)了較強的可讀性和說服力,并符合正式報告的規(guī)范要求。缺點4.基于標(biāo)準(zhǔn)4的事實正確性:回答中所引用的技術(shù)性數(shù)據(jù)、對EDA工具的描述、以及流程中的常見瓶頸因素,均與當(dāng)前人工智能芯片開發(fā)領(lǐng)域?qū)嶋H情況一致。從總體上看,模型展示出對技術(shù)內(nèi)容的準(zhǔn)確把握,沒有明顯誤導(dǎo)性或測評模型列表本次測評數(shù)據(jù)選取了SuperCLUE-3月測評結(jié)果,模型選取了國內(nèi)外有代表性的45個大模型在3月份的版本。模型機構(gòu)簡介模型機構(gòu)簡介Meta發(fā)布的Llama3.3版本70B模型,調(diào)用的together深度求索在2025年1月20日推出的DeepSee微軟官方在2025年2月5日發(fā)布的Gemini2.0Pro29.DeepSeek-R1-Distill-Q7.Doubao-1.5-pro-32官方在2025年2月26日發(fā)布的旗艦?zāi)P?,使用上海人工智能實驗室發(fā)布的InternLM3-8B-Instr9.DeepSeek-R1-Distill官方在2025年1月21日發(fā)布的Gemini2.0FlashThinki與ChatGPT上的GPT-4o同版本,對應(yīng)OpenAI官方的API名稱:chatgp38.DeepSeek-R1-Distill-基于Qwen2.5-Math-1.5B的蒸餾模型,使用阿里云API:Meta發(fā)布的Llama3.2版本3B開源模型,調(diào)用的together40.Mistral-7B-Instr官方開源的Mistral-7B-InstX.AI階躍星辰推出的推理模型,使用官網(wǎng)網(wǎng)頁,模型選擇“StepR-min22.ERNIE-4.0-Turbo-8K-La///20第3部分總體測評結(jié)果與分析9.9.評測與人類一致性驗證10.開源模型榜單11.10B級別小模型榜單12.端側(cè)5B級別小模型榜單1.SuperCLUE1.SuperCLUE通用能力測評總榜2.SuperCLUE模型象限3.SuperCLUE推理模型總榜4.SuperCLUE推理任務(wù)總榜6.性價比區(qū)間分布7.綜合效能區(qū)間分布8.國內(nèi)大模型成熟度-SC成熟度指數(shù)SuperCLUE通用能力測評總分國內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單國內(nèi)模型海外及其他對比模型注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1分區(qū)間的模型定義為并列,報告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名。SuperCLUE模型象限(2025)SuperCLUE模型象限(2025)實用主義者DeepSeek-V3(深度求索)360智腦o1.5(360)Gemini-2.0-Pro-Exp-02-05(Goog/●Step-2-16k(階躍星辰)o\Step-2-16k(階躍星辰)o\。GLM-4-Plus(智譜AI)。?"GLM-4-9B-Chat(智譜AI)Phi-4(微軟Yi-1.5-9B-Chat-16K(零一萬物)訊飛星火V4.0(科大訊飛●●●Gemma-2-9b-it(Google)Qwen2.5-3b-Instruct(阿里巴巴)Yi-1.5-34B-Chat-16K(零一萬物))技術(shù)領(lǐng)跑者推理能力潛力探索者SuperCLUE通用能力測評:總榜SuperCLUE-總榜 1.1.o3-mini(high)總分?jǐn)鄬宇I(lǐng)先5.67分,數(shù)學(xué)推理近滿分、指令遵循能力表現(xiàn)卓越在2025年3月SuperCLUE測評中,OpenAI的o3-mini(higmini(high)以94.74分的成績大幅領(lǐng)先其他模型,指令2.2.國產(chǎn)模型嶄露頭角,DeepSeek-R1、QwQ-32B等加速縮小與海外模型的差距國產(chǎn)模型整體表現(xiàn)亮眼,DeepSeek-R1等國媲美,甚至在某些領(lǐng)域?qū)崿F(xiàn)超越。QwQ-32B在數(shù)學(xué)推理任務(wù)中取得88.60分,超越了GPT-4.5-Preview、Claude3.7Claude等眾多海外模型。與此同時,字節(jié)跳動的Doubao-1.5-Pro在科學(xué)刷新了Agent能力榜單成績,展現(xiàn)了國產(chǎn)模型在多個關(guān)鍵指標(biāo)上的強勁實力。3.3.DeepSeek-R1-Distill系列模型在推理任務(wù)中的表現(xiàn)接近于閉源大模型。從測評結(jié)果可見,多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是DeepSeek-R1-Distill系列,僅大幅領(lǐng)先同級別的小模型,還超越了眾多閉源大模型,展現(xiàn)出接近甚至媲美旗艦大模型的卓越實力。SuperCLUE通用能力測評:推理模型總榜SuperCLUE-推理模型總榜 1.1.國內(nèi)頭部推理模型在推理任務(wù)上表現(xiàn)出色,但與o3-mini(high)還有一定差距。preview、DeepSeek-R1-Distill-Qwen-32B、360智腦o1.5以及Kimi-K1.5等模型同樣展現(xiàn)出強勁實力,均取得了70分以上的優(yōu)異成績。2.2.國內(nèi)頭部推理模型較海外頭部推理模型略有領(lǐng)先。展現(xiàn)出一定的競爭力,并略具優(yōu)勢。3.3.國內(nèi)推理模型在數(shù)學(xué)推理任務(wù)上表現(xiàn)較好,但在科學(xué)推理和代碼兩大任務(wù)上還有進步空間。SuperCLUE通用能力測評:推理任務(wù)總榜SuperCLUE-推理任務(wù)總榜 1.1.推理模型較基礎(chǔ)模型優(yōu)勢明顯,前十名中僅有兩席為基礎(chǔ)模型。根據(jù)推理任務(wù)榜單可以發(fā)現(xiàn),除了GPT-4.5-Preview和Gemini-2.0-mini(high)等專注于推理能力優(yōu)化的模型所包攬。這些推理模型憑借其在數(shù)學(xué)、細(xì)分領(lǐng)域的精湛表現(xiàn),展現(xiàn)出相較于通用模型更為突出的專業(yè)實力,在對模型推理深度與廣度要求更高的場景下,呈現(xiàn)出明顯的領(lǐng)先態(tài)勢,也預(yù)示著在特定領(lǐng)域的精耕細(xì)作,是模型性能突破的關(guān)鍵路徑。2.同類任務(wù)中模型性能差距顯著2.同類任務(wù)中模型性能差距顯著,能力分化明顯例如在數(shù)學(xué)推理這一細(xì)分領(lǐng)域,模型的性能差距尤為顯著,呈現(xiàn)出明顯的能力分化趨勢。榜單前三的模型,如o3-mini(high)、DeepSeek-R1和QwQ-Max-Preview,在數(shù)學(xué)推理任務(wù)中均取其中一些模型的得分甚至僅為個位數(shù),差距十分懸殊。3.3.蒸餾技術(shù)成效顯著,小參數(shù)模型表現(xiàn)超預(yù)期。QwQ-32B作為百億級參數(shù)模型,以79.15的總分位居榜單前兩名,國內(nèi)與DeepSeek-R1并列第一,僅次于OpenAI的專用推理模型。更值得注意的是,DeepSeek-R1-Distill-Qwen系列蒸餾SuperCLUE通用能力測評:基礎(chǔ)模型總榜 1.1.國內(nèi)頭部基礎(chǔ)模型表現(xiàn)優(yōu)異,得分均超過ChatGPT-4o-latest。名模型ChatGPT-4o-latest。2.2.國內(nèi)頭部基礎(chǔ)模型較海外頭部基礎(chǔ)模型略有落后,但差距很小。3.3.各基礎(chǔ)模型的表現(xiàn)呈現(xiàn)出明顯的任務(wù)差異性。具體而言,在文本理解與創(chuàng)作任務(wù)上,模型表現(xiàn)相對穩(wěn)定,標(biāo)準(zhǔn)差為5.76分;而在其他任務(wù)維度上,模型性能的離散程度顯著增大,標(biāo)準(zhǔn)差均超過10分。尤其是在科學(xué)推理、代碼處理以及SuperCLUE性價比區(qū)間分布-推理模型推理模型性價比分布趨勢分析1.1.國產(chǎn)推理模型憑借較低的價格實現(xiàn)高質(zhì)量輸出,展現(xiàn)出顯著的性價比優(yōu)勢。國產(chǎn)推理模型QwQ-32B、DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B在性價比方面展現(xiàn)出強大競爭力。它們在保持高水平性能的同時,保持了極低的應(yīng)用(暫時免費)也具備高性價比,但在推理任務(wù)上的表現(xiàn)略遜色于其比模型。2.2.推理模型的推理能力與其API價格無關(guān),其中o3-mini-high以中等的價位領(lǐng)先其他模型。在推理任務(wù)上,得分較高的推理模型大多集中在中在推理能力上有所增強,同時在價格上也展現(xiàn)出顯著的優(yōu)勢。o3-mini-high以中等的價位表現(xiàn)最佳;相比之下,Claude3.7Sonnet的成本最高,但在輸出質(zhì)量方面不是最佳,屬于低性價比模型。SuperCLUE性價比區(qū)間分布-基礎(chǔ)模型基礎(chǔ)模型性價比分布1.1.國產(chǎn)基礎(chǔ)模型在性價比(價格+效果)上有較大優(yōu)勢國產(chǎn)基礎(chǔ)模型如Qwen-max-latest和DeepSeek-V3在性價比上展現(xiàn)出強大的競爭力。這些基礎(chǔ)模型在較高性能的基礎(chǔ)上,能夠保持低應(yīng)用成本,在應(yīng)用落地方面展現(xiàn)出友好的可用性。2.2.位于中性價比的基礎(chǔ)模型在價格方面取勝中性價比模型,如Qwen2.5-72B-Instruct、Sky-Chat-3.0、GPT-4o-mini等,價格均在5元/百萬tokens左右,任務(wù)得分處于中等水平,適用于廣泛應(yīng)用中,在價格和性能方面提供了很好的平衡。3.3.位于低性價比區(qū)間的基礎(chǔ)模型較為集中,便可劃分為高性高價和低性低價位于低性價比區(qū)域的基礎(chǔ)模型,在價格或性能上略遜于中高性價比模型,例如這些模型的發(fā)展表面上顯得過于片面,影響用戶體驗。SuperCLUE大模型綜合效能區(qū)間分布-推理模型推理模型推理效能區(qū)間推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼的平均分。趨勢分析11.海外推理模型綜合效能領(lǐng)先速度和基準(zhǔn)得分的綜合表現(xiàn)上處于領(lǐng)先地位,推理任務(wù)分?jǐn)?shù)均在70分以上,平均推理耗時在30秒內(nèi)。22.國內(nèi)推理模型大部分處于中低效能區(qū)間平均推理耗時超過110秒。推理任務(wù)得分超過70分的國內(nèi)推理模型,平均推理耗時均超過40秒。33.兼顧推理速度和準(zhǔn)確度是重難點即使對于綜合效能較高的o3-mini(high),其平均推理時間也達到了26秒。為了更好地將推理模型應(yīng)用于實際場景,需要考慮如何在確保較高推理準(zhǔn)確度的同時提升推理速度。SuperCLUE大模型綜合效能區(qū)間分布-基礎(chǔ)模型基礎(chǔ)模型推理效能區(qū)間總分為六大任務(wù)的平均分。趨勢分析11.Doubao、Gemini綜合效能表現(xiàn)領(lǐng)先速度表現(xiàn)優(yōu)異,平均推理耗時均在10秒左右,基準(zhǔn)得分超過60分,符合「高效能區(qū)」,展現(xiàn)了較強的應(yīng)用潛力。22.國內(nèi)基礎(chǔ)模型綜合效能與海外基礎(chǔ)模型無明顯優(yōu)劣在推理速度上,ChatGPT-4o-latest和GPT-4o-mini領(lǐng)先,但在得分上只有hunyuan-turbos-20250226達到了60分。33.基礎(chǔ)模型在綜合效能上還有提升空間被測的基礎(chǔ)模型推理耗時平均在20秒左右,但得分都在70分以下,仍然有一定的提升空間。國內(nèi)大模型成熟度-SC成熟度指數(shù)123456國內(nèi)大模型成熟度分析1.高成熟度能力場景。2.中成熟度能力理】、【代碼生成】,還有一定優(yōu)化空間。3.低成熟度能力和【精確指令遵循】。4.極低成熟度能力指數(shù)在0.2以下。評測與人類一致性驗證1:對比ChatbotArenaChatbotArena是當(dāng)前英文領(lǐng)域較為權(quán)威的大模型排行榜,由LMSYSOrg開放組織構(gòu)建,它以公眾匿名投票的方式,對各種大型語言模型進行對抗評測。將SuperCLUE得分與ChatBotArena得分進行相關(guān)性計算,得到皮爾遜相關(guān)系數(shù):0.89,P值:1.38e-06;斯皮爾曼相關(guān)系數(shù):0.85,P值:1.37e-05;說明SuperCLUE基準(zhǔn)測評的成績,與人類對模型的評估(以大眾匿名投票的ChatbotArena為典型代表),具有高度一致性。評測與人類一致性驗證2:對比人工評估3月SuperCLUE采用自動化評價的測評方式。1509道題目中針對5個模型,每個模型隨機抽取了130道題目進行人工復(fù)審。分在所有題目上的平均差距,最終計算得到可靠性。-------------------------------驗證結(jié)果-----------------------------最終各模型可靠性指標(biāo)結(jié)果如下:模型列表注:最終可靠性=sum(人類評分–模型評分)/總題目量所以,經(jīng)過驗證,SuperCLUE自動化評價有較高的可靠性。開源模型榜單中文場景下,國內(nèi)開源模型已具備較大優(yōu)勢DeepSeek系列中文場景下,國內(nèi)開源模型已具備較大優(yōu)勢DeepSeek系列開源模型、Qwen系列開源模型,在3月SuperCLUE測評中表現(xiàn)優(yōu)異,均有超過Llama-3.3-70B-Instruct的表現(xiàn),引領(lǐng)全球開源生態(tài)。排名模型名稱機構(gòu)參數(shù)量總分1DeepSeek-R1深度求索671B70.342QwQ-32B阿里巴巴32B66.383DeepSeek-R1-Distill-Qwen-32B深度求索32B59.944DeepSeek-V3深度求索671B57.635Qwen2.5-72B-Instruct阿里巴巴72B51.906DeepSeek-R1-Distill-Qwen-14B深度求索49.67-Llama-3.3-70B-InstructMeta70B45.53-Phi-4微軟45.267Qwen2.5-14b-Instruct阿里巴巴40.708DeepSeek-R1-Distill-Qwen-7B深度求索7B39.079Qwen2.5-7B-Instruct阿里巴巴7B34.01InternLM3-8B-Instruct上海人工智能實驗室8B32.02GLM-4-9B-Chat智譜AI9B29.34-Gemma-2-9b-itGoogle9B28.30-Llama-3.1-8B-InstructMeta8B25.42Yi-1.5-34B-Chat-16K零一萬物34B23.29Qwen2.5-3b-Instruct阿里巴巴3B22.18Yi-1.5-9B-Chat-16K零一萬物9B21.94DeepSeek-R1-Distill-Qwen-1.5B深度求索17.98-Llama-3.2-3B-InstructMeta3B17.15-Mistral-7B-Instruct-v0.3MistralAI7B11.78注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1分區(qū)間的模型定義為并列。10B級別小模型榜單SuperCLUE-10B級別小模型榜單排名模型名稱機構(gòu)參數(shù)量總分1DeepSeek-R1-Distill-Qwen-7B深度求索39.072Qwen2.5-7B-Instruct阿里巴巴34.013InternLM3-8B-Instruct上海人工智能實驗室8B32.024GLM-4-9B-Chat智譜AI9B29.34-Gemma-2-9b-itGoogle9B28.30-Llama-3.1-8B-InstructMeta8B25.425Qwen2.5-3b-Instruct阿里巴巴22.185Yi-1.5-9B-Chat-16K零一萬物9B21.946DeepSeek-R1-Distill-Qwen-1.5B深度求索18.98-Llama-3.2-3B-InstructMeta18.15-Mistral-7B-Instruct-v0.3MistralAI11.7810B級別小模型分析10B級別模型中,DeepSeek-R1-Distill-Qwen-7B和Gemma-2-在本次SuperCLUE測評中,DeepSeek-R1-Distill-Qwen-7B取得39.07分,取得10B以型。在10B以內(nèi)模型中,超過30分的模型有3個,分別為DeepSeek-R1-Distill-Qwen-7B、 先于海外模型于國外前三名平均高出11.41分。海外前三名國內(nèi)前三名端側(cè)5B級別小模型榜單2025年端側(cè)小模型快速發(fā)展,已在設(shè)備端側(cè)(非云)上實現(xiàn)本地運行,其中PC、手機、智能眼鏡、機器人等大量場景已展現(xiàn)出極高的落地可行性。國內(nèi)端側(cè)小模型進展迅速,相比國外小模型,國內(nèi)小模型在中文場景下展現(xiàn)出更好的性能表現(xiàn)Qwen2.5-3B-Instruct表現(xiàn)驚艷,取得總分22.18分的優(yōu)異成績,在SuperCLUE端側(cè)5B小模型榜單中排名榜首。其中文本理解與創(chuàng)作73.49分,與同等參數(shù)量級模型Llama-3.2-3B-Instruct相比多個維度均有不同幅度的領(lǐng)先,展示出小參數(shù)量級模型極高的性價比。DeepSeek-R1-Distill-Qwen-1.5B小模型同樣表現(xiàn)不俗,取得總分18.98分,有超過Llama-3.2-3B-Instruct的效果。SuperCLUE端側(cè)5B級別小模型榜單模型名稱12-來源:SuperCLUE,2025年3月18日第4部分DeepSeek系列模型深度分析1.DeepSeek-R1及其蒸餾模型對比2.DeepSeek-R1和國內(nèi)外頭部推理模型對比3.DeepSeek-R1第三方平臺聯(lián)網(wǎng)搜索能力測試(網(wǎng)頁端)4.DeepSeek-R1第三方平臺穩(wěn)定性測試(網(wǎng)頁端、App端、API端)DeepSeek-R1及其蒸餾模型對比SuperCLUE-DeepSeek系列模型表現(xiàn) 11.DeepSeek-R1在各個維度均排行第一R1在總榜和推理任務(wù)榜單上得分均超過70,在六大任務(wù)維度上明顯領(lǐng)先其他模型。DeepSeek-R1-Distill-Qwen-32B在數(shù)學(xué)、科學(xué)推理和文本創(chuàng)作與理解任務(wù)上和R1得分接近,但在其余任務(wù)上相差10-30分左右。22.推理模型在總榜和推理任務(wù)榜單上分差較大R1和R1系列的蒸餾模型在總榜和任務(wù)榜單上的得分差距在10-20分之間,如R1在推理任務(wù)上的得分比在總榜上高出7分,DeepSeek-R1-Distill-Qwen-14B有近17分的分差,但DeepSeek-V3分差在3分之內(nèi)。33.R1-Qwen蒸餾模型系列在推理任務(wù)中具有較高實用性其中,DeepSeek-R1-Distill-Qwen-32B的推理任務(wù)得分接近于源模型R1的得分,而DeepSeek-R1-Distill-Qwen-14B在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)還優(yōu)于V3。這表明蒸餾模型在低能耗情況下依然能夠勝任理科相關(guān)的推理任務(wù)。DeepSeek-R1和國內(nèi)外頭部推理模型對比DeepSeek-R1和國內(nèi)外推理模型能力對比測評分析11.綜合能力接近海外頭部模型mini(high)相差5.54分,展現(xiàn)出較強的推理能力22.數(shù)學(xué)推理和代碼生成任務(wù)表現(xiàn)優(yōu)異33.科學(xué)推理相對薄弱,仍需優(yōu)化空間。DeepSeek-R1第三方平臺聯(lián)網(wǎng)搜索能力測評(網(wǎng)頁端)------------------------------------------------------測評結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測評摘要:測評要點1:各平臺整體表現(xiàn)差異較大,騰訊元寶綜合實力領(lǐng)先??偡窒嗖钭畲蟮膬蓚€平臺分差接近20分,聯(lián)網(wǎng)搜索表現(xiàn)存在一定的差距。騰訊元寶以80.61分領(lǐng)跑聯(lián)網(wǎng)搜索測評榜單。測評要點2:基礎(chǔ)檢索能力普遍優(yōu)秀,分析推理能力是不同平臺之間的關(guān)鍵差異點。分析推理能力僅有35.35分,相差近60分。測評要點3:各平臺的回復(fù)率普遍較高,穩(wěn)定性較飛書知識問答、階躍AI、騰訊元寶和支付寶百寶箱在聯(lián)網(wǎng)搜索回復(fù)率方面十分優(yōu)秀,完整回復(fù)率均為100%,位居第一梯隊。其他平臺也均有超過85%的完整回復(fù)率表現(xiàn)。測評要點4:各平臺平均耗時差異較大,不同任務(wù)上的平均耗時差異也同樣明顯。------------------------------------------------------測評結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測評摘要:測評要點1:各平臺整體表現(xiàn)差異較大,騰訊元寶綜合實力領(lǐng)先??偡窒嗖钭畲蟮膬蓚€平臺分差接近20分,聯(lián)網(wǎng)搜索表現(xiàn)存在一定的差距。騰訊元寶以80.61分領(lǐng)跑聯(lián)網(wǎng)搜索測評榜單。測評要點2:基礎(chǔ)檢索能力普遍優(yōu)秀,分析推理能力是不同平臺之間的關(guān)鍵差異點。分析推理能力僅有35.35分,相差近60分。測評要點3:各平臺的回復(fù)率普遍較高,穩(wěn)定性較飛書知識問答、階躍AI、騰訊元寶和支付寶百寶箱在聯(lián)網(wǎng)搜索回復(fù)率方面十分優(yōu)秀,完整回復(fù)率均為100%,位居第一梯隊。其他平臺也均有超過85%的完整回復(fù)率表現(xiàn)。測評要點4:各平臺平均耗時差異較大,不同任務(wù)上的平均耗時差異也同樣明顯。最多的MiniMax(73.51秒/題),差距非常顯著。不同平臺之間的搜索效率差異較大。另外,所有平臺為進一步了解各平臺接入DeepSeek-R1的DeepSeek-R1的第三方平臺進行了聯(lián)網(wǎng)搜索的測評,測評內(nèi)容包括基礎(chǔ)檢索能力如文化生活、經(jīng)濟生活、實時新聞等,以及分析推理能力如推理計算、分析排序、數(shù)據(jù)檢索與分析等。原始題目來源;2.多方核查每條原始信息的正確性,剔除在爭議的信息,然后篩選出正確的、符合客觀事實的信3.使用這些原始信息按照預(yù)先規(guī)定的維度構(gòu)建題目;4.最后對所有題目進行復(fù)查,確定最終的測評集。案的時間均為工作日;2.題目耗時皆由人工計時并記錄;3.每道題目在獲取答案前均會清除上下文信息,避免對測評產(chǎn)生影響。2.我們將模型答案出現(xiàn)截斷或無回復(fù)情況的題目視為未滿足用戶需求,該題記0分;在分析推理能力上平均耗時都明顯高于基礎(chǔ)檢索能在分析推理能力上平均耗時都明顯高于基礎(chǔ)檢索能40申請測評:郵件標(biāo)題:DeepSeek–R1第三方聯(lián)網(wǎng)搜索能力測試(網(wǎng)頁端)測評申請,發(fā)送到contact@superclue.ai,請使用單位郵箱,郵件內(nèi)容包括:單位信息、大模型簡介、聯(lián)系人和所屬部門、聯(lián)系方式40DeepSeek-R1第三方穩(wěn)定性測試(網(wǎng)頁端) 幫助他們選擇最適合自身需求的服務(wù)平臺,臺進行了穩(wěn)定性測評。本次測評我們選擇數(shù)推理題來考察在各個第三方平臺上使用理耗時和準(zhǔn)確率等方面進行評估。無響應(yīng)等問題,但不考慮答案正確與否;再除未給出完整的答案;前者再除以總題目數(shù)得出?無回復(fù)率:模型由于特殊原因,如無響應(yīng)/請求出錯,未給出答案;前者再除以總題目數(shù)得的答案與正確答案一致的比例;正確答案,只?推理耗時(秒/題對于模型給出完整回復(fù)------------------------------------------------------測評結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測評摘要:測評要點1:各個第三方平臺使用DeepSeek-R1的完整回復(fù)率表現(xiàn)差異較大。Perplexity、together.ai和字節(jié)火山引擎完整回復(fù)90%及以上的完整回復(fù)率;而百度智能云、騰訊云TI平臺和硅基流動普通版的完整回復(fù)率均低于50%,顯示出當(dāng)前穩(wěn)定性具有一定的提升空間。測評要點2:初步分析顯示,國外付費第三方平臺在回復(fù)率和推理耗時方面表現(xiàn)優(yōu)于國內(nèi)平臺,而國內(nèi)付費平臺在準(zhǔn)確率上則占據(jù)優(yōu)勢。具體而言,國外平臺如Perplexity、together.ai和pro版和潞晨云的83%。然而,在平均的準(zhǔn)確率方面,國內(nèi)平臺以85%的成績領(lǐng)先于國外平臺的77%。測評要點3:付費版第三方平臺的穩(wěn)定性顯著優(yōu)于免費版。付費版在完整回復(fù)率與推理耗時上明顯優(yōu)于免費版:付費版平均完整回復(fù)率88%,免費版65%;付費版推理耗時180.4秒,免費版261.4秒。準(zhǔn)確率方面,兩者均不低于80%,免費版87%略高于付費版80%。此外,同一平臺的付費版相較免費版提升顯著,回復(fù)率從0%飆升至90%。申請測評:郵件標(biāo)題:DeepSeek–R1第三方穩(wěn)定性測試(網(wǎng)頁端)測評申請,發(fā)送到contact@superclue.ai,請使用單位郵箱,郵件內(nèi)容包括:單位信息、大模型簡介、聯(lián)系人和所屬部門、聯(lián)系方式41DeepSeek-R1第三方穩(wěn)定性測試(App端) 臺,我們對支持DeepSeek-R1的10個平臺進行了穩(wěn)定性測評。測評使用原創(chuàng)小學(xué)奧率等方面評估。2.測試過程:每人使用一部安卓手機測試一個App,對于第一個問題,所有人員同時輸入問題并發(fā)送給測試的App,然后記錄下模型完成每道題所花費的時間;待所有App完成該題,再同時直至最后一題完成測試;他后臺程序。對于所有可調(diào)節(jié)聯(lián)網(wǎng)設(shè)置的App,選項,都采用其默認(rèn)設(shè)置。4.時間記錄:由于大部分App的回復(fù)不戳,所有推理耗時均按統(tǒng)一標(biāo)準(zhǔn)手動記錄,可能存在輕微
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城市道路改造工程合同書
- 原料供應(yīng)合同
- 連鎖餐廳與旅行社定點合作合同
- 水產(chǎn)養(yǎng)殖基地租賃合同范本
- 粘土盒美術(shù)課件
- 植物考試模擬題與參考答案
- 租賃車位合同簡易版
- 工商局標(biāo)準(zhǔn)股份轉(zhuǎn)讓合同范本
- 職業(yè)生涯教育
- 跨國電子商務(wù)交易合作框架協(xié)議
- 《保護地球愛護家園》課件
- 霧化吸入療法合理用藥專家共識(2024版)解讀
- 2024年度產(chǎn)學(xué)研合作與科研獎勵協(xié)議3篇
- 電力工程線路交叉跨越施工主要工序及特殊工序施工方法
- 【MOOC】軟件度量及應(yīng)用-中南大學(xué) 中國大學(xué)慕課MOOC答案
- 24秋國家開放大學(xué)《兒童發(fā)展問題的咨詢與輔導(dǎo)》周測驗參考答案
- 2025屆江蘇省蘇州市重點中學(xué)高三第二次模擬考試英語試卷含解析
- JJF(京) 124-2024 智能電表電動自行車充電辨識模組校準(zhǔn)規(guī)范
- DB65-T 4783-2024 冰川資源遙感調(diào)查技術(shù)規(guī)范
- 護士中級職稱競聘述職課件
- 2024年江蘇省徐州市中考一模物理試題(含答案)
評論
0/150
提交評論