




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能大模型體驗報告2.0
中國企業發展研究中?
新華社研究院中國企業發展研究中心
新華社國家?端智庫分中?
2023年08月
1
報告綜述
在2023年6月首次發布的《人工智能大模型體驗報告》基礎之上,本次測評在題目設計、對標Benchmark
(人類)、打分權重、專家測評團隊四大維度進行了全面升級。在題目設計方面,測評題目由300道擴展至500道,
并進一步完善了題目分類;在對標Benchmark方面,本次測評將接受過高等教育的人類作為對照,來考評大模型
真實能力;在打分標準上,本次測評根據對產業、生活的實際價值,對四大測評維度進行了權重設計;在測評團
隊方面,本次測評特邀北京大學文化與傳播研究所及其他業界、學界專家全程參與。
通過本次測評發現,與2023年6月相比,當前中國大模型產品進步顯著。但與接受過高等教育的人類相比,
大模型在智商、情商等方面還存在一定程度差距。具體來看,科大訊飛的星火在工作提效方面優勢明顯;百度文
心一言地基深厚、基礎能力仍處領軍水準;商湯商量則在情商方面表現優秀;智譜AI的ChatGLM整體表現優秀。
在本次體驗測評的基礎上,研究團隊將繼續深耕,加強在大模型安全可解釋性、工作提效能力、實際落地情
況、產業優秀案例等維度上的探索與研究,歡迎持續關注。
2
01.大模型成為AI大規模落地拐點
4
大模型發展進程
中國大模型發展現狀
大模型發展進程通用大模型應用垂直大模型應用
360智腦-360----教育----
WAI-微盟子曰-有道
中國大模型發展熱度依舊,天眼查數據顯示,截至2023年WPSAI-金山辦公
----金融----
上半年,與“大模型”直接相關的融資事件超20起,其中超擬人大模型-聆心智能
赤兔-容聯運ChatABC-中農行
包含光年之外、面壁智能等明星級創業企業;從被投企業混元-騰訊
----媒體----
的地域分布來看,北京、上海以及杭州位居前列,特別是九天-中國移動
源-浪潮Baker-GPT-標貝科技
北京,融資事件數量超10起,凸顯出北京在人工智能領域
盤古-華為Graph-AIGC-圖宇宙
的領先地位。越來越多的企業和學術界開始關注如何將大日日新-商湯
----汽車----
模型與實際應用場景相結合,實現真正的商業化應用。具天工-昆侖萬維
天書-云天勵飛DriveGPT-毫末智行
體來說探索主要圍繞研究層面和應用層面:通義千問-阿里云
----醫療----
?研究層面,中國大模型在科研方面已形成涵蓋理論、文心一言-百度
西湖-西湖心辰HealthGPT-叮當
方法、軟硬件的體系化能力,學術界和產業界共同參
星河-中國電信medGPT-醫聯
與,形成更加完善的理論框架。星火-科大訊飛左醫GPT-左手醫生
?應用層面,目前大模型已開始滲透到各行各業,實現序列猴子-出門問問
玉顏、丹青-網易伏羲----游戲----
商業化應用。超過半數的大模型實現開源。知海圖-知乎DRL-rctAI
紫東太初-中科院GAEA-超參數
5
大模型應用發展建議
大模型進程過半,如何讓AI真正走進千家萬戶成關注重點
AI技術發展的重點已經從大模型的盲目追求轉向了實用性和可持續性的發展,AI大規模落地需要更多時間來驗證。通過降低
成本、提高易用性、增強可靠性、保護隱私和安全等方面的措施,可以進一步提高大模型的可用性,讓更多的人受益于AI技
術的發展,實現更加智能化和便捷化的生活。
降低成本提高易用性安全可解釋數據安全
?優化算法:通過改進和優化算法,?用戶界面設計:設計直觀、易用?提升數據質量:提高數據的質量?數據加密:對用戶個人數據進行
可以降低模型的計算復雜度,減的用戶界面,利用自然語言交互和多樣性,加強對數據的清洗、匿名化處理,利用哈希算法、公
少所需的計算資源和時間。等技術,降低使用門檻。處理和擴充,以提高訓練數據的鑰加密等技術加密技術保護數據
?開發工具和平臺:提供簡單易用質量和完整性。的傳輸和存儲。
?分布式訓練:分布式訓練是一種
的開發工具和平臺,例如智能代?魯棒性增強:提高模型的魯棒性,?訪問控制和身份認證:建立嚴格
技術,可以將訓練任務分配到多
碼生成、自動化模型訓練等工具,使其更好地應對各種異常情況和的訪問控制機制和身份認證體系,
個計算節點上并行處理,從而加
使非專業人士也能夠輕松上手。邊緣情況,減少錯誤和漏洞。包確保只有經過授權的用戶才能訪
速訓練過程。
?服務支持:提供相關的培訓和教括數據增強、引入噪聲、使用防問和使用數據。使用角色分配、
?
模型壓縮:通過減少模型的參數育資源,幫助用戶了解AI技術的御性編程等技術。權限控制等技術實現訪問控制。
數量、裁剪模型的結構或使用低
原理和應用場景,加強運營和推?持續監控和升級:及時發現和修?安全審計和監控:建立健全機制,
精度計算等方法,來減小模型的廣,形成數據-技術-用戶-數據反復模型的問題和缺陷。建立監控使用安全日志對AI應用的安全性
存儲空間和計算復雜度。
饋的正向閉環。系統、進行性能測試等技術。進行定期檢查和評估。
6
大模型未來發展趨勢
未來已來,大模型概念紅利逐漸消失,回歸到實際應用
持續加強算力基礎設施建設
構建完整的數據中心,擴大算力設施規模,提升算力使用效率,實現
算力的集中化、高效化供給
跨領域知識、多模態數據融合
打造綜合性的知識體系,打通多模態數據之間的溝通壁壘。多技術、
多數據融合,一體化的解決方案逐漸產生化學效應
安全可靠的大模型產品應用正成為深耕方向
安全可解釋的大模型是AI大規模落地的必要條件之一,通過AI算法模
型進行行為分析等提前預警風險,提高模型魯棒性等需要持續深耕
大模型走向實體經濟,商業化路徑逐漸明晰
從技術概念到實際落地,已有部分大模型應用出現,以產品或服務的
方式進行商業化的路徑已經逐漸開始試點
大模型更加注重在線學習和增量學習
探索模型無監督學習,在不斷接收新數據的過程中進行自主學習和升
級,從而提高模型的學習效率和適應能力以及遷移性
7
測評規則
2.0版本評測規則(1/2)
經過對大模型評測1.0版本的打磨和沉淀,新華社研究院中國企業發展研究中心推出大模型評測2.0版本。主要升級方向包括:
1.引入Benchmark-人類答案做對比(組建專家團隊,利用開卷考試的方式進行問答),更加直觀觀測AI模型與人之間的差異;
2.題目數量由300道擴充到500道,在題庫中隨機篩選題目,使結果更加客觀;
3.根據目前市場情況,增加二級分類權重,并細化二級分類,側重考察產品的基礎能力和智商部分,更符合市場進程;
4.專家團隊升級,專家團隊成員涵蓋高校教授、行業專家、企業CEO、自媒體創始人等,在打分過程中打亂問題,采用背靠背
的打分形式,進一步增強打分結果權威性。
本次測評大模型評測維度:
?基礎能力(共150題):考察產品的語言能力、跨模態能力以及AI向善的引導能力,新增多輪對話能力。
?智商測試(共125題):涵蓋常識知識、專業知識、邏輯能力三大項。其中專業知識包括數學、物理、金融、文學等
10+項細分,邏輯能力則包括推理能力、歸納能力以及總結等6項維度。邏輯推理能力權重增高,并明確封閉式問題打
分規則。
?情商測試(共75題):衡量產品個體情感能力。包括自我認知、自我調節、社交意識、人際關系管理等方面,本次情
商測試圍繞不同場景下的突發狀況、溝通技巧、情緒管理等展開,并引入專家幫助評估答案。
?工具提效能力(共150題):將二級維度總結歸納為工具和創新兩大類型,考察產品能否有效幫助相關人員的工作效率
提升,并為創新提供思路。
8
測評規則
本次評測規則(2/2)
評測大模型產品打分規則
分數開放型問題封閉式問題
360智腦文心一言
問題答案較為完美,內容可在實答案正確且有相關解
5分際場景中直接使用讀
Mchat訊飛星火4分基本可用,可在實際場景中使用答案正確
調整可用,但需人工進行調整后答案錯誤,但有推理
3分方可使用過程
天工通義千問
大略可用,需要較多人工調整方
-
2分可使用
商量ChatGLM1分不可用,答非所問、語言不通-
答案錯誤,沒有推理
無法作答
0分過程
注:本次測評時間為2023年07月31日-2023年8月04日9
02.大模型廠商整體測評
10
綜合排名
主流大模型綜合指數2.0
主流大模型綜合指數2.0
1200
1000
800
600
400
200
0
人類-答案訊飛-星火百度-文心一言商湯-商量智譜-ChatGLM360-360智腦昆侖萬維-天工阿里-通義千問瀾舟科技-Mchat
總分101410131010983983951943935932
基礎能力193180189182182181166170167
智商能力153147145126147125133120117
情商能力371337342346338338335337340
工具提效297350335329316308309309309
注1:基于評測條件、評測時間等限制,本次評測最終結果不可避免存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果
注2:分數四舍五入取整11
綜合排名
主流大模型綜合指數2.0解析
本次引入Benchmark結果對比更加明確。首先,在基礎能力方面,人類與AI之間的差距并不顯著。這是因為AI算法模型的開發受到人類編程思維
的影響,并且在其開發過程中充分利用了人類的智慧和知識。在政策的積極引導下,AI在向善和語言能力上表現出色,逐漸接近人類專家的水平。值
得關注的是,大模型的安全可解釋性需要持續投入,避免不受控制的現象出現。
盡管AI在某些方面能夠達到或超過人類的水平,但在整體上,人類在智商方面仍然具有明顯優勢。人類的智商不僅體現在學習能力上,更表現在
善用工具和解決問題的能力上。盡管一個人不可能在所有領域都精通,但通過互聯網等渠道獲取各方面的信息,進行總結、積累和歸納,從而形成個
人知識體系,這是人類智商的一個重要表現。因此,在智商評估中,人類的分數達到最高。
在情商方面,AI與人類之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類在情緒理解和處理方面通常具有
更強的優勢和更靈活的處理能力。人類的情感智慧是人類智能的重要組成部分,它涉及到人類的高級認知和社交能力,AI需要進一步發展感知智能。
最后,在工具效率提升方面,AI對人類提供了有力的支持,AI的處理速度遠遠超過人類。然而,盡管AI具有高速度和高效率的優勢,但在某些復
雜和具有創新性的任務中,人類的智慧和想象力仍然具有無法替代的作用。
整體上看,AI大模型的發展為人類工作和生活的提質增效均帶來了正向的積極影響。
12
分模塊測評結果
基礎能力指數及述評
在基礎能力部分,百度文心一言表現最為搶眼;商湯商量、智譜AIChatGLM、360智腦表現優良;訊飛星火、阿里通
義千問、瀾舟科技Mchat、昆侖萬維天工表現尚佳。
基礎能力描述AI大模型基礎能力指數
大模型的基礎能力包括多個方面,其中最重要的是語言能力。語言是人類智慧
的體現,也是人工智能系統需要理解和模仿的重要領域。大模型通過學習和訓
練,可以理解和生成自然語言文本,并且可以進行多語言翻譯和多語言對話。
這些語言能力可以幫助大模型在自然語言處理、人機交互、智能客服等領域發
揮重要作用。
除了語言能力,大模型還具有AI向善的能力。AI向善是指人工智能系統在運行
過程中,能夠遵循道德和倫理原則,保障人類的利益和安全。大模型在設計和189
182182
訓練時已經融入了這些原則,因此可以保障在應用時遵循AI向善的理念。181180
大模型還具有跨模態和多輪對話能力。跨模態是指在不同模態之間進行轉換和170
167166
遷移,例如將圖像轉換為文字描述,或者將語音轉換為文字。這些能力可以幫
助大模型在自動駕駛、智能家居等領域應用時更好地理解和處理不同模態的信
息。多輪對話能力則是指大模型可以在多個對話回合中保持連續性和邏輯性,
-商量智腦-星火-天工
-Mchat
文心一言360通義千問
從而完成更復雜的任務和問題解答。-商湯-ChatGLM訊飛-
AI
百度阿里昆侖萬維
權重占比:語言能力(35%)、AI向善(10%)、跨模態(20%)、多輪對話智譜瀾舟科技
(35%)
注1:基于評測條件、評測時間等限制,本次評測最終結果不可避免存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果
注2:分數四舍五入取整13
分模塊測評結果
智商指數及述評
在智商部分,訊飛星火、智譜AI-ChatGLM并列第一;百度文心一言、昆侖萬維天工表現優良;商湯商量、360智腦、
阿里通義千問、瀾舟科技MChat表現尚佳。
智商指標描述AI大模型智商指數
課題組認為,大模型的智商考察可以從三個方面進行評估,包括常識知識、邏
輯能力和專業知識。
常識知識是指大模型需要具備對世界、人類社會和文化的基本信息認知。具備
這些常識知識,大模型可以更好地理解人類語言和行為,并且在各種場景下做
出正確的推理和決策。
147147145
其次,邏輯能力是大模型不可或缺的能力之一。它使大模型在處理復雜問題時
133
能夠提供更嚴謹的思維邏輯和更強大的分析決策能力,從而推動人工智能從認126125
120
知走向感知。117
最后,專業知識是指大模型需要具備特定領域的專業知識和技能。例如,在醫
療領域,大模型需要了解醫學知識和診斷技能;在法律領域,需要了解法律知
識和法律推理能力。這些專業知識有助于大模型在特定領域中進行更準確、高
-星火-天工-商量智腦
-Mchat
文心一言360通義千問
效的問題處理。訊飛-ChatGLM-商湯-
AI
百度昆侖萬維阿里
權重占比:常識知識(20%)、邏輯能力(50%)、專業知識(30%)智譜瀾舟科技
注1:基于評測條件、評測時間等限制,本次評測最終結果不可避免存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果
注2:分數四舍五入取整14
分模塊測評結果
情商指數及述評
情商部分,商湯商量、百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM表現優良;360智腦、訊飛星火、阿里通義
千問、昆侖萬維天工表現尚佳。
情商指標描述AI大模型情商指數
大模型的情商考察是指對其在情感和人際交往方面的表現進行評估,其中包括
日常尷尬事項的反饋、面對一語雙關問題的處理以及人際關系相處難題等方面,
包括與朋友、家人、同事等在各種場景下的交往問題。
具體來說,日常尷尬事項的反饋是指大模型在處理一些尷尬或者棘手的問題時,
能否給出合適的回答或者解決方案。例如,當被人問到一些私人或者敏感的問
題時,大模型需要具備足夠的情商和應變能力,避免造成不必要的尷尬和誤解。346
由于中國語言博大精深,在日常溝通交流過程中常常有一語雙關的情況出現,342
340
需要大模型理解并應對實際問題,通過敏銳的洞察力、判斷力以及感知能力等,338338
337337
準確地理解當下環境和詞語意思。335
另一方面,人際關系相處難題是指大模型在與人類進行交互時,能否幫助人類
處理好各種人際關系問題,例如與他人的沖突解決、情感交流、同理心表達等
-商量智腦-星火-天工
等。這些問題的處理需要大模型具備高超的人際交往能力和情商,以建立和維-Mchat
文心一言360通義千問
商湯--ChatGLM訊飛-
AI
護良好的人際關系。百度阿里昆侖萬維
瀾舟科技
權重占比:日常事項(35%)、一語雙關(30%)、人際關系(35%)智譜
注1:基于評測條件、評測時間等限制,本次評測最終結果不可避免存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果
注2:分數四舍五入取整15
分模塊測評結果
工具提效指數及述評
在工作提效部分,訊飛星火、百度文心一言、商湯商量、智譜AI-ChatGLM表現優良;昆侖萬維天工、阿里通義千問、
瀾舟科技Mchat、360智腦表現尚佳。
工具提效指標描述AI大模型工具提效指數
大模型的工作提效考察通常包括兩個方面:工具和創新。
工具提效是指大模型是否能夠提供有效的工具來提高工作效率。這些工具可以
包括代碼自動生成、數據自動分析和可視化工具、自然語言處理、文件整理、
關鍵內容總結整合和機器翻譯工具等。具備這些工具的大模型可以幫助人們更
350
快地完成工作任務,提高工作效率,也是大模型最先落地的方向之一。335
329
生成創新方面是指大模型是否能夠提供新的思路和方法,推動工作方式的改進316
309309309308
和升級。這些創新可以包括新的業務流程、選題的創新、內容的創新等。AIGC
能力能夠幫助人們打破傳統的工作方式,推動工作效率提升。
-星火-商量-天工智腦
-Mchat
權重占比:工具提效(50%)、生成創新(50%)文心一言通義千問360
訊飛-商湯-ChatGLM-
AI
百度昆侖萬維阿里
智譜瀾舟科技
注1:基于評測條件、評測時間等限制,本次評測最終結果不可避免存在一定主觀性,未來將進一步優化完善評測模型,提供更精確結果
注2:分數四舍五入取整16
03.廠商優秀答案展示
17
各家優秀答案展示
科大訊飛-星火
“訊飛星火認知大模型”是科大訊飛推出的新一代認知智能大模型,具有7大核心能力,即文本生成、語言理解、知
識問答、邏輯推理、數學能力、代碼能力、多模態能力。擁有跨領域的知識和語言理解能力,能夠基于自然對話方式
理解與執行任務。從海量數據和大規模知識中持續進化,實現從提出、規劃到解決問題的全流程閉環。
最佳案例展示
答案1:康復工程是應用現代工程學的原理和方法,恢復、代償或重建
患者功能的科學。包括康復評定設備的研制、功能恢復訓練器械的研
制、功能代償性用品(如:假肢、矯形器、輪椅、助行器、自助具等)的
問題1:什么是康復工程?研制、功能重建性用品(如人工喉等)的研制、康復工程材料(如人工關
節等)的研制、裝飾性假器官(如人工眼)的研制等。
入選原因:答案科學詳盡。
答案2:"Haveonefootinthegrave"是一個英語習語,直譯為“一
只腳已經踏入墳墓”。這個習語用來形容一個人在面臨嚴重困境、危
機或失敗時的狀態。換句話說,這個人可能已經失去了一切,甚至可
問題2:翻譯:Haveonefootinthegrave
能面臨死亡。這個表達通常帶有負面的含義,表示某人陷入了無法挽
回的境地。
入選原因:解釋詳盡、拓展分析更便于理解。
18
各家優秀答案展示
百度-文心一言
文心一言是百度打造出的人工智能大語言模型,具備跨模態、跨語言的深度語義理解與生成能力,文心一言有五大
能力,包括文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。其在搜索問答、內容創作生成、智能
辦公等眾多領域都有更廣闊的想象空間。
最佳案例展示
答案1:"感謝這段難得的時光,讓我遇見了最好的自己。""畢業不是結束,而是新的開始,我會
永遠懷念這段美好的校園生活。""母校,謝謝你給了我這段難忘的回憶,我會牢記心中。""畢業
之際,我感慨良多,但更多的是對未來的期待與憧憬。""學校,再見,我會回來;同學,再見,
我會想念。""這段青澀的青春,我會永遠珍藏在我的心中。""畢業證書上的文字,是對我學生生
問題1:提供十個畢業感言
涯的最好注解。""母校,你給了我無數的機會,我會銘記在心。""我畢業了,但我的學習之路才
剛剛開始。""謝謝所有的老師、同學和朋友們,讓我擁有這段難忘的時光。”
入選原因:語料豐富、應用廣泛。
答案2:"當你無意間碰到這種情況時,最好的做法是表現出自然、禮貌和尊重。盡量避免使用尷
尬或指責性的語言,而是使用一種友善和體貼的語氣。你可以這樣說:“對不起,我不知道您在
里面,我剛剛想送資料給您。請您告訴我您什么時候方便,我將資料放在您門口或與其他人聯系
問題2:我給客戶送資料,她沒有鎖門,
您。”然后,你可以離開并確保你的行為表現出你的尊重和禮貌。記住,人們通常會因你的態度
我推開門她在上廁所,怎么說讓她不尷尬
而感到舒適或不舒服,所以保持友好和尊重是非常重要的。”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45460-2025鋼絲繩在無軸向載荷條件下鋼絲繩徑向剛度的測定
- 護理課題項目申報書
- 員工價值觀與企業使命的契合計劃
- 2025年證券從業資格的章節梳理試題及答案
- 銀行客戶管理與信息系統整合試題及答案
- 2025年稅務合規性審查試題及答案
- 項目管理溝通技巧考試題目及答案
- 項目管理倫理與責任探討試題及答案
- 微生物疫苗研發問題試題及答案
- 行政管理師證書考試實踐能力強化試題及答案
- 愛護環境主題班會課件
- 大班游戲活動案例《快樂沙池》
- 糖尿病飲食指導護理
- DB41T 1633-2018 排油煙設施清洗服務規范
- 連續梁線型控制技術交底
- 林業專業知識考試試題及答案
- 高三英語語法填空專項訓練100(附答案)及解析
- T-CPQS C017-2024 鑒賞收藏用潮流玩偶衍生產品 樹脂類藝術品
- 網絡安全眾測服務要求
- 《茶學概論》課件
- 腸癌篩查早發現早治療
評論
0/150
提交評論