2023中國大模型行研能力評測報告-2024.02_第1頁
2023中國大模型行研能力評測報告-2024.02_第2頁
2023中國大模型行研能力評測報告-2024.02_第3頁
2023中國大模型行研能力評測報告-2024.02_第4頁
2023中國大模型行研能力評測報告-2024.02_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2023年中國大模型行研能力評測AI變革行業(yè)創(chuàng)新發(fā)展2023

China

Large

Language

Model

Industry

Research

Evaluation2023年中國大規(guī)模モデル産業(yè)研究能力評価報告提供的任何內(nèi)容(包括但不限于數(shù)據(jù)、文字、圖表、圖像等)均系頭豹研究院獨有的高度機密性文件(在報告中另行標明出處者除外)。未經(jīng)頭豹研究院事先書面許可,任何人不得以任何方式擅自復制、再造、傳播、出版、引用、改編、匯編本報告內(nèi)容,若有違反上述約定的行為發(fā)生,頭豹研究院保留采取法律措施、追究相關(guān)人員責任的權(quán)利。頭豹研究院開展的所有商業(yè)活動均使用“頭豹研究院”或“頭豹”的商號、商標,頭豹研究院無任何前述名稱之外的其他分支機構(gòu),也未授權(quán)或聘用其他任何第三方代表頭豹研究院開展商業(yè)活動。1頭豹研究院弗若斯特沙利文咨詢(中國)大模型評測

|

2023/12中國:人工智能系列摘要n大模型是自然語言處理領(lǐng)域中深度學習技術(shù)的高級應用。通過對海量文本數(shù)據(jù)進行深度訓練,能夠吸收和提煉出豐富的語言學知識和語義內(nèi)涵。這種大模型通常參數(shù)規(guī)模龐大,動輒數(shù)十億甚至數(shù)百億,從而具備理解和生成自然語言的能力,與人類溝通幾乎無障礙。它的應用場景廣泛,包括但不限于機器翻譯、智能問答、文本摘要等多個領(lǐng)域。從技術(shù)發(fā)展的視角來看,語言模型的演進歷程頗具啟發(fā)性。起初,基于深度神經(jīng)網(wǎng)絡(luò)進行訓練;隨后,業(yè)界逐漸采用預訓練結(jié)合微調(diào)的模式來提升性能;而如今,最先進的范式已經(jīng)轉(zhuǎn)向預訓練結(jié)合提示訓練,這無疑標志著模擬人類思維交流方面的又一重大突破。這一發(fā)展軌跡不僅凸顯了技術(shù)的迅速迭代,更揭示了自然語言處理領(lǐng)域巨大的探索空間和創(chuàng)新潛力n大模型能夠顯著增強研究報告的編寫效率,通過采納精細化的詢問策略,分析師在研究過程中能夠?qū)崿F(xiàn)效率優(yōu)化。此外,這一模型還能夠提供全面的文本編輯支持,包括校正、查重、以及文風潤色等功能,從而確保分析師提交的工作成果達到更高的質(zhì)量標準n大模型技術(shù)潮流興起催生中國大模型百花齊放。沙利文與頭豹研究院聯(lián)手對12個大模型進行綜合評估,以深入梳理中國大模型在行研領(lǐng)域的應用表現(xiàn),為各界提供清晰深入的視角,以應對預訓練大模型引發(fā)的人工智能浪潮當前,自然語言處理技術(shù)中的預訓練大模型正在全球范圍內(nèi)引領(lǐng)一場前所未有的人工智能革命。自ChatGPT推出以來,僅在中國地區(qū),涌現(xiàn)出超過80個不同的預訓練語言大模型。這些模型的參與者涵蓋了中國頂尖的學術(shù)研究機構(gòu)和領(lǐng)先的互聯(lián)網(wǎng)科技企業(yè),均希望能在這場技術(shù)浪潮中搶占先機。值得一提的是,過去一年里,中國學術(shù)和產(chǎn)業(yè)界也取得了顯著進展,商湯的“商量”、百度的“文心一言”等大模型持續(xù)迭代,推動了中國大模型產(chǎn)業(yè)的快速發(fā)展。沙利文與頭豹研究院合作,基于數(shù)字行研解決方案的研究和實踐經(jīng)驗,憑借百人分析師團隊的匿名投票機制,篩選出12個大模型進行綜合評估。這一評估旨在全面了解并梳理中國大模型在行研領(lǐng)域的應用表現(xiàn)。通過這份專業(yè)分析,各界能獲取到清晰、深入的視角,以更好地理解和應對由預訓練大模型引發(fā)的人工智能浪潮。400-072-5588大模型評測

|

2023/12中國:人工智能系列內(nèi)容目錄研究目標1大模型行研能力評測背景及方法n

研究目的05頁基于數(shù)字行研解決方案的研究和實踐基礎(chǔ),頭豹研究院聯(lián)合沙利文憑借百人分析師團隊匿名投票機制,篩選了12個大模型,進行了多維度的綜合評估,旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)。?????????行研背景概述傳統(tǒng)行研發(fā)展痛點數(shù)字行研革新大模型賦能行研評測大模型參與者評測方法與指標報告撰寫能力n

研究目標行研基礎(chǔ)能力????了解中國大模型在行研領(lǐng)域的應用價值探析中國大模型在行研領(lǐng)域的綜合表現(xiàn)梳理中國大模型的參與者現(xiàn)狀行業(yè)理解能力2大模型行研能力評測結(jié)果

15頁評估中國大模型行研領(lǐng)域的發(fā)展?jié)摿?????????????評測結(jié)果總榜n

本報告的關(guān)鍵問題報告撰寫能力總榜報告撰寫能力綜合表現(xiàn)報告撰寫高階難度模塊表現(xiàn)報告撰寫低階難度模塊表現(xiàn)報告撰寫能力分布?????參與者發(fā)展現(xiàn)狀:中國大模型的參與者有哪些?在行研領(lǐng)域的發(fā)展現(xiàn)狀如何?行研應用表現(xiàn):中國大模型在行業(yè)研究領(lǐng)域的實際應用表現(xiàn)如何?行研基礎(chǔ)能力總榜報告撰寫能力:中國大模型在撰寫行業(yè)研究報告方面的表現(xiàn)能力如何?行研基礎(chǔ)能力綜合表現(xiàn)行研基礎(chǔ)能力細分模塊行研撰寫能力分布模型基礎(chǔ)能力:中國大模型邏輯推理能力、類比遷移能力等基礎(chǔ)能力表現(xiàn)如何?行業(yè)理解能力:目前中國大模型在不同行業(yè)下的理解能力以及表現(xiàn)如何?行業(yè)理解能力總榜行業(yè)理解能力綜合表現(xiàn)行業(yè)理解能力細分行業(yè)400-072-55883大模型評測

|

2023/12中國:人工智能系列名詞解釋uuu預訓練語言大模型:預訓練語言大模型是一種先進的人工智能技術(shù),它通過在大規(guī)模文本數(shù)據(jù)上進行預先訓練,學習語言的復雜模式,從而能夠理解、生成和處理自然語言。數(shù)字行研:數(shù)字化行業(yè)研究解決方案通過集成精準信息溯源系統(tǒng)和標準化寫作工具,降低了行研門檻,提高撰寫效率,并簡化了質(zhì)量控制流程,從而革新了行業(yè)研究的范式。8-D方法論:沙利文聯(lián)合頭豹企業(yè)研究所采納的8-D方法論包括八個核心模塊,包含定義、分類、發(fā)展歷程、特征、產(chǎn)業(yè)鏈、市場規(guī)模、政策和競爭格局,構(gòu)成了一套全面而系統(tǒng)的研究方法。類比遷移:指在機器學習中用于訓練的數(shù)據(jù),這些數(shù)據(jù)沒有提供明確的標簽或答案。邏輯推理:類比遷移是指從一個領(lǐng)域或情境中提取概念、原則或模式,并應用到另一個不同的領(lǐng)域或情境。在內(nèi)容評判中,評估模型在不同概念、情境之間建立聯(lián)系的能力,以及這些聯(lián)系的適當性和創(chuàng)造性。uuu語境轉(zhuǎn)換:語境轉(zhuǎn)換是指根據(jù)不同的交流環(huán)境或?qū)ο笳{(diào)整信息表達方式。在內(nèi)容評判中,評估信息是否適應特定的受眾、文化背景或溝通場合,以及是否能有效地調(diào)整語氣、風格和內(nèi)容以滿足不同場景下的寫作需求。uuu意圖理解:意圖理解是指識別和理解用戶或作者想要傳達的目的和動機。在內(nèi)容評判中,評估信息是否有效地傳達了其預期的消息或意圖,以及模型是否能清楚地識別這些意圖。文本生成:文本生成是指創(chuàng)建連貫、相關(guān)和有意義的文本內(nèi)容。在評判內(nèi)容時,評估文本的清晰度、連貫性、原創(chuàng)性以及語言的正確性和表達能力。知識儲備:知識儲備是指個體或系統(tǒng)所掌握的信息、事實、概念和理論的總和。在內(nèi)容評判中,知識儲備體現(xiàn)在信息的準確性、深度和廣度,以及模型能否正確并有效地使用相關(guān)知識。400-072-55884大模型評測

|

2023/12中國:人工智能系列Chapter

1大模型行研能力評測背景及方法q

本次大模型行研能力測試覆蓋1,800+題目,由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程,圍繞研究報告撰寫能力,模型基礎(chǔ)能力以及行業(yè)綜合理解能力進行綜合評測q

評測方法通過雙盲機制最大程度保證公允性,每名測試人員會隨機分配N個模型進行答案搜集,彼此在答案搜集期間互相禁止分享信息,以保持在答案評測階段的公允性;在評測階段,每個問題相對應的12個模型答案順序會隨機打亂,保證評測人員對答案不存在任何偏見q

本次大模型行研能力評測分為三個核心模塊,分別為報告撰寫能力、模型基礎(chǔ)能力以及行業(yè)理解能力。報告撰寫為本次評測的核心能力,基礎(chǔ)能力以及行業(yè)理解能力為衍生能力,顧賦予40%/30%/30%的評分權(quán)重q

本次大模型行業(yè)研究能力評測截止于11月30日,所選模型基于目前開放可用的范圍。本次評測未涵蓋企業(yè)尚未開放的大模型,評測結(jié)果僅反映當前公開可用模型的數(shù)據(jù)400-072-55885大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——行研背景概述?

行業(yè)研究通過分析特定行業(yè)的定義、競爭格局、市場規(guī)模等關(guān)鍵方面,產(chǎn)出深刻洞察和觀點。方法論涵蓋從宏觀的產(chǎn)業(yè)層到微觀的產(chǎn)品層的分析,對企業(yè)戰(zhàn)略、政策制定和金融決策等產(chǎn)生顯著影響行研背景概述行研價值鏈價值企業(yè)規(guī)劃政務服務金融決策教育培訓新聞傳媒…體現(xiàn)行業(yè)定義行業(yè)分類市場規(guī)模發(fā)展歷程政策分析行業(yè)特征競爭格局研究路徑產(chǎn)業(yè)鏈分析互聯(lián)網(wǎng)泛娛樂金融醫(yī)療農(nóng)林牧漁教育采礦制造旅游零售千行百業(yè)房地產(chǎn)…n行業(yè)研究通過詳盡方法論輸出價值觀點,對企業(yè)策略、金融決策等領(lǐng)域的價值顯著行業(yè)研究是深入探討分析特定行業(yè)的發(fā)展現(xiàn)狀和市場動態(tài)的全面過程,包含行業(yè)定義、分類、競爭格局、市場容量等關(guān)鍵維度。分析師通過分析,生成具有深度的洞察和價值觀點,對企業(yè)戰(zhàn)略規(guī)劃、政策制定、金融投資決策和教育培訓等多個領(lǐng)域產(chǎn)生重要影響。外部維度經(jīng)濟

環(huán)境內(nèi)部維度行研范圍產(chǎn)業(yè)鏈分析政策法律發(fā)展歷程發(fā)展特征

市場規(guī)模

競爭格局產(chǎn)業(yè)層行業(yè)層產(chǎn)品層重要程度高重要程度低n行業(yè)研究涵蓋從宏觀的產(chǎn)業(yè)層到微觀的產(chǎn)品層,各層級決定著相應的研究方法,研究方法論囊括外部宏觀因素和內(nèi)部微觀細節(jié)的全面分析在行業(yè)研究中,產(chǎn)業(yè)層、行業(yè)層和產(chǎn)品層各自代表宏觀經(jīng)濟的不同層次:產(chǎn)業(yè)層包含具相似特征的行業(yè)群體,行業(yè)層著重于特定行業(yè)的市場和企業(yè)情況,而產(chǎn)品層深入到具體產(chǎn)品或服務的設(shè)計、功能和市場定位。研究方法論根據(jù)這些層級的宏觀到微觀差異而有所不同,外部維度考慮政策、經(jīng)濟、環(huán)境等因素,而內(nèi)部維度則包括發(fā)展歷史、產(chǎn)業(yè)鏈分析等更細致的方面。來源:沙利文、頭豹研究院400-072-55886大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——傳統(tǒng)行研發(fā)展痛點?

從基礎(chǔ)數(shù)據(jù)收集到深度分析輸出,傳統(tǒng)行業(yè)研究的流程面臨著工具革新滯后、團隊知識難以傳承、信息溯源復雜性以及研報質(zhì)量控制的重大挑戰(zhàn),共同影響行業(yè)研究的產(chǎn)出效率和創(chuàng)新能力,限制了其發(fā)展?jié)摿鹘y(tǒng)行研發(fā)展痛點調(diào)研分析產(chǎn)出二手數(shù)據(jù)分析制圖統(tǒng)計局數(shù)據(jù)、文獻、網(wǎng)頁、垂直媒體、招股書、第三方研報、專業(yè)數(shù)據(jù)庫……產(chǎn)業(yè)鏈、競爭格局研究成果建模行業(yè)規(guī)模與預測模型傳統(tǒng)工具Excel研究報告、演講稿、招股書行業(yè)章節(jié)、視頻…….一手數(shù)據(jù)行業(yè)專家訪談、消費者調(diào)研(問卷,圓桌)、自行監(jiān)測數(shù)據(jù)……撰寫行業(yè)定義、特征、分類、歷史、政策、行研發(fā)展痛點1生產(chǎn)工具停滯2團隊知識難以復用行業(yè)人員流動性較大,新人成長周期較長,分析師掌握的經(jīng)驗和知識復用性差3溯源難考證4質(zhì)量把控難度高質(zhì)控人員缺乏專業(yè)撰寫技能,而專業(yè)分析師則通常無暇進行廣泛質(zhì)控面對海量信息和時間成本,信息來源難以考證,信息合規(guī)無法全面保障PPT和Word仍是生產(chǎn)核心工具,20年來沒有更新新的行研生產(chǎn)工具n傳統(tǒng)行業(yè)研究在工具更新、知識復用、信息溯源和質(zhì)量控制方面面臨顯著挑戰(zhàn),影響其效率和準確性傳統(tǒng)行業(yè)研究的產(chǎn)出流程包括三個步驟:首先是基礎(chǔ)調(diào)研,聚焦于一手和二手行業(yè)數(shù)據(jù)的收集;其次是數(shù)據(jù)加工,涉及整理邏輯、驗證數(shù)據(jù)真實性,并對關(guān)鍵信息進行可視化處理;最后是產(chǎn)出結(jié)果,確保全文邏輯一致、可視化清晰并且觀點合理。在實際操作中,行業(yè)研究面臨多個挑戰(zhàn):1)工具更新停滯,自互聯(lián)網(wǎng)興起以來,行研主要依賴網(wǎng)絡(luò)檢索和辦公軟件,近20年未見顯著革新;2)團隊知識難以復用,由于高人員流動性和新成員培養(yǎng)周期長,分析師的經(jīng)驗和知識傳承困難;3)信息溯源和合規(guī)性考量復雜,在應對海量信息和時間成本壓力下,信息來源和合規(guī)性難以全面保障;4)質(zhì)量控制難度高,質(zhì)控人員缺乏專業(yè)撰寫技能,同時專業(yè)分析師缺乏時間進行廣泛質(zhì)控,導致質(zhì)量監(jiān)控極為困難。這些核心挑戰(zhàn)共同影響著行研的產(chǎn)出效率和創(chuàng)新,阻礙行研進一步發(fā)展。來源:沙利文、頭豹研究院400-072-55887大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——數(shù)字行研革新?

數(shù)字行研解決方案,結(jié)合標準化工具和先進的大模型技術(shù),有效克服了傳統(tǒng)行業(yè)研究的核心制約因素,顯著提升研究的精度和效率,并引領(lǐng)行業(yè)研究進入一個效率更高和質(zhì)量更優(yōu)的新產(chǎn)出范式數(shù)字行研革新(以頭豹腦力擎為例)數(shù)字行研全面賦能開信息調(diào)研綜合分析結(jié)果呈現(xiàn)協(xié)同創(chuàng)作詞條AI生成輔助分析師接入智能技術(shù)工具提效開源AI續(xù)寫Web3.0協(xié)同可信智能高效數(shù)字身份頭豹寫作系統(tǒng)“腦力擎”賦能頭豹研報產(chǎn)出提質(zhì)增效AIGC文本創(chuàng)作AI改寫AI賦能AI檢索創(chuàng)作沉淀,數(shù)據(jù)資產(chǎn)化體系化培訓工具智能研報生成AI審核標準n數(shù)字化行研解決方案通過標準化工具和大模型技術(shù),解決了行業(yè)研究的核心難題,提高了研究質(zhì)量和效率,為行業(yè)分析帶來了高效、精準的新范式數(shù)字化行研解決方案為行業(yè)研究帶來范式革新。該系統(tǒng)通過引入一系列標準化工具,如精準的信息溯源系統(tǒng)和寫作規(guī)范,極大降低了行業(yè)研究的門檻,提升了撰寫效率,并簡化了質(zhì)量控制流程。此外,數(shù)字行研基于大模型的強大底層支持,為分析師提供AI輔助工具,包括專家訪談、智能檢索、查重、校對和改寫功能,有效減少信息檢索的難度,提升文本的準確性和撰寫效率,同時加速分析師的專業(yè)成長。數(shù)字行研解決方案不僅解決了傳統(tǒng)行業(yè)研究中的關(guān)鍵痛點,如信息溯源困難、嚴峻的質(zhì)控挑戰(zhàn)、知識低復用率和工具更新滯后,還借助大模型技術(shù)推動行業(yè)研究質(zhì)量和分析師成長速度,引領(lǐng)行業(yè)研究向更高效、精準的新范式轉(zhuǎn)變。來源:沙利文、頭豹研究院400-072-55888大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——大模型賦能行研?

大模型在數(shù)字行業(yè)研究中扮演核心角色,其功能特性極大提升了研究的效率和質(zhì)量。本研究聚焦于挖掘中國大模型在行業(yè)研究中的實際應用和優(yōu)勢,了解大模型當前的能力邊界,以推動行研領(lǐng)域的創(chuàng)新與變革大模型賦能行研AI專家訪談AI文字校對通過利用AI大模型進行行業(yè)專家訪談,分析師可以迅速掌握行業(yè)的核心信息和精確的定義、分類,從而將初期行業(yè)研究階段的時間縮短30%利用大模型的改寫、續(xù)寫和查重功能,可以顯著減少錯別字、病句和重復內(nèi)容,從而提升文本質(zhì)量和可讀性,同時減少分析師在文本檢查上的時間投入,降低超過70%大模型行研賦能AI內(nèi)容生成AI資料檢索通過使用大模型的文字生成功能,結(jié)合恰當?shù)奶釂枂栴},讓大模型幫助產(chǎn)出結(jié)構(gòu)化內(nèi)容,提高研報的產(chǎn)出效率50%運用大模型的互聯(lián)網(wǎng)檢索訪問功能,結(jié)合精準的提問策略,幫助分析師定位關(guān)鍵信息,從而提升資料搜索效率超60%n大模型在數(shù)字行業(yè)研究中扮演核心角色,其功能特性極大提升了研究的效率和質(zhì)量。本研究主要聚焦于中國大模型在行業(yè)研究中的實際應用和優(yōu)勢,知曉大模型的能力邊界,旨在推動行研領(lǐng)域的創(chuàng)新與變革作為數(shù)字行研的關(guān)鍵支撐,大模型通過其創(chuàng)作、生成、改寫和檢索等核心功能,全方位推動行業(yè)研究向前發(fā)展。首先,大模型扮演第三方AI專家角色,協(xié)助分析師在研究初期進行框架搭建和內(nèi)容創(chuàng)作,有效減輕案頭工作負擔。其次,通過與分析師的有效互動,大模型助力生成結(jié)構(gòu)化內(nèi)容和洞察,顯著提高基礎(chǔ)內(nèi)容的產(chǎn)出效率。進一步,它通過減少文本錯誤和重復內(nèi)容,優(yōu)化校對流程,提升產(chǎn)出質(zhì)量。最后,大模型能夠快速處理海量數(shù)據(jù),提供實時信息檢索,增強分析師在有限時間內(nèi)獲取全面信息的能力。鑒于此,深入了解中國大模型行業(yè)的發(fā)展態(tài)勢和技術(shù)創(chuàng)新對引領(lǐng)數(shù)字行業(yè)研究新范式至關(guān)重要。本研究的目標是全面評價中國領(lǐng)先的大模型技術(shù),深入分析其在行業(yè)研究領(lǐng)域的實際應用和優(yōu)勢,全面審視大模型對行業(yè)研究發(fā)展的影響,以促進數(shù)字行業(yè)研究的創(chuàng)新和變革。來源:沙利文、頭豹研究院400-072-55889大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——評測大模型參與者?

基于數(shù)字行研解決方案的研究和實踐基礎(chǔ),沙利文聯(lián)合頭豹研究院依托百人分析師團隊對12個大模型進行行研輔助能力的綜合評估,旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)大模型行研能力評測參與者商量大模型參選者榜單3.5本次對大模型的行業(yè)研究能力進行評測的時間定于11月15日至11月30日,評選的模型基于目前市場上開放且可用的版本。評測結(jié)果將僅反映在評測時段內(nèi)公開可獲取的模型數(shù)據(jù)。在此次評測中,GPT模型選用的公測版本為3.5版本,文心一言模型也采用其3.5公測版本進行評估。n自ChatGPT推出后,中國在預訓練大模型領(lǐng)域?qū)崿F(xiàn)了顯著進步,涉及頂尖學術(shù)機構(gòu)和科技企業(yè),沙利文聯(lián)合頭豹研究院對12個大模型進行綜合評估,以全面了解中國大模型在行研領(lǐng)域的發(fā)展與應用當前,基于自然語言處理技術(shù)的預訓練大模型已在全球范圍內(nèi)掀起了有史以來最大的人工智能浪潮。自ChatGPT推出以來,僅中國地區(qū)就出現(xiàn)了超過80個不同的預訓練語言大模型,參與者覆蓋中國頂尖的學術(shù)研究機構(gòu)以及互聯(lián)網(wǎng)科技企業(yè),旨在此番浪潮中拔得先機。過去一年中,中國學術(shù)與產(chǎn)業(yè)界也取得了實質(zhì)性的突破,來自商湯的商量、百度的文心一言等前沿大模型不斷升級,帶動中國大模型產(chǎn)業(yè)的發(fā)展。基于數(shù)字行研解決方案的研究和實踐基礎(chǔ),沙利文聯(lián)合頭豹研究院憑借百人分析師團隊匿名投票機制,篩選了12個大模型,進行了多維度的綜合評估,旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)。來源:沙利文、頭豹研究院400-072-558810大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——評測方法與指標?

本次大模型行研能力測試覆蓋1,800+題目,由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程,圍繞研究報告撰寫能力,模型基礎(chǔ)能力以及行業(yè)綜合理解能力進行綜合評測大模型行研能力評測方法A.報告撰寫能力問題B.行研基礎(chǔ)能力問題C.行業(yè)理解能力問題????????行業(yè)定義行業(yè)分類行業(yè)特征發(fā)展歷程產(chǎn)業(yè)鏈分析市場規(guī)模政策分析競爭格局??????邏輯推理類比遷移文本生成意圖理解知識儲備語境轉(zhuǎn)換????????金融業(yè)醫(yī)療業(yè)制造業(yè)互聯(lián)網(wǎng)科技業(yè)零售業(yè)教育業(yè)運輸業(yè)….12個大模型n本次測試覆蓋三大板塊,1,800+道題目,由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程得出,最大程度保證公允性本次大模型能力測試圍繞三大核心板塊展開評測:分別是研究報告撰寫能力,模型基礎(chǔ)能力以及行業(yè)綜合理解能力。通過模型在三大核心板塊的表現(xiàn)力最終得出評測結(jié)果。其中,報告撰寫覆蓋8篇不同主體報告撰寫,涵蓋128道問題,分析師長期跟蹤報告問題累積超1,500道題;模型能力覆蓋6大文本產(chǎn)出核心能力,涵蓋54道問題;行業(yè)理解覆蓋14大核心行業(yè),每個行業(yè)涉及12個問題,總計1,168題。三大維度合計1,800道題目。分析師團隊由頭豹研究院各團隊資深分析師組成,且均具備超過8個月的大模型使用經(jīng)歷。評測方法通過雙盲機制最大程度保證公允性,每名測試人員會隨機分配N個模型進行答案搜集,彼此在答案搜集期間互相禁止分享信息,以保持在答案評測階段的公允性;在評測階段,每個問題相對應的12個模型答案順序會隨機打亂,保證評測人員對答案不存在任何偏見。來源:沙利文、頭豹研究院400-072-558811大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——報告撰寫能力?

沙利文及頭豹行企研究的8-D方法論,是一種全面系統(tǒng)的研究方法,包含了八大關(guān)鍵模塊,用于對行業(yè)進行深入分析。在這一框架下,百名分析師研磨提煉一套高效的8D模塊提問方法,以對模型能力進行評測大模型報告撰寫能力行業(yè)研究報告撰寫邏輯權(quán)重占比行業(yè)定義10.0%行業(yè)分類10.0%對特定行業(yè)的基本性質(zhì)概述,涵蓋主要活動、服務或產(chǎn)品根據(jù)某些共同特征將不同的行業(yè)進行分組的過程,理解行業(yè)結(jié)構(gòu)行業(yè)特征17.5%發(fā)展歷程10.0%區(qū)分一個特定行業(yè)與其他行業(yè)的獨特屬性和條件,囊括多個維度描述行業(yè)從誕生到當前狀態(tài)所經(jīng)歷的各個階段和重要轉(zhuǎn)折點產(chǎn)業(yè)鏈分析

17.5%市場規(guī)模15.0%從原材料采購到最終產(chǎn)品銷售的整個流程進行完整分析審視在給定時間內(nèi)的總銷售額或總市場價值,反映經(jīng)濟影響力和潛力政策分析5.0%競爭格局15%對影響特定行業(yè)的政府政策、法規(guī)和指導原則的評估描述行業(yè)內(nèi)各企業(yè)間的競爭狀態(tài),包括市場份額分布和競爭動態(tài)變化概念引入八大維度分析法+歸納總結(jié)行業(yè)定義產(chǎn)業(yè)鏈分析概述類模塊分析類模塊44明確主體行業(yè)分類行業(yè)特征政策分析市場規(guī)模趨勢研判理清邊界觀點輸出發(fā)展歷程競爭格局n百名分析師經(jīng)過八個月實踐研磨提煉8D模塊的提示問題,以測試12大模型的報告撰寫能力沙利文聯(lián)合頭豹企業(yè)研究所采納的8-D方法論包括八個核心模塊,構(gòu)成了一套全面而系統(tǒng)的研究方法,專用于行業(yè)的深入分析。結(jié)合詳實的數(shù)據(jù)和精準的分析,此方法能夠提煉出深刻的觀點和結(jié)論,顯著提升行業(yè)研究內(nèi)容的清晰度和數(shù)據(jù)的豐富性。在該方法論的指導下,百名分析師歷經(jīng)八個月的密集工作及多次優(yōu)化,精制而成一套高效的8D模塊化大模型提示問題法。這套精練的提問技巧已轉(zhuǎn)化為評估工具,旨在通過對十二個主要模型的針對性提問,檢驗并評估模型報告撰寫的效能。來源:沙利文、頭豹研究院400-072-558812大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——行研基礎(chǔ)能力?

從AI輔助文本創(chuàng)作角度出發(fā),結(jié)合文字生成基礎(chǔ)核心能力,歸總出對于行業(yè)研究報告撰寫角度最核心的六大能力維度,包括邏輯推理、文本生成、類比遷移、語境轉(zhuǎn)換、意圖理解以及知識儲備大模型行研基礎(chǔ)能力邏輯推理文本生成基于已知信息通過推理得出結(jié)論內(nèi)容生成連貫、清晰、正確且具備時效性類比遷移語境轉(zhuǎn)換從A領(lǐng)域到B領(lǐng)域轉(zhuǎn)移概念或原則在不同交流環(huán)境調(diào)整信息的表達方式模型基礎(chǔ)能力意圖理解知識儲備明晰提問者目的和深層意圖模型在特定領(lǐng)域掌握的信息集合n從AI輔助文本創(chuàng)作角度出發(fā),結(jié)合大模型基礎(chǔ)核心能力,歸總出對于行業(yè)研究報告撰寫角度最重要的六大能力維度邏輯推理:邏輯推理是指從已知信息出發(fā),通過推論規(guī)則得出結(jié)論的過程。在內(nèi)容評判中,關(guān)注信息組織、連接和推導的方式,以及結(jié)論是否合理、一致,且基于事實。類比遷移:類比遷移是指從一個領(lǐng)域或情境中提取概念、原則或模式,并應用到另一個不同的領(lǐng)域或情境。在內(nèi)容評判中,評估模型在不同概念、情境之間建立聯(lián)系的能力,以及這些聯(lián)系的適當性和創(chuàng)造性。文本生成:文本生成是指創(chuàng)建連貫、相關(guān)和有意義的文本內(nèi)容。在評判內(nèi)容時,評估文本的清晰度、連貫性、原創(chuàng)性以及語言的正確性和表達能力。意圖理解:意圖理解是指識別和理解用戶或作者想要傳達的目的和動機。在內(nèi)容評判中,評估信息是否有效地傳達了其預期的消息或意圖,以及模型是否能清楚地識別這些意圖。知識儲備:知識儲備是指個體或系統(tǒng)所掌握的信息、事實、概念和理論的總和。在內(nèi)容評判中,知識儲備體現(xiàn)在信息的準確性、深度和廣度,以及模型能否正確并有效地使用相關(guān)知識。語境轉(zhuǎn)換:語境轉(zhuǎn)換是指根據(jù)不同的交流環(huán)境或?qū)ο笳{(diào)整信息表達方式。在內(nèi)容評判中,評估信息是否適應特定的受眾、文化背景或溝通場合,以及是否能有效地調(diào)整語氣、風格和內(nèi)容以滿足不同場景下的寫作需求。來源:沙利文、頭豹研究院400-072-558813大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——行業(yè)理解能力?

頭豹研究院成立至今匯集超5,000+行企報告,覆蓋超14個大類行業(yè)以及上千個細分小類行業(yè)。本次評測匯集百余名各資深行業(yè)分析師,結(jié)合自身領(lǐng)域認知,對模型在14大行業(yè)的理解和產(chǎn)出能力進行評估大模型行業(yè)理解能力14大行業(yè)金融業(yè)互聯(lián)網(wǎng)科技房地產(chǎn)業(yè)證券/保險/基金云計算/大數(shù)據(jù)/人住宅開發(fā)/商業(yè)地產(chǎn)/工智能物業(yè)管理醫(yī)療業(yè)零售業(yè)農(nóng)林牧漁醫(yī)院服務/醫(yī)療器械/生物技術(shù)超市/專賣店/電子商務農(nóng)作物種植/畜牧業(yè)/水產(chǎn)養(yǎng)殖/林業(yè)制造業(yè)教育業(yè)采礦業(yè)汽車制造/消費品制造/工業(yè)設(shè)備K-12教育/高等教育/職業(yè)培訓煤炭開采/金屬礦開采能源業(yè)咨詢服務業(yè)旅游業(yè)石油與天然氣/可再生能源管理咨詢/人力資源咨詢/IT咨詢酒店/景點/旅行社等運輸業(yè)泛娛樂業(yè)貨運物流/客運交通/航空運輸/鐵路運輸?shù)入娪?電視/音樂/電子競技等n頭豹研究院成立至今匯集超5,000+行企報告,覆蓋超14個大類行業(yè)以及上千個細分小類行業(yè)。本次評測匯集頭豹研究院百余名各資深行業(yè)分析師,結(jié)合自身特定領(lǐng)域認知與經(jīng)驗,對模型在14大行業(yè)的理解和產(chǎn)出能力進行評估沙利文聯(lián)合頭豹研究院成立至今,平臺共積累超12萬+注冊用戶,5,000+行業(yè)企業(yè)研究報告積累,覆蓋14個大類行業(yè),以及上千個細分小類行業(yè)。沙利文聯(lián)合頭豹的精英分析師團隊以及各項研究成果廣泛受到金融、制造、互聯(lián)網(wǎng)科技等各個行業(yè)領(lǐng)域的用戶認可。當前,頭豹已發(fā)展成為中國最大的行企研究平臺之一,擁有行業(yè)覆蓋程度廣、報告庫數(shù)量多、報告撰寫效率高、行業(yè)知識精準度高四大優(yōu)勢。在本次大模型評測中,頭豹研究院聯(lián)合其上海、南京和深圳分院,匯聚了跨越多個行業(yè)領(lǐng)域的百余名分析師,利用自身對競爭格局、發(fā)展趨勢、制約因素、以及行業(yè)壁壘等關(guān)鍵知識領(lǐng)域的深厚理解,并結(jié)合豐富的行業(yè)報告撰寫經(jīng)驗,向模型提出了針對14個主要行業(yè)的細致問題。通過對模型在各特定行業(yè)細分領(lǐng)域的縱向評估和全行業(yè)范圍的橫向比較,最終確定了12大模型在行業(yè)理解和內(nèi)容產(chǎn)出方面的深度與能力。來源:沙利文、頭豹研究院400-072-558814大模型評測

|

2023/12中國:人工智能系列Chapter

2大模型行研能力評測結(jié)果q

商湯科技——商湯商量q

百度——文心一言3.5q

OpenAI——GPT3.5q

阿里云——通義千問q

昆侖萬維——天工q

百川智能——百川q

科大訊飛——訊飛星火q

騰訊云——騰訊混元q

智譜AI——智譜清言q

武漢人工智能研究院——紫東太初q

名之夢——MiniMaxq

中科聞歌——雅意400-072-558815大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——評測結(jié)果?

資深分析師團隊根據(jù)三大維度,總計1,800+道題目,對十二大市場主流大模型進行評估測試。評測結(jié)果顯示,商湯商量、文心一言3.5、GPT3.5、訊飛星火以及騰訊混元處在第一梯隊,綜合實力強勁中國大模型行研能力綜合評測結(jié)果排模型名稱企業(yè)機構(gòu)

八大模塊得分

排名

模型能力得分

排名

行業(yè)能力得分

排名

總得分名GPT3.5OpenAI商湯商量百度7.588.278.088.107.587.447.587.387.347.26517.928.177.837.336.756.586.586.426.336.67217.016.556.786.276.506.726.326.356.336.09147.297.737.487.257.066.926.906.816.766.741商湯商量2

文心一言3.53323456789訊飛星火騰訊混元智譜清言天工科大訊飛騰訊2410565智譜AI昆侖萬維百川773479百川897通義千問Minimax阿里云名之夢910681111武漢人工智能研究院10

紫東太初11

雅意7.33106.08116.4166.686.54中科聞歌7.23126.08115.9912國產(chǎn)大模型行研能力綜合評測結(jié)果第一梯隊第二梯隊第三梯隊商湯商量

文心一言

訊飛星火混元智譜天工行研基礎(chǔ)能力百川通義千問

Minimax

紫東太初

中科聞歌報告撰寫能力行業(yè)理解能力備注:評測的時間于11月15日至11月30日,評選的模型基于目前市場上開放且可用的版本。在此次評測中,GPT和文心一言均選用3.5公測版本進行評測。來源:沙利文、頭豹研究院400-072-558816大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——報告撰寫能力?

模型在報告撰寫能力板塊的表現(xiàn)中,商湯商量、訊飛星火以及文心一言3.5占據(jù)前三甲。其余模型的表現(xiàn)各有千秋,例如紫東在行業(yè)特征的歸納總結(jié)能力較強,Minimax則在發(fā)展歷程和產(chǎn)業(yè)鏈分析細分維度表現(xiàn)優(yōu)秀大模型報告撰寫能力評測結(jié)果行業(yè)特征發(fā)展歷程產(chǎn)業(yè)鏈市場規(guī)模政策分析競爭格局排名模型名稱總得分定義分類12商湯商量訊飛星火文心一言3.5天工8.278.108.087.587.587.587.447.387.347.337.267.23345GPT3.56騰訊混元智譜清言百川789通義千問紫東太初Minimax雅意101112得分高得分低報告撰寫能力由模型在定義、分類、行業(yè)特征、發(fā)展歷程、產(chǎn)業(yè)鏈、市場規(guī)模、政策分析以及競爭格局8D模塊的表現(xiàn)綜合評定而成n模型在報告撰寫評測的表現(xiàn)中,商量、訊飛星火、以及文心一言3.5是表現(xiàn)TOP3的模型,其中商湯商量在8D模塊均表現(xiàn)強勁,訊飛星火在高難度撰寫板塊展現(xiàn)一定實力根據(jù)大模型報告撰寫能力綜合熱力矩陣圖可以看出商湯商量是綜合能力最強的模型,且在各個板塊的表現(xiàn)穩(wěn)定處在前列位置。訊飛星火雖在發(fā)展歷程失分較為嚴重,但在市場規(guī)模、政策分析以及競爭格局的高難度撰寫板塊中表現(xiàn)強勁。來源:沙利文、頭豹研究院400-072-558817大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——報告撰寫能力表現(xiàn)?

在報告撰寫評測中,不同平臺表現(xiàn)存在顯著差異。例如,商量憑借其穩(wěn)定性和在關(guān)鍵模塊的領(lǐng)先優(yōu)勢顯著。而GPT3.5和百川因信息庫更新不足及答案完整性與準確性問題,在高權(quán)重模塊中失分較多大模型報告撰寫能力評測結(jié)果7.56.55.54.5產(chǎn)業(yè)鏈商湯商量定義發(fā)展歷程訊飛星火分類競爭格局

市場規(guī)模文心一言特征天工政策分析GPT3.5(參考模型)騰訊混元紫東太初智譜百川通義千問Minimax中科聞歌n在報告撰寫評測中,各平臺表現(xiàn)各異,其中商量整體表現(xiàn)穩(wěn)定且領(lǐng)先,而GPT3.5和百川因信息更新和答案完整性問題而在某些關(guān)鍵模塊中失分較多在報告撰寫能力評測中,商量的整體表現(xiàn)穩(wěn)定,在8D模塊中均超過均分,領(lǐng)先于其他。文心一言3.5和星火表現(xiàn)出波動,例如訊飛在發(fā)展歷程和競爭格局低于均分,但在分類任務中表現(xiàn)最佳。天工在發(fā)展歷程、市場規(guī)模和定義方面表現(xiàn)優(yōu)秀,但在產(chǎn)業(yè)鏈方面略顯不足。GPT3.5在競爭格局和市場規(guī)模中失分較多,主要因為其信息庫較舊,無法提供有效價值信息,影響了其在報告撰寫的綜合表現(xiàn)。智譜清言和通義千問的綜合表現(xiàn)穩(wěn)定,在8D各模塊中與均分相近,其中智譜清言在政策分析方面表現(xiàn)優(yōu)異,通義千問在特征環(huán)節(jié)表現(xiàn)突出。百川的表現(xiàn)波動較大,尤其是在政策模塊由于無法給出答案,導致失分嚴重,影響了整體均分。紫東太初和雅意的表現(xiàn)相似,除在特征和政策分析模塊外,其他分值走勢幾乎一致。Minimax在8D模塊中五項略高于均分,但在產(chǎn)業(yè)鏈和競爭格局這兩個高權(quán)重模塊中失分嚴重。來源:沙利文、頭豹研究院400-072-558818大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

產(chǎn)業(yè)鏈分析是8D模塊中最具挑戰(zhàn)性和權(quán)重最高的部分,考驗大模型在行業(yè)定義、信息檢索和價值挖掘方面的能力,其中商湯商量、文心一言3.5和訊飛星火憑借出色的知識儲備和邏輯推理表現(xiàn)優(yōu)異大模型產(chǎn)業(yè)鏈分析能力評測結(jié)果產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈均值:5.80n產(chǎn)業(yè)鏈分析作為8D模塊中最具挑戰(zhàn)性且權(quán)重最高的部分,考驗著大模型在定義行業(yè)、信息檢索和價值挖掘方面的綜合能力,其中商湯商量、文心一言3.5和訊飛星火因其優(yōu)秀的知識儲備和邏輯推理能力在這一模塊中表現(xiàn)突出產(chǎn)業(yè)鏈分析是高階難度撰寫模塊之一,權(quán)重在評測分數(shù)中占到了17.5%,是8D模塊中評測得分權(quán)重最大的模塊。其復雜性源于需要大模型在三個關(guān)鍵維度進行深入的信息處理:首先是對特定行業(yè)產(chǎn)業(yè)鏈的上中下游及其參與者的精確界定;其次是在確認主體后,篩選出與各環(huán)節(jié)相關(guān)的關(guān)鍵信息;最后是對收集到的信息進行深度加工,探索產(chǎn)業(yè)鏈的價值流向和影響力,以提煉出對該行業(yè)宏觀層面的關(guān)鍵見解。這一系列步驟要求模型具備高度的信息檢索和邏輯歸納能力,且隨著過程的深入,難度逐漸增大。大模型在產(chǎn)業(yè)鏈分析表現(xiàn)均分為5.8分,是8D模塊的第二低分,側(cè)面反映了其內(nèi)容產(chǎn)出的難度。其中,商湯商量、文心一言3.5、百川、雅意、訊飛星火以及GPT3.5是表現(xiàn)優(yōu)異的模型,綜合表現(xiàn)高于均分。商湯商量、文心一言3.5以及訊飛星火得益于其優(yōu)秀的知識儲備能力以及邏輯推理歸納能力,在這一模塊表現(xiàn)優(yōu)秀。來源:沙利文、頭豹研究院400-072-558819大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

市場規(guī)模分析作為8D模塊中難度較高和權(quán)重第二的模塊,要求精確界定市場規(guī)模的測算標準和預測市場變化。在此模塊中,訊飛星火和天工因其在市場規(guī)模測算及未來變化推演方面的表現(xiàn)而尤其突出大模型市場規(guī)模能力評測結(jié)果市場規(guī)模市場規(guī)模均值:6.32n市場規(guī)模分析作為8D模塊中難度較高且權(quán)重第二的模塊,主要挑戰(zhàn)在于確定行業(yè)市場規(guī)模的測算標準和界限,以及分析和預測市場規(guī)模的過去和未來變化。其中,訊飛星火和天工在市場規(guī)模測算和未來變化推演方面表現(xiàn)突出市場規(guī)模是高階難度撰寫模塊之一,權(quán)重在評測分數(shù)中占到了15%,是8D模塊中評測得分權(quán)重第二高的模塊之一。市場規(guī)模測算是在給定時間內(nèi)的總銷售額或總市場價值,其價值意義是反映經(jīng)濟影響力和潛力。這一模塊的挑戰(zhàn)主要包括兩個方面:首先是定義特定行業(yè)的市場規(guī)模測算標準,比如選擇營收端還是成本端,并明確市場規(guī)模的界限,以確保測算結(jié)果的實際意義;其次是對過去五年及未來五年市場規(guī)模的變化進行原因分析和預測,這既考驗大模型的信息整合能力,也考驗其未來趨勢的預判能力。正因為這些要求,市場規(guī)模分析被認為是高難度撰寫模塊之一。大模型在市場規(guī)模分析表現(xiàn)均分為6.32分,是8D模塊的第五低分。在市場規(guī)模模塊,商湯商量、文心一言3.5、Minimax、智譜清言、訊飛星火以及GPT3.5是表現(xiàn)優(yōu)異的模型,綜合表現(xiàn)高于均分。訊飛星火和天工在市場規(guī)模測算口徑制定以及未來變化推演能力強,因此表現(xiàn)優(yōu)異。來源:沙利文、頭豹研究院400-072-558820大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

競爭格局分析是8D模塊中最具挑戰(zhàn)性的部分之一,主要考驗模型在精準篩選行業(yè)關(guān)鍵參與者和推演市場競爭態(tài)勢的能力。在該模塊中,商湯商量和訊飛星火因其在企業(yè)篩選和未來變化推演上的強大能力而表現(xiàn)杰出大模型競爭格局能力評測結(jié)果競爭格局競爭格局均值:5.74n競爭格局分析作為8D模塊中最具挑戰(zhàn)性的模塊之一,主要考驗模型在精準篩選行業(yè)關(guān)鍵參與者和推演市場競爭態(tài)勢的能力。在這一模塊中,商湯商量和訊飛星火因其在企業(yè)篩選和未來變化推演上的強大能力而表現(xiàn)杰出競爭格局是高階難度撰寫模塊之一,權(quán)重在評測分數(shù)中占到了15%,是8D模塊中評測得分權(quán)重第二高的模塊之一。競爭格局分析旨在闡述行業(yè)內(nèi)企業(yè)間的競爭狀況,涉及市場份額分布和競爭動態(tài)的變化,旨在揭示市場的當前競爭態(tài)勢,以便企業(yè)進行戰(zhàn)略調(diào)整。其挑戰(zhàn)在于準確篩選行業(yè)參與者,并歸納推演市場競爭態(tài)勢的形成原因及未來趨勢。首先,識別行業(yè)中的關(guān)鍵競爭者是一個復雜的任務,需要從眾多企業(yè)中精準挑選出既正確又具有強大競爭力的企業(yè)。其次,確定企業(yè)后,模型必須分析當前競爭情況的成因并預測其未來變化。這兩個環(huán)節(jié)都對模型的歸納和推演能力提出了高要求,使得競爭格局成為高難度撰寫模塊之一。大模型在競爭格局分析的表現(xiàn)均分為5.74分,是8D細分模塊的最低分。在競爭格局模塊,商湯商量、文心一言3.5、Minimax、智譜清言、雅意、騰訊混元、訊飛星火以及GPT3.5均表現(xiàn)出色,綜合表現(xiàn)高于均分。商湯商量和訊飛星火在企業(yè)篩選以及未來變化推演能力較強,在競爭格局表現(xiàn)杰出。來源:沙利文、頭豹研究院400-072-558821大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

行業(yè)特征分析是8D模塊中的高難度部分,挑戰(zhàn)在于處理海量數(shù)據(jù)并提煉深刻、獨創(chuàng)的見解。在這一模塊中,大模型整體的表現(xiàn)差異不大,其中通義千問因其簡潔性、豐富論據(jù)及深度獨創(chuàng)性,在此模塊中表現(xiàn)優(yōu)異大模型行業(yè)特征能力評測結(jié)果行業(yè)特征行業(yè)特征均值:6.27n行業(yè)特征分析作為8D模塊中的一個高難度撰寫部分,主要挑戰(zhàn)在于綜合處理海量數(shù)據(jù)、提煉具有深度的代表性見解以及展現(xiàn)獨創(chuàng)性。其中通義千問因其簡潔性、豐富論據(jù)及深度獨創(chuàng)性,在此模塊中表現(xiàn)優(yōu)異行業(yè)特征是高階難度撰寫模塊之一,權(quán)重在評測分數(shù)中占到了17.5%,是8D模塊中評測得分權(quán)重最高的模塊之一。行業(yè)特征分析旨在區(qū)分一個特定行業(yè)與其他行業(yè)的獨特屬性和條件,價值在于披露行業(yè)獨有的價值信息以供投資管理決策。行業(yè)特征的核心難度在于信息量的維度,不同于其它模塊,行業(yè)特征的提示問題缺少明確指向性,需要大模型根據(jù)特定行業(yè)的海量數(shù)據(jù)資料去總結(jié)歸納最符合當下行業(yè)的實際特征。行業(yè)特征的質(zhì)量取決于兩點,一點是深度,也就是該行業(yè)特征是否對特定行業(yè)有足夠的代表性。另一點是獨創(chuàng)性,也就是對特定行業(yè)是否有獨到的見解,而非泛泛而談。由于行業(yè)特征的問題較為寬泛且模型需要篩選的信息量極大,因此撰寫難度極高。大模型在競爭格局分析的表現(xiàn)均分為6.27分,從結(jié)果看是8D模塊中表現(xiàn)較好的模塊。在行業(yè)特征模塊,多個模型綜合表現(xiàn)高于均分,其中通義千問的回答簡潔性強,論據(jù)豐富且具有一定深度與獨創(chuàng)性,因此在特征模塊表現(xiàn)優(yōu)異。來源:沙利文、頭豹研究院400-072-558822大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——低階難度模塊表現(xiàn)?

行業(yè)定義、行業(yè)分類、發(fā)展歷程以及政策分析在行研撰寫中難度較低,重點聚集在信息搜集的準確度。在低難度撰寫模塊中,12大模型沒有顯著的差距,但部分模型由于在特定模塊中無法回答,因此失分嚴重大模型報告撰寫能力低階難度模塊評測結(jié)果行業(yè)定義行業(yè)分類定義均值:6.48分類均值:6.93發(fā)展歷程政策分析發(fā)展歷程均值:6.52政策分析均值:6.12n模型在低難度報告撰寫模塊的表現(xiàn)中,商湯商量和訊飛星火表現(xiàn)最為優(yōu)秀,在四個模塊的評測得分均顯著高于均分行業(yè)定義、行業(yè)分類、發(fā)展歷程以及政策分析在行研撰寫中難度較低,這四大模塊重點落在信息搜集的準確度,對歸納推理的整體要求較低,更多考察模型的知識庫豐富性以及把握信息準確性的能力。在低難度撰寫模塊中,12大模型整體的表現(xiàn)較為平均,模型之間沒有顯著的差距。但部分模型在發(fā)展歷程和政策分析模塊中無法給出明確的答案,從而導致失分情況嚴重,對最終均分影響較大。來源:沙利文、頭豹研究院400-072-558823大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——報告撰寫能力分布?

商湯商量、科大訊飛星火以及文心一言3.5是模型報告撰寫能力排名前三甲。在報告撰寫的細分模塊中,行業(yè)定義和分類的平均得分較高,撰寫難度相對較低。產(chǎn)業(yè)鏈、競爭格局和市場規(guī)模得分較低,撰寫難度大大模型報告撰寫能力分布商湯商量:商量科大訊飛:訊飛星火產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局百度:文心一言3.5昆侖萬維:天工產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局騰訊:混元OpenAI:GPT3.5產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局來源:沙利文、頭豹研究院400-072-558824大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——報告撰寫能力分布?

商湯商量、科大訊飛星火以及文心一言3.5是模型報告撰寫能力排名前三甲。在報告撰寫的細分模塊中,行業(yè)定義和分類的平均得分較高,撰寫難度相對較低。產(chǎn)業(yè)鏈、競爭格局和市場規(guī)模得分較低,撰寫難度大大模型報告撰寫能力分布智譜AI:清言百川:百川產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局阿里云:通義千問武漢人工智能研究院:紫東太初產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局中科聞歌:雅義名之夢:MiniMax產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局來源:沙利文、頭豹研究院400-072-558825大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力?模型在行研基礎(chǔ)能力的表現(xiàn)差異顯著,商湯商量、GPT3.5以及文心一言3.5占據(jù)前三甲,整體領(lǐng)先幅度較大。排名靠后的模型雖然綜合評分較低,但在細分模塊仍有優(yōu)異表現(xiàn),例如智譜清言和百川在意圖理解能力高于均分大模型行研基礎(chǔ)能力評測結(jié)果排名模型名稱總得分類比遷移

邏輯推理

文字生成

意圖理解

語境轉(zhuǎn)換

知識儲備12商湯商量GPT3.58.177.927.837.336.756.676.586.586.426.336.176.083文心一言3.5訊飛星火騰訊混元Minimax天工45677智譜清言百川91011通義千問紫東太初雅意12得分高得分低模型基礎(chǔ)能力由模型在類比遷移、邏輯推理、文字生成、意圖理解、語境轉(zhuǎn)換、知識儲備六大問題經(jīng)過基礎(chǔ)題庫測試與報告撰寫的分析師評測綜合評定而成n模型在基礎(chǔ)能力評測的表現(xiàn)中,商湯商量、GPT3.5、以及文心一言3.5占據(jù)前三甲根據(jù)大模型基礎(chǔ)能力綜合熱力矩陣圖可以看出表現(xiàn)TOP3的模型分別為商湯商量、GPT3.5以及文心一言3.5。其中,商湯商量在語境轉(zhuǎn)換和知識儲備板塊排名第一,訊飛星火則在邏輯推理和文字生成部分達到第一。值得關(guān)注的其它模型中,排名第8的智譜清言在意圖理解的能力最強。而天工在長文本生成和生成速度方便較為優(yōu)秀。來源:沙利文、頭豹研究院400-072-558826大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力表現(xiàn)?

在行研基礎(chǔ)能力評測中,GPT3.5、商湯商量和文心一言3.5穩(wěn)定領(lǐng)先,展現(xiàn)出各自在邏輯推理、文字生成和意圖理解的強項,而其他模型如天工、智譜清言等表現(xiàn)波動,模型底層能力還有待改善大模型行研基礎(chǔ)能力評測結(jié)果12.011.010.09.08.07.06.05.04.03.02.0類比遷移邏輯推理文字生成意圖理解語境轉(zhuǎn)換知識儲備商湯商量天工GPT3.5文心一言百川訊飛星火通義千問騰訊混元紫東太初Minimax智譜清言中科聞歌n模型在行研基礎(chǔ)能力評測維度中,商湯商量、GPT3.5、以及文心一言3.5表現(xiàn)穩(wěn)定性強,在單一模塊能力各有領(lǐng)先在行研基礎(chǔ)能力評測中,商湯商量、GPT3.5和文心一言3.5三大領(lǐng)先模型發(fā)揮最為穩(wěn)定。其中,GPT3.5在邏輯推理能力上排名領(lǐng)先,商湯商量在文字生成和語境轉(zhuǎn)換方面表現(xiàn)良好,而文心一言3.5則在意圖理解方面領(lǐng)先于其他模型;天工、智譜清言和百川的表現(xiàn)高度波動,如智譜清言在文字生成方面接近滿分,但在意圖理解和邏輯推理上遠低于均分。這種高波動性表明這些模型在實際使用中可能影響行研任務的整體效果。訊飛星火、騰訊混元以及Minimax在行研基礎(chǔ)能力的表現(xiàn)較為平穩(wěn),但存在一定波動性。例如,Minimax雖在類比遷移和知識儲備方面展示了其強大的實力,但在文字生成表現(xiàn)伐善,排名墊底。通義千問、紫東太初和雅意整體表現(xiàn)較弱,在邏輯推理和意圖理解等高維模塊能力上較弱,但這也反映出它們在模型參數(shù)量和微調(diào)方面與領(lǐng)先模型存在差距。來源:沙利文、頭豹研究院400-072-558827大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

類比遷移能力是將復雜概念與熟悉情境相聯(lián)系,簡化了認知過程,使得在行業(yè)研究中理解和記憶這些概念變得更加清晰和高效。在類比遷移能力評估中,智譜清言、Minimax和GPT-3.5在位居前三大模型類比遷移能力評測結(jié)果類比遷移類比遷移均值:6.96n類比遷移簡化了復雜概念的理解與記憶,通過將其與熟悉情境聯(lián)系,能夠提升行業(yè)研究的效率。在類比遷移的能力評估中,智譜清言、Minimax和GPT-3.5表現(xiàn)最佳類比遷移的定義是從一個領(lǐng)域或情境提取并應用概念、原則或模式至另一不同領(lǐng)域或情境的過程,在行業(yè)研究中對理解復雜概念發(fā)揮著關(guān)鍵作用。它通過將抽象或難以把握的概念與熟悉的情境相聯(lián)系,簡化了認知過程。例如,在金融領(lǐng)域,利用水流的類比來闡釋資金流動的機制;在技術(shù)領(lǐng)域,則可通過類比電路來解釋數(shù)據(jù)傳輸原理。這種方法不僅促進了新舊知識間的聯(lián)系,還加深了對復雜概念的理解和記憶,因為它觸動了對已知概念的認知和情感共鳴。在12大模型的類比遷移能力評估中,智譜清言、Minimax和GPT-3.5在內(nèi)容的清晰度、易理解性和結(jié)構(gòu)化方面位居前三,而商湯商量、天工和雅意則表現(xiàn)出超越平均水平的性能。這些領(lǐng)先模型在類比遷移任務上的優(yōu)異表現(xiàn),使讀者能夠以最小的努力和時間理解復雜概念的核心原理。來源:沙利文、頭豹研究院400-072-558828大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

邏輯推理能力對行業(yè)研究至關(guān)重要,具備優(yōu)質(zhì)邏輯推理能力的大模型能從數(shù)據(jù)中提煉關(guān)鍵信息,并通過結(jié)構(gòu)化分析深入理解市場動態(tài),從而產(chǎn)出高價值內(nèi)容。在此能力上,GPT-3.5、文心一言3.5和訊飛星火表現(xiàn)最佳大模型邏輯推理能力評測結(jié)果邏輯推理邏輯推理均值:7.13n邏輯推理能力通過從現(xiàn)有數(shù)據(jù)中提煉關(guān)鍵信息,并結(jié)構(gòu)化的分析深入洞察市場動態(tài),從而指導高質(zhì)量行研內(nèi)容的產(chǎn)出。在邏輯推理能力中,模型表現(xiàn)差異大,GPT3.5、文心一言3.5以及訊飛星火是表現(xiàn)TOP3的模型邏輯推理的定義是從已知信息出發(fā),通過嚴謹?shù)耐普撘?guī)則得出結(jié)論的關(guān)鍵過程,在行業(yè)研究中的重要性不言而喻。這一能力不僅是理解復雜問題、制定有效策略、以及作出精確決策的基礎(chǔ),而且在深化行業(yè)分析和提升信息價值方面起著核心作用。優(yōu)秀的邏輯推理能力使研究者能從現(xiàn)有數(shù)據(jù)中提煉模式,建立關(guān)聯(lián),從而洞察行業(yè)動態(tài)和市場趨勢,進而生成深入且有價值的分析。在多個模型的邏輯推理能力評比中,GPT-3.5、文心一言3.5和訊飛星火表現(xiàn)尤為突出,而商湯商量、騰訊混元和百川等也超越了平均水平。這些模型在處理復雜信息時展現(xiàn)了卓越的結(jié)構(gòu)化呈現(xiàn)能力,能夠用精簡而清晰的文字表達復雜的推理過程。同時,它們在信息綜合、歸納和推導方面表現(xiàn)出色,能夠有效地提煉關(guān)鍵信息點,為行業(yè)研究提供深度分析和有價值的見解。來源:沙利文、頭豹研究院400-072-558829大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

意圖理解能力在大模型輔助行業(yè)研究中影響顯著,意圖理解能力強的模型能準確理解問題的多層面含義,高效產(chǎn)出符合需求的深度分析和創(chuàng)新方案。其中,智譜清言、文心一言3.5和百川表現(xiàn)尤為突出大模型意圖理解能力評測結(jié)果意圖理解意圖理解均值:6.75n意圖理解能力需要大模型能夠準確捕捉問題的多層面含義,從而高效生成于需求相符的深入分析和創(chuàng)新解決方案。在意圖理解能力中,智譜清言、文心一言3.5和百川表現(xiàn)突出意圖理解的定義是識別和理解用戶或作者傳達的目的和動機的過程,在大模型輔助行業(yè)研究寫作中發(fā)揮著關(guān)鍵作用。大模型在意圖理解方面不僅涉及對問題表層含義的解讀,更深入其背后的深層意圖和需求,特別是在面對復雜、晦澀或高負荷任務時顯得尤為重要。這種能力使得模型能夠更高效、精準地產(chǎn)出與提問者需求相匹配的內(nèi)容,從而提升行業(yè)研究的質(zhì)量和效率。在對大模型進行意圖理解能力的評估中,智譜清言、文心一言3.5和百川在眾多模型中表現(xiàn)尤為突出,而GPT-3.5、訊飛星火和Minimax也超過了平均水平。這些模型在邏輯和情感層面的意圖理解問題上表現(xiàn)優(yōu)異,不僅能準確識別問題的各個層面,還能基于深層理解提供更加滿意和有效的解決方案。這種能力對于深入挖掘行業(yè)動態(tài)、發(fā)現(xiàn)潛在問題、并提出創(chuàng)新的解決策略至關(guān)重要。來源:沙利文、頭豹研究院400-072-558830大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

語境轉(zhuǎn)換能力使得大模型能夠適應各行業(yè)的專業(yè)術(shù)語、風格和信息需求,靈活調(diào)整信息表達以提供符合需求的專業(yè)分析。在此能力方面,商湯商量、訊飛星火和騰訊混元表現(xiàn)優(yōu)異,位居前三位大模型語境轉(zhuǎn)換能力評測結(jié)果語境轉(zhuǎn)換語境轉(zhuǎn)換均值:6.75n語境轉(zhuǎn)換能力能夠根據(jù)不同的交流環(huán)境和對象,靈活調(diào)整信息表達方式,以適應各行業(yè)的專業(yè)術(shù)語、風格和信息需求,從而提供專業(yè)且符合需求的分析內(nèi)容。在語境轉(zhuǎn)換能力中,商湯商量、訊飛星火以及騰訊混元表現(xiàn)優(yōu)異語境轉(zhuǎn)換的定義是根據(jù)交流環(huán)境或?qū)ο笳{(diào)整信息表達的過程,在大模型輔助行業(yè)研究中具有至關(guān)重要的作用。這一能力使得模型能夠在不同討論環(huán)境和專業(yè)領(lǐng)域之間靈活切換,準確把握并適應各行業(yè)的專業(yè)術(shù)語、表達風格和信息需求。例如,模型能夠在口語化和書面化等不同表達場景之間有效轉(zhuǎn)換語境,提供精準、專業(yè)且符合行業(yè)需求的分析內(nèi)容。在12大模型的語境轉(zhuǎn)換能力評估中,訊飛星火、商湯商量和騰訊混元表現(xiàn)最為出色,而GPT-3.5、雅意和紫東太初也展現(xiàn)了超越平均水平的表現(xiàn)。這些模型在語境轉(zhuǎn)換方面的優(yōu)勢表現(xiàn)在能夠更全面地滿足提問詞要求,如在將口語內(nèi)容轉(zhuǎn)化為專業(yè)表述時,它們能避免使用非專業(yè)詞匯,同時確保內(nèi)容的完整性和專業(yè)性,從而為用戶提供符合要求且令人滿意的研究內(nèi)容。來源:沙利文、頭豹研究院400-072-558831大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

文本生成能力體現(xiàn)大模型在內(nèi)容生成速度、長度以及豐富性方面的卓越能力,能夠顯著地提升了行業(yè)研究的效率和成果質(zhì)量。在生成能力方面,昆侖天工、商湯商量以及紫東太初表現(xiàn)出色大模型文本生成能力評測結(jié)果文本生成文本生成均值:6.88n文本生成能力包括生成速度和長度兩方面,迅速響應研究需求和提供靈活、高質(zhì)量的分析能夠顯著提升行業(yè)研究的效率和成果質(zhì)量。在生成能力方面,昆侖天工、商湯商量以及紫東太初表現(xiàn)出色大模型在文本生成速度和長度方面的能力對行業(yè)研究的輔助具有顯著影響。高效的文本生成速度使得模型能夠迅速響應緊急研究需求和處理大量數(shù)據(jù),為研究人員提供及時的信息和分析。模型的能力在處理不同長度的文本方面體現(xiàn)了其靈活性,既能提供簡明扼要的概覽,也能深入展開全面的分析。這種適應性使得大模型在行業(yè)研究中成為一個有效的工具,無論是快速構(gòu)思還是編寫詳細的報告和分析,都能提高研究效率和成果質(zhì)量。在12大模型的文本生成能力評估中,昆侖天工、商湯商量和紫東太初表現(xiàn)最為出色,而文心一言3.5、訊飛星火和雅意也展現(xiàn)了優(yōu)于平均水平的性能。這些模型在文本生成方面不僅速度快,而且保持了內(nèi)容的連貫性和邏輯性。在長文本生成任務中,這些頂尖模型能夠輸出大量文字,同時保證內(nèi)容質(zhì)量不因字數(shù)增加而降低。此外,即使在短時間內(nèi)應對多個問題的高壓測試中,這些優(yōu)秀模型也能保持穩(wěn)定的輸出效率。來源:沙利文、頭豹研究院400-072-558832大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力細分模塊?

大模型的知識儲備能力為行業(yè)研究提供了豐富、多元的最新信息,助力分析師快速洞察市場趨勢和關(guān)鍵問題。在知識儲備能力的考察中,商湯商量、GPT-3.5和文心一言3.5表現(xiàn)最為出色大模型知識儲備能力評測結(jié)果知識儲備知識儲備均值:6.96n大模型的知識儲備能力能夠提供豐富、多元和最新的信息,幫助分析師迅速把握趨勢、識別關(guān)鍵問題,并形成全面市場分析。在知識儲備能力方面,模型之間的表現(xiàn)差距細微,商湯商量、GPT3.5以及文心一言3.5是表現(xiàn)前三甲的模型大模型的知識儲備能力對輔助行業(yè)研究極為重要,為深入分析和決策提供了堅實的信息基礎(chǔ)。優(yōu)質(zhì)的知識儲備能力使得模型可以存儲和訪問大量的歷史數(shù)據(jù)、學術(shù)研究、行業(yè)報告和實時市場動態(tài),從而為研究人員提供豐富、多元和最新的信息來源。借助這些廣泛的知識資源,大模型可以幫助研究者迅速把握行業(yè)趨勢,識別關(guān)鍵問題,進行準確預測,并形成全面的市場分析。12大模型在知識儲備模塊的表現(xiàn)中,商湯商量、GPT3.5以及文心一言3.5是表現(xiàn)前三甲的模型,Minimax、百川以及昆侖天工表現(xiàn)超均分。優(yōu)質(zhì)模型在知識儲備方面的優(yōu)秀表現(xiàn)一方面是對于信息豐富度的呈現(xiàn),能夠在行業(yè)撰寫不同模塊中展現(xiàn)豐富的信息維度和深度。另一方面,優(yōu)秀的模型對信息的實時性把握性高,能夠產(chǎn)出時下最新的信息內(nèi)容。信息的豐富性和時效性對優(yōu)質(zhì)行業(yè)報告的產(chǎn)出幫助巨大。來源:沙利文、頭豹研究院400-072-558833大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力分布?

商湯商量、OpenAIGPT3.5以及文心一言3.5位列行研基礎(chǔ)能力排名前三甲。這三大模型的內(nèi)容輸出專業(yè)準確,觀點結(jié)構(gòu)化,且在知識儲備和快速高質(zhì)量的文字生成方面尤其突出,在行研基礎(chǔ)能力的綜合表現(xiàn)優(yōu)異大模型行研基礎(chǔ)能力分布商湯商量:商量OpenAI:GPT3.5類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備語境轉(zhuǎn)換邏輯推理文字生成意圖理解意圖理解百度:文心一言3.5科大訊飛:訊飛星火類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備語境轉(zhuǎn)換邏輯推理文字生成意圖理解意圖理解騰訊:混元名之夢:MiniMax類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備語境轉(zhuǎn)換邏輯推理文字生成意圖理解意圖理解來源:沙利文、頭豹研究院400-072-558834大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力分布?

商湯商量、OpenAIGPT3.5以及文心一言3.5位列行研基礎(chǔ)能力排名前三甲。這三大模型的內(nèi)容輸出專業(yè)準確,觀點結(jié)構(gòu)化,且在知識儲備和快速高質(zhì)量的文字生成方面尤其突出,在行研基礎(chǔ)能力的綜合表現(xiàn)優(yōu)異大模型行研基礎(chǔ)能力分布昆侖萬維:天工智譜AI:清言類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備語境轉(zhuǎn)換邏輯推理文字生成意圖理解意圖理解百川:百川阿里云:通義千問類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備語境轉(zhuǎn)換邏輯推理文字生成意圖理解意圖理解中科聞歌:雅義武漢人工智能研究院:紫東太初類比遷移類比遷移知識儲備語境轉(zhuǎn)換邏輯推理文字生成知識儲備邏輯推理文字生成語境轉(zhuǎn)換意圖理解意圖理解來源:沙利文、頭豹研究院400-072-558835大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行業(yè)理解能力結(jié)果?

在行業(yè)理解能力板塊的表現(xiàn)中,GPT3.5、文心一言3.5以及智譜清言位列前三名。大模型在行業(yè)的表現(xiàn)展現(xiàn)出一定的泛化性,例如GPT3.5在多個行業(yè)的表現(xiàn)都排名前列,而排名末尾的大模型則在大多行業(yè)低于均線大模型行業(yè)理解能力評測結(jié)果農(nóng)林牧漁咨詢服務互聯(lián)網(wǎng)泛娛樂房地產(chǎn)金融醫(yī)療教育制造零售采礦旅游運輸能源排名

模型名稱

總得分123456789GPT3.57.016.78文心一言3.5智譜清言

6.72商湯商量

6.55騰訊混元

6.50紫東太初

6.41百川通義千問

6.33天工

6.326.3510

訊飛星火

6.1211

Minimax

6.0912雅意5.99得分高得分低行業(yè)理解能力由模型在金融、醫(yī)療、教育、零售、泛娛樂、房地產(chǎn)等14大行業(yè)下的八大通識類問題的表現(xiàn)綜合評定而成n模型在行業(yè)理解能力評測的表現(xiàn)較為泛化,例如GPT3.5在全行業(yè)的表現(xiàn)優(yōu)秀。但不同模型在給自擅長的領(lǐng)域也有一定差異性,例如,商湯商量的在醫(yī)療業(yè)的得分位列第一根據(jù)模型行業(yè)排名14大行業(yè)綜合熱力矩陣圖可以看出模型在行業(yè)能力有一定的泛化性,例如GPT3.5在全行業(yè)表現(xiàn)都較為優(yōu)秀,而雅意則基本在全行業(yè)的表現(xiàn)乏善。這表明大模型在行業(yè)能力的表現(xiàn)會一定程度上受到模型本身訓練數(shù)據(jù)和能力的影響。來源:沙利文、頭豹研究院400-072-558836大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測分析——行業(yè)理解能力表現(xiàn)?

在14大行業(yè)理解能力評測中,GPT3.5、文心一言3.5和智譜清言整體表現(xiàn)突出,商湯商量和紫東太初在特定行業(yè)中優(yōu)異,而百川、通義千問等模型在穩(wěn)定性和特定領(lǐng)域的表現(xiàn)上需進一步提高大模型行業(yè)理解能力綜合表現(xiàn)7.56.55.54.5GPT3.5文心一言通義千問智譜清言天工商湯商量訊飛星火騰訊混元紫東太初中科聞歌百川Minimaxn在14大行業(yè)理解能力評測中,GPT3.5、文心一言3.5和智譜清言整體表現(xiàn)突出,商湯商量和紫東太初在特定行業(yè)中優(yōu)異,而百川、通義千問等模型在穩(wěn)定性和特定領(lǐng)域的表現(xiàn)上需進一步提高在對14大行業(yè)理解能力的評測中,GPT3.5展現(xiàn)出卓越的表現(xiàn)。緊隨其后的是文心一言3.5和智譜清言,兩者整體表現(xiàn)相似,但文心一言3.5略有領(lǐng)先。商湯商量在互聯(lián)網(wǎng)科技、金融、醫(yī)療、零售和咨詢服務業(yè)方面表現(xiàn)出色。紫東太初則憑借其豐富的知識庫和出色的文字生成能力,在行業(yè)理解方面表現(xiàn)優(yōu)異。相比之下,百川、通義千問、昆侖天工和訊飛星火的模型在穩(wěn)定性方面有所下降,不同領(lǐng)域的優(yōu)劣勢較為明顯。例如,百川在房地產(chǎn)、教育和醫(yī)療方面表現(xiàn)突出,但在零售和采礦業(yè)則失分較多。Minimax和雅意在部分行業(yè)中保持均分水平,但在特定行業(yè)的嚴重失分使得它們的整體平均分降低,如雅意在零售業(yè)的表現(xiàn)嚴重影響了其在行業(yè)理解能力的綜合評分。來源:沙利文、頭豹研究院400-072-558837大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——行業(yè)理解能力細分行業(yè)?

在互聯(lián)網(wǎng)科技行業(yè)研究中,高水平的數(shù)據(jù)分析、領(lǐng)域?qū)I(yè)知識等能力是生成專業(yè)實用內(nèi)容的關(guān)鍵,文心一言3.5、智譜清言、商湯商量以及天工能夠全面理解行業(yè)多個方面信息,在互聯(lián)網(wǎng)科技行業(yè)中位居第一梯隊大模型行業(yè)理解能力——互聯(lián)網(wǎng)科技業(yè)文心一言3.5智譜7.367.297.167.08商量天工混元6.666.656.646.63百川GPT3.5通義千問紫東太初中科聞歌訊飛星火Minimax6.586.376.296.22在互聯(lián)網(wǎng)科技行業(yè)研究中,重點分析技術(shù)創(chuàng)新、發(fā)展趨勢、競爭格局、政策和法規(guī)環(huán)境、用戶需求和行為。生成專業(yè)內(nèi)容需要高水平的數(shù)據(jù)分析、領(lǐng)域?qū)I(yè)知識、市場洞察能力,對大模型的計算資源和訓練數(shù)據(jù)有較高要求,以確保研究報告專業(yè)實用。n在互聯(lián)網(wǎng)科技行業(yè),文心一言3.5、智譜清言、商湯商量以及天工憑借其在多個層面精確且深度的理解回答,位居第一梯隊在互聯(lián)網(wǎng)科技行業(yè),文心一言3.5、智譜清言、商湯商量以及天工在行業(yè)分類上有著更為深入細致的理解,能夠精準把握不同子領(lǐng)域的特點和需求,還在發(fā)展演變上有著清晰完整的視野,能夠準確洞察行業(yè)的變化趨勢。例如,文心一言3.5在關(guān)于互聯(lián)網(wǎng)科技行業(yè)發(fā)展趨勢的回答上精準地提及了云計算、邊緣計算以及物聯(lián)網(wǎng)技術(shù)等核心要素,其對技術(shù)創(chuàng)新和業(yè)務模式變革的敏銳感知,使其能夠為客戶提供更具前瞻性和可持續(xù)性的解決方案。來源:沙利文、頭豹研究院400-072-558838大模型評測

|

2023/12中國:人工智能系列中國大模型行研能力評測——行業(yè)理解能力細分行業(yè)?

金融行業(yè)研究中,技術(shù)創(chuàng)新、監(jiān)管環(huán)境和市場趨勢是關(guān)鍵因素,需要深度行業(yè)理解、技術(shù)洞察和數(shù)據(jù)分析能力。GPT3.5、商湯商量、智譜清言以及騰訊混元憑借其對金融行業(yè)的深入理解和精準闡述脫穎而出大模型行業(yè)理解能力——金融業(yè)GPT3.5商量7.137.077.036.936.87智譜混元文心一言3.5通義千問百川6.586.58訊飛星火天工6.526.506.446.406.33中科聞歌紫東太初Minimax在金融行業(yè)研究中,重點分析技術(shù)創(chuàng)新對金融服務的影響、監(jiān)管環(huán)境和市場趨勢對金融機構(gòu)的戰(zhàn)略決策的影響。生成專業(yè)內(nèi)容需要深度行業(yè)理解、技術(shù)洞察、數(shù)據(jù)分析能力,對大模型的機器學習和深度學習技術(shù)有較高要求,以實現(xiàn)復雜數(shù)據(jù)模式的準確識別和風險管理的精細化。n在金融行業(yè)中,GPT3.5、商湯商量、智譜清言和騰訊混元憑借其對行業(yè)分類、定義、發(fā)展趨勢和制約因素的深入理解與精準闡述,位列該領(lǐng)域的第一梯隊在金融行業(yè),GPT3.5、商湯商量、智譜清言和騰訊混元以其出色的表現(xiàn)在行業(yè)分類、定義、發(fā)展趨勢和制約因素的分析上位居前列。以GPT-3.5為例,它通過六個專業(yè)維度對金融行業(yè)進行了全面而深入的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論