2023中國大模型行研能力評測報告-2024.02

上傳人：5*** IP屬地：廣東上傳時間：2024-05-15 格式：PPT 頁數(shù)：53 大小：4.44MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩48頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

2023年中國大模型行研能力評測AI變革行業(yè)創(chuàng)新發(fā)展2023

China

Large

Language

Model

Industry

Research

Evaluation2023年中國大規(guī)模モデル産業(yè)研究能力評価報告提供的任何內(nèi)容（包括但不限于數(shù)據(jù)、文字、圖表、圖像等）均系頭豹研究院獨有的高度機密性文件（在報告中另行標明出處者除外）。未經(jīng)頭豹研究院事先書面許可，任何人不得以任何方式擅自復制、再造、傳播、出版、引用、改編、匯編本報告內(nèi)容，若有違反上述約定的行為發(fā)生，頭豹研究院保留采取法律措施、追究相關(guān)人員責任的權(quán)利。頭豹研究院開展的所有商業(yè)活動均使用“頭豹研究院”或“頭豹”的商號、商標，頭豹研究院無任何前述名稱之外的其他分支機構(gòu)，也未授權(quán)或聘用其他任何第三方代表頭豹研究院開展商業(yè)活動。1頭豹研究院弗若斯特沙利文咨詢（中國）大模型評測

2023/12中國：人工智能系列摘要n大模型是自然語言處理領(lǐng)域中深度學習技術(shù)的高級應用。通過對海量文本數(shù)據(jù)進行深度訓練，能夠吸收和提煉出豐富的語言學知識和語義內(nèi)涵。這種大模型通常參數(shù)規(guī)模龐大，動輒數(shù)十億甚至數(shù)百億，從而具備理解和生成自然語言的能力，與人類溝通幾乎無障礙。它的應用場景廣泛，包括但不限于機器翻譯、智能問答、文本摘要等多個領(lǐng)域。從技術(shù)發(fā)展的視角來看，語言模型的演進歷程頗具啟發(fā)性。起初，基于深度神經(jīng)網(wǎng)絡(luò)進行訓練；隨后，業(yè)界逐漸采用預訓練結(jié)合微調(diào)的模式來提升性能；而如今，最先進的范式已經(jīng)轉(zhuǎn)向預訓練結(jié)合提示訓練，這無疑標志著模擬人類思維交流方面的又一重大突破。這一發(fā)展軌跡不僅凸顯了技術(shù)的迅速迭代，更揭示了自然語言處理領(lǐng)域巨大的探索空間和創(chuàng)新潛力n大模型能夠顯著增強研究報告的編寫效率，通過采納精細化的詢問策略，分析師在研究過程中能夠?qū)崿F(xiàn)效率優(yōu)化。此外，這一模型還能夠提供全面的文本編輯支持，包括校正、查重、以及文風潤色等功能，從而確保分析師提交的工作成果達到更高的質(zhì)量標準n大模型技術(shù)潮流興起催生中國大模型百花齊放。沙利文與頭豹研究院聯(lián)手對12個大模型進行綜合評估，以深入梳理中國大模型在行研領(lǐng)域的應用表現(xiàn)，為各界提供清晰深入的視角，以應對預訓練大模型引發(fā)的人工智能浪潮當前，自然語言處理技術(shù)中的預訓練大模型正在全球范圍內(nèi)引領(lǐng)一場前所未有的人工智能革命。自ChatGPT推出以來，僅在中國地區(qū)，涌現(xiàn)出超過80個不同的預訓練語言大模型。這些模型的參與者涵蓋了中國頂尖的學術(shù)研究機構(gòu)和領(lǐng)先的互聯(lián)網(wǎng)科技企業(yè)，均希望能在這場技術(shù)浪潮中搶占先機。值得一提的是，過去一年里，中國學術(shù)和產(chǎn)業(yè)界也取得了顯著進展，商湯的“商量”、百度的“文心一言”等大模型持續(xù)迭代，推動了中國大模型產(chǎn)業(yè)的快速發(fā)展。沙利文與頭豹研究院合作，基于數(shù)字行研解決方案的研究和實踐經(jīng)驗，憑借百人分析師團隊的匿名投票機制，篩選出12個大模型進行綜合評估。這一評估旨在全面了解并梳理中國大模型在行研領(lǐng)域的應用表現(xiàn)。通過這份專業(yè)分析，各界能獲取到清晰、深入的視角，以更好地理解和應對由預訓練大模型引發(fā)的人工智能浪潮。400-072-5588大模型評測

2023/12中國：人工智能系列內(nèi)容目錄研究目標1大模型行研能力評測背景及方法n

研究目的05頁基于數(shù)字行研解決方案的研究和實踐基礎(chǔ)，頭豹研究院聯(lián)合沙利文憑借百人分析師團隊匿名投票機制，篩選了12個大模型，進行了多維度的綜合評估，旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)。?????????行研背景概述傳統(tǒng)行研發(fā)展痛點數(shù)字行研革新大模型賦能行研評測大模型參與者評測方法與指標報告撰寫能力n

研究目標行研基礎(chǔ)能力????了解中國大模型在行研領(lǐng)域的應用價值探析中國大模型在行研領(lǐng)域的綜合表現(xiàn)梳理中國大模型的參與者現(xiàn)狀行業(yè)理解能力2大模型行研能力評測結(jié)果

15頁評估中國大模型行研領(lǐng)域的發(fā)展?jié)摿?????????????評測結(jié)果總榜n

本報告的關(guān)鍵問題報告撰寫能力總榜報告撰寫能力綜合表現(xiàn)報告撰寫高階難度模塊表現(xiàn)報告撰寫低階難度模塊表現(xiàn)報告撰寫能力分布?????參與者發(fā)展現(xiàn)狀：中國大模型的參與者有哪些？在行研領(lǐng)域的發(fā)展現(xiàn)狀如何？行研應用表現(xiàn)：中國大模型在行業(yè)研究領(lǐng)域的實際應用表現(xiàn)如何？行研基礎(chǔ)能力總榜報告撰寫能力：中國大模型在撰寫行業(yè)研究報告方面的表現(xiàn)能力如何？行研基礎(chǔ)能力綜合表現(xiàn)行研基礎(chǔ)能力細分模塊行研撰寫能力分布模型基礎(chǔ)能力：中國大模型邏輯推理能力、類比遷移能力等基礎(chǔ)能力表現(xiàn)如何？行業(yè)理解能力：目前中國大模型在不同行業(yè)下的理解能力以及表現(xiàn)如何？行業(yè)理解能力總榜行業(yè)理解能力綜合表現(xiàn)行業(yè)理解能力細分行業(yè)400-072-55883大模型評測

2023/12中國：人工智能系列名詞解釋uuu預訓練語言大模型：預訓練語言大模型是一種先進的人工智能技術(shù)，它通過在大規(guī)模文本數(shù)據(jù)上進行預先訓練，學習語言的復雜模式，從而能夠理解、生成和處理自然語言。數(shù)字行研：數(shù)字化行業(yè)研究解決方案通過集成精準信息溯源系統(tǒng)和標準化寫作工具，降低了行研門檻，提高撰寫效率，并簡化了質(zhì)量控制流程，從而革新了行業(yè)研究的范式。8-D方法論：沙利文聯(lián)合頭豹企業(yè)研究所采納的8-D方法論包括八個核心模塊，包含定義、分類、發(fā)展歷程、特征、產(chǎn)業(yè)鏈、市場規(guī)模、政策和競爭格局，構(gòu)成了一套全面而系統(tǒng)的研究方法。類比遷移：指在機器學習中用于訓練的數(shù)據(jù)，這些數(shù)據(jù)沒有提供明確的標簽或答案。邏輯推理：類比遷移是指從一個領(lǐng)域或情境中提取概念、原則或模式，并應用到另一個不同的領(lǐng)域或情境。在內(nèi)容評判中，評估模型在不同概念、情境之間建立聯(lián)系的能力，以及這些聯(lián)系的適當性和創(chuàng)造性。uuu語境轉(zhuǎn)換：語境轉(zhuǎn)換是指根據(jù)不同的交流環(huán)境或?qū)ο笳{(diào)整信息表達方式。在內(nèi)容評判中，評估信息是否適應特定的受眾、文化背景或溝通場合，以及是否能有效地調(diào)整語氣、風格和內(nèi)容以滿足不同場景下的寫作需求。uuu意圖理解：意圖理解是指識別和理解用戶或作者想要傳達的目的和動機。在內(nèi)容評判中，評估信息是否有效地傳達了其預期的消息或意圖，以及模型是否能清楚地識別這些意圖。文本生成：文本生成是指創(chuàng)建連貫、相關(guān)和有意義的文本內(nèi)容。在評判內(nèi)容時，評估文本的清晰度、連貫性、原創(chuàng)性以及語言的正確性和表達能力。知識儲備：知識儲備是指個體或系統(tǒng)所掌握的信息、事實、概念和理論的總和。在內(nèi)容評判中，知識儲備體現(xiàn)在信息的準確性、深度和廣度，以及模型能否正確并有效地使用相關(guān)知識。400-072-55884大模型評測

2023/12中國：人工智能系列Chapter

1大模型行研能力評測背景及方法q

本次大模型行研能力測試覆蓋1,800+題目，由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程，圍繞研究報告撰寫能力，模型基礎(chǔ)能力以及行業(yè)綜合理解能力進行綜合評測q

評測方法通過雙盲機制最大程度保證公允性，每名測試人員會隨機分配N個模型進行答案搜集，彼此在答案搜集期間互相禁止分享信息，以保持在答案評測階段的公允性；在評測階段，每個問題相對應的12個模型答案順序會隨機打亂，保證評測人員對答案不存在任何偏見q

本次大模型行研能力評測分為三個核心模塊，分別為報告撰寫能力、模型基礎(chǔ)能力以及行業(yè)理解能力。報告撰寫為本次評測的核心能力，基礎(chǔ)能力以及行業(yè)理解能力為衍生能力，顧賦予40%/30%/30%的評分權(quán)重q

本次大模型行業(yè)研究能力評測截止于11月30日，所選模型基于目前開放可用的范圍。本次評測未涵蓋企業(yè)尚未開放的大模型，評測結(jié)果僅反映當前公開可用模型的數(shù)據(jù)400-072-55885大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——行研背景概述?

行業(yè)研究通過分析特定行業(yè)的定義、競爭格局、市場規(guī)模等關(guān)鍵方面，產(chǎn)出深刻洞察和觀點。方法論涵蓋從宏觀的產(chǎn)業(yè)層到微觀的產(chǎn)品層的分析，對企業(yè)戰(zhàn)略、政策制定和金融決策等產(chǎn)生顯著影響行研背景概述行研價值鏈價值企業(yè)規(guī)劃政務服務金融決策教育培訓新聞傳媒…體現(xiàn)行業(yè)定義行業(yè)分類市場規(guī)模發(fā)展歷程政策分析行業(yè)特征競爭格局研究路徑產(chǎn)業(yè)鏈分析互聯(lián)網(wǎng)泛娛樂金融醫(yī)療農(nóng)林牧漁教育采礦制造旅游零售千行百業(yè)房地產(chǎn)…n行業(yè)研究通過詳盡方法論輸出價值觀點，對企業(yè)策略、金融決策等領(lǐng)域的價值顯著行業(yè)研究是深入探討分析特定行業(yè)的發(fā)展現(xiàn)狀和市場動態(tài)的全面過程，包含行業(yè)定義、分類、競爭格局、市場容量等關(guān)鍵維度。分析師通過分析，生成具有深度的洞察和價值觀點，對企業(yè)戰(zhàn)略規(guī)劃、政策制定、金融投資決策和教育培訓等多個領(lǐng)域產(chǎn)生重要影響。外部維度經(jīng)濟

環(huán)境內(nèi)部維度行研范圍產(chǎn)業(yè)鏈分析政策法律發(fā)展歷程發(fā)展特征

市場規(guī)模

競爭格局產(chǎn)業(yè)層行業(yè)層產(chǎn)品層重要程度高重要程度低n行業(yè)研究涵蓋從宏觀的產(chǎn)業(yè)層到微觀的產(chǎn)品層，各層級決定著相應的研究方法，研究方法論囊括外部宏觀因素和內(nèi)部微觀細節(jié)的全面分析在行業(yè)研究中，產(chǎn)業(yè)層、行業(yè)層和產(chǎn)品層各自代表宏觀經(jīng)濟的不同層次：產(chǎn)業(yè)層包含具相似特征的行業(yè)群體，行業(yè)層著重于特定行業(yè)的市場和企業(yè)情況，而產(chǎn)品層深入到具體產(chǎn)品或服務的設(shè)計、功能和市場定位。研究方法論根據(jù)這些層級的宏觀到微觀差異而有所不同，外部維度考慮政策、經(jīng)濟、環(huán)境等因素，而內(nèi)部維度則包括發(fā)展歷史、產(chǎn)業(yè)鏈分析等更細致的方面。來源：沙利文、頭豹研究院400-072-55886大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——傳統(tǒng)行研發(fā)展痛點?

從基礎(chǔ)數(shù)據(jù)收集到深度分析輸出，傳統(tǒng)行業(yè)研究的流程面臨著工具革新滯后、團隊知識難以傳承、信息溯源復雜性以及研報質(zhì)量控制的重大挑戰(zhàn)，共同影響行業(yè)研究的產(chǎn)出效率和創(chuàng)新能力，限制了其發(fā)展?jié)摿鹘y(tǒng)行研發(fā)展痛點調(diào)研分析產(chǎn)出二手數(shù)據(jù)分析制圖統(tǒng)計局數(shù)據(jù)、文獻、網(wǎng)頁、垂直媒體、招股書、第三方研報、專業(yè)數(shù)據(jù)庫……產(chǎn)業(yè)鏈、競爭格局研究成果建模行業(yè)規(guī)模與預測模型傳統(tǒng)工具Excel研究報告、演講稿、招股書行業(yè)章節(jié)、視頻…….一手數(shù)據(jù)行業(yè)專家訪談、消費者調(diào)研（問卷，圓桌）、自行監(jiān)測數(shù)據(jù)……撰寫行業(yè)定義、特征、分類、歷史、政策、行研發(fā)展痛點1生產(chǎn)工具停滯2團隊知識難以復用行業(yè)人員流動性較大，新人成長周期較長，分析師掌握的經(jīng)驗和知識復用性差3溯源難考證4質(zhì)量把控難度高質(zhì)控人員缺乏專業(yè)撰寫技能，而專業(yè)分析師則通常無暇進行廣泛質(zhì)控面對海量信息和時間成本，信息來源難以考證，信息合規(guī)無法全面保障PPT和Word仍是生產(chǎn)核心工具，20年來沒有更新新的行研生產(chǎn)工具n傳統(tǒng)行業(yè)研究在工具更新、知識復用、信息溯源和質(zhì)量控制方面面臨顯著挑戰(zhàn)，影響其效率和準確性傳統(tǒng)行業(yè)研究的產(chǎn)出流程包括三個步驟：首先是基礎(chǔ)調(diào)研，聚焦于一手和二手行業(yè)數(shù)據(jù)的收集；其次是數(shù)據(jù)加工，涉及整理邏輯、驗證數(shù)據(jù)真實性，并對關(guān)鍵信息進行可視化處理；最后是產(chǎn)出結(jié)果，確保全文邏輯一致、可視化清晰并且觀點合理。在實際操作中，行業(yè)研究面臨多個挑戰(zhàn)：1）工具更新停滯，自互聯(lián)網(wǎng)興起以來，行研主要依賴網(wǎng)絡(luò)檢索和辦公軟件，近20年未見顯著革新；2）團隊知識難以復用，由于高人員流動性和新成員培養(yǎng)周期長，分析師的經(jīng)驗和知識傳承困難；3）信息溯源和合規(guī)性考量復雜，在應對海量信息和時間成本壓力下，信息來源和合規(guī)性難以全面保障；4）質(zhì)量控制難度高，質(zhì)控人員缺乏專業(yè)撰寫技能，同時專業(yè)分析師缺乏時間進行廣泛質(zhì)控，導致質(zhì)量監(jiān)控極為困難。這些核心挑戰(zhàn)共同影響著行研的產(chǎn)出效率和創(chuàng)新，阻礙行研進一步發(fā)展。來源：沙利文、頭豹研究院400-072-55887大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——數(shù)字行研革新?

數(shù)字行研解決方案，結(jié)合標準化工具和先進的大模型技術(shù)，有效克服了傳統(tǒng)行業(yè)研究的核心制約因素，顯著提升研究的精度和效率，并引領(lǐng)行業(yè)研究進入一個效率更高和質(zhì)量更優(yōu)的新產(chǎn)出范式數(shù)字行研革新（以頭豹腦力擎為例）數(shù)字行研全面賦能開信息調(diào)研綜合分析結(jié)果呈現(xiàn)協(xié)同創(chuàng)作詞條AI生成輔助分析師接入智能技術(shù)工具提效開源AI續(xù)寫Web3.0協(xié)同可信智能高效數(shù)字身份頭豹寫作系統(tǒng)“腦力擎”賦能頭豹研報產(chǎn)出提質(zhì)增效AIGC文本創(chuàng)作AI改寫AI賦能AI檢索創(chuàng)作沉淀，數(shù)據(jù)資產(chǎn)化體系化培訓工具智能研報生成AI審核標準n數(shù)字化行研解決方案通過標準化工具和大模型技術(shù)，解決了行業(yè)研究的核心難題，提高了研究質(zhì)量和效率，為行業(yè)分析帶來了高效、精準的新范式數(shù)字化行研解決方案為行業(yè)研究帶來范式革新。該系統(tǒng)通過引入一系列標準化工具，如精準的信息溯源系統(tǒng)和寫作規(guī)范，極大降低了行業(yè)研究的門檻，提升了撰寫效率，并簡化了質(zhì)量控制流程。此外，數(shù)字行研基于大模型的強大底層支持，為分析師提供AI輔助工具，包括專家訪談、智能檢索、查重、校對和改寫功能，有效減少信息檢索的難度，提升文本的準確性和撰寫效率，同時加速分析師的專業(yè)成長。數(shù)字行研解決方案不僅解決了傳統(tǒng)行業(yè)研究中的關(guān)鍵痛點，如信息溯源困難、嚴峻的質(zhì)控挑戰(zhàn)、知識低復用率和工具更新滯后，還借助大模型技術(shù)推動行業(yè)研究質(zhì)量和分析師成長速度，引領(lǐng)行業(yè)研究向更高效、精準的新范式轉(zhuǎn)變。來源：沙利文、頭豹研究院400-072-55888大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——大模型賦能行研?

大模型在數(shù)字行業(yè)研究中扮演核心角色，其功能特性極大提升了研究的效率和質(zhì)量。本研究聚焦于挖掘中國大模型在行業(yè)研究中的實際應用和優(yōu)勢，了解大模型當前的能力邊界，以推動行研領(lǐng)域的創(chuàng)新與變革大模型賦能行研AI專家訪談AI文字校對通過利用AI大模型進行行業(yè)專家訪談，分析師可以迅速掌握行業(yè)的核心信息和精確的定義、分類，從而將初期行業(yè)研究階段的時間縮短30%利用大模型的改寫、續(xù)寫和查重功能，可以顯著減少錯別字、病句和重復內(nèi)容，從而提升文本質(zhì)量和可讀性，同時減少分析師在文本檢查上的時間投入，降低超過70%大模型行研賦能AI內(nèi)容生成AI資料檢索通過使用大模型的文字生成功能，結(jié)合恰當?shù)奶釂枂栴}，讓大模型幫助產(chǎn)出結(jié)構(gòu)化內(nèi)容，提高研報的產(chǎn)出效率50%運用大模型的互聯(lián)網(wǎng)檢索訪問功能，結(jié)合精準的提問策略，幫助分析師定位關(guān)鍵信息，從而提升資料搜索效率超60%n大模型在數(shù)字行業(yè)研究中扮演核心角色，其功能特性極大提升了研究的效率和質(zhì)量。本研究主要聚焦于中國大模型在行業(yè)研究中的實際應用和優(yōu)勢，知曉大模型的能力邊界，旨在推動行研領(lǐng)域的創(chuàng)新與變革作為數(shù)字行研的關(guān)鍵支撐，大模型通過其創(chuàng)作、生成、改寫和檢索等核心功能，全方位推動行業(yè)研究向前發(fā)展。首先，大模型扮演第三方AI專家角色，協(xié)助分析師在研究初期進行框架搭建和內(nèi)容創(chuàng)作，有效減輕案頭工作負擔。其次，通過與分析師的有效互動，大模型助力生成結(jié)構(gòu)化內(nèi)容和洞察，顯著提高基礎(chǔ)內(nèi)容的產(chǎn)出效率。進一步，它通過減少文本錯誤和重復內(nèi)容，優(yōu)化校對流程，提升產(chǎn)出質(zhì)量。最后，大模型能夠快速處理海量數(shù)據(jù)，提供實時信息檢索，增強分析師在有限時間內(nèi)獲取全面信息的能力。鑒于此，深入了解中國大模型行業(yè)的發(fā)展態(tài)勢和技術(shù)創(chuàng)新對引領(lǐng)數(shù)字行業(yè)研究新范式至關(guān)重要。本研究的目標是全面評價中國領(lǐng)先的大模型技術(shù)，深入分析其在行業(yè)研究領(lǐng)域的實際應用和優(yōu)勢，全面審視大模型對行業(yè)研究發(fā)展的影響，以促進數(shù)字行業(yè)研究的創(chuàng)新和變革。來源：沙利文、頭豹研究院400-072-55889大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——評測大模型參與者?

基于數(shù)字行研解決方案的研究和實踐基礎(chǔ)，沙利文聯(lián)合頭豹研究院依托百人分析師團隊對12個大模型進行行研輔助能力的綜合評估，旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)大模型行研能力評測參與者商量大模型參選者榜單3.5本次對大模型的行業(yè)研究能力進行評測的時間定于11月15日至11月30日，評選的模型基于目前市場上開放且可用的版本。評測結(jié)果將僅反映在評測時段內(nèi)公開可獲取的模型數(shù)據(jù)。在此次評測中，GPT模型選用的公測版本為3.5版本，文心一言模型也采用其3.5公測版本進行評估。n自ChatGPT推出后，中國在預訓練大模型領(lǐng)域?qū)崿F(xiàn)了顯著進步，涉及頂尖學術(shù)機構(gòu)和科技企業(yè)，沙利文聯(lián)合頭豹研究院對12個大模型進行綜合評估，以全面了解中國大模型在行研領(lǐng)域的發(fā)展與應用當前，基于自然語言處理技術(shù)的預訓練大模型已在全球范圍內(nèi)掀起了有史以來最大的人工智能浪潮。自ChatGPT推出以來，僅中國地區(qū)就出現(xiàn)了超過80個不同的預訓練語言大模型，參與者覆蓋中國頂尖的學術(shù)研究機構(gòu)以及互聯(lián)網(wǎng)科技企業(yè)，旨在此番浪潮中拔得先機。過去一年中，中國學術(shù)與產(chǎn)業(yè)界也取得了實質(zhì)性的突破，來自商湯的商量、百度的文心一言等前沿大模型不斷升級，帶動中國大模型產(chǎn)業(yè)的發(fā)展。基于數(shù)字行研解決方案的研究和實踐基礎(chǔ)，沙利文聯(lián)合頭豹研究院憑借百人分析師團隊匿名投票機制，篩選了12個大模型，進行了多維度的綜合評估，旨在全面了解并系統(tǒng)梳理中國大模型參與者在行研領(lǐng)域的應用表現(xiàn)。來源：沙利文、頭豹研究院400-072-558810大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——評測方法與指標?

本次大模型行研能力測試覆蓋1,800+題目，由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程，圍繞研究報告撰寫能力，模型基礎(chǔ)能力以及行業(yè)綜合理解能力進行綜合評測大模型行研能力評測方法A.報告撰寫能力問題B.行研基礎(chǔ)能力問題C.行業(yè)理解能力問題????????行業(yè)定義行業(yè)分類行業(yè)特征發(fā)展歷程產(chǎn)業(yè)鏈分析市場規(guī)模政策分析競爭格局??????邏輯推理類比遷移文本生成意圖理解知識儲備語境轉(zhuǎn)換????????金融業(yè)醫(yī)療業(yè)制造業(yè)互聯(lián)網(wǎng)科技業(yè)零售業(yè)教育業(yè)運輸業(yè)….12個大模型n本次測試覆蓋三大板塊，1,800+道題目，由20人資深研究分析師團隊經(jīng)過嚴格的雙盲評測流程得出，最大程度保證公允性本次大模型能力測試圍繞三大核心板塊展開評測：分別是研究報告撰寫能力，模型基礎(chǔ)能力以及行業(yè)綜合理解能力。通過模型在三大核心板塊的表現(xiàn)力最終得出評測結(jié)果。其中，報告撰寫覆蓋8篇不同主體報告撰寫，涵蓋128道問題，分析師長期跟蹤報告問題累積超1,500道題；模型能力覆蓋6大文本產(chǎn)出核心能力，涵蓋54道問題；行業(yè)理解覆蓋14大核心行業(yè)，每個行業(yè)涉及12個問題，總計1,168題。三大維度合計1,800道題目。分析師團隊由頭豹研究院各團隊資深分析師組成，且均具備超過8個月的大模型使用經(jīng)歷。評測方法通過雙盲機制最大程度保證公允性，每名測試人員會隨機分配N個模型進行答案搜集，彼此在答案搜集期間互相禁止分享信息，以保持在答案評測階段的公允性；在評測階段，每個問題相對應的12個模型答案順序會隨機打亂，保證評測人員對答案不存在任何偏見。來源：沙利文、頭豹研究院400-072-558811大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——報告撰寫能力?

沙利文及頭豹行企研究的8-D方法論，是一種全面系統(tǒng)的研究方法，包含了八大關(guān)鍵模塊，用于對行業(yè)進行深入分析。在這一框架下，百名分析師研磨提煉一套高效的8D模塊提問方法，以對模型能力進行評測大模型報告撰寫能力行業(yè)研究報告撰寫邏輯權(quán)重占比行業(yè)定義10.0%行業(yè)分類10.0%對特定行業(yè)的基本性質(zhì)概述，涵蓋主要活動、服務或產(chǎn)品根據(jù)某些共同特征將不同的行業(yè)進行分組的過程，理解行業(yè)結(jié)構(gòu)行業(yè)特征17.5%發(fā)展歷程10.0%區(qū)分一個特定行業(yè)與其他行業(yè)的獨特屬性和條件，囊括多個維度描述行業(yè)從誕生到當前狀態(tài)所經(jīng)歷的各個階段和重要轉(zhuǎn)折點產(chǎn)業(yè)鏈分析

17.5%市場規(guī)模15.0%從原材料采購到最終產(chǎn)品銷售的整個流程進行完整分析審視在給定時間內(nèi)的總銷售額或總市場價值，反映經(jīng)濟影響力和潛力政策分析5.0%競爭格局15%對影響特定行業(yè)的政府政策、法規(guī)和指導原則的評估描述行業(yè)內(nèi)各企業(yè)間的競爭狀態(tài)，包括市場份額分布和競爭動態(tài)變化概念引入八大維度分析法+歸納總結(jié)行業(yè)定義產(chǎn)業(yè)鏈分析概述類模塊分析類模塊44明確主體行業(yè)分類行業(yè)特征政策分析市場規(guī)模趨勢研判理清邊界觀點輸出發(fā)展歷程競爭格局n百名分析師經(jīng)過八個月實踐研磨提煉8D模塊的提示問題，以測試12大模型的報告撰寫能力沙利文聯(lián)合頭豹企業(yè)研究所采納的8-D方法論包括八個核心模塊，構(gòu)成了一套全面而系統(tǒng)的研究方法，專用于行業(yè)的深入分析。結(jié)合詳實的數(shù)據(jù)和精準的分析，此方法能夠提煉出深刻的觀點和結(jié)論，顯著提升行業(yè)研究內(nèi)容的清晰度和數(shù)據(jù)的豐富性。在該方法論的指導下，百名分析師歷經(jīng)八個月的密集工作及多次優(yōu)化，精制而成一套高效的8D模塊化大模型提示問題法。這套精練的提問技巧已轉(zhuǎn)化為評估工具，旨在通過對十二個主要模型的針對性提問，檢驗并評估模型報告撰寫的效能。來源：沙利文、頭豹研究院400-072-558812大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——行研基礎(chǔ)能力?

從AI輔助文本創(chuàng)作角度出發(fā)，結(jié)合文字生成基礎(chǔ)核心能力，歸總出對于行業(yè)研究報告撰寫角度最核心的六大能力維度，包括邏輯推理、文本生成、類比遷移、語境轉(zhuǎn)換、意圖理解以及知識儲備大模型行研基礎(chǔ)能力邏輯推理文本生成基于已知信息通過推理得出結(jié)論內(nèi)容生成連貫、清晰、正確且具備時效性類比遷移語境轉(zhuǎn)換從A領(lǐng)域到B領(lǐng)域轉(zhuǎn)移概念或原則在不同交流環(huán)境調(diào)整信息的表達方式模型基礎(chǔ)能力意圖理解知識儲備明晰提問者目的和深層意圖模型在特定領(lǐng)域掌握的信息集合n從AI輔助文本創(chuàng)作角度出發(fā)，結(jié)合大模型基礎(chǔ)核心能力，歸總出對于行業(yè)研究報告撰寫角度最重要的六大能力維度邏輯推理：邏輯推理是指從已知信息出發(fā)，通過推論規(guī)則得出結(jié)論的過程。在內(nèi)容評判中，關(guān)注信息組織、連接和推導的方式，以及結(jié)論是否合理、一致，且基于事實。類比遷移：類比遷移是指從一個領(lǐng)域或情境中提取概念、原則或模式，并應用到另一個不同的領(lǐng)域或情境。在內(nèi)容評判中，評估模型在不同概念、情境之間建立聯(lián)系的能力，以及這些聯(lián)系的適當性和創(chuàng)造性。文本生成：文本生成是指創(chuàng)建連貫、相關(guān)和有意義的文本內(nèi)容。在評判內(nèi)容時，評估文本的清晰度、連貫性、原創(chuàng)性以及語言的正確性和表達能力。意圖理解：意圖理解是指識別和理解用戶或作者想要傳達的目的和動機。在內(nèi)容評判中，評估信息是否有效地傳達了其預期的消息或意圖，以及模型是否能清楚地識別這些意圖。知識儲備：知識儲備是指個體或系統(tǒng)所掌握的信息、事實、概念和理論的總和。在內(nèi)容評判中，知識儲備體現(xiàn)在信息的準確性、深度和廣度，以及模型能否正確并有效地使用相關(guān)知識。語境轉(zhuǎn)換：語境轉(zhuǎn)換是指根據(jù)不同的交流環(huán)境或?qū)ο笳{(diào)整信息表達方式。在內(nèi)容評判中，評估信息是否適應特定的受眾、文化背景或溝通場合，以及是否能有效地調(diào)整語氣、風格和內(nèi)容以滿足不同場景下的寫作需求。來源：沙利文、頭豹研究院400-072-558813大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測——行業(yè)理解能力?

頭豹研究院成立至今匯集超5,000+行企報告，覆蓋超14個大類行業(yè)以及上千個細分小類行業(yè)。本次評測匯集百余名各資深行業(yè)分析師，結(jié)合自身領(lǐng)域認知，對模型在14大行業(yè)的理解和產(chǎn)出能力進行評估大模型行業(yè)理解能力14大行業(yè)金融業(yè)互聯(lián)網(wǎng)科技房地產(chǎn)業(yè)證券/保險/基金云計算/大數(shù)據(jù)/人住宅開發(fā)/商業(yè)地產(chǎn)/工智能物業(yè)管理醫(yī)療業(yè)零售業(yè)農(nóng)林牧漁醫(yī)院服務/醫(yī)療器械/生物技術(shù)超市/專賣店/電子商務農(nóng)作物種植/畜牧業(yè)/水產(chǎn)養(yǎng)殖/林業(yè)制造業(yè)教育業(yè)采礦業(yè)汽車制造/消費品制造/工業(yè)設(shè)備K-12教育/高等教育/職業(yè)培訓煤炭開采/金屬礦開采能源業(yè)咨詢服務業(yè)旅游業(yè)石油與天然氣/可再生能源管理咨詢/人力資源咨詢/IT咨詢酒店/景點/旅行社等運輸業(yè)泛娛樂業(yè)貨運物流/客運交通/航空運輸/鐵路運輸?shù)入娪?電視/音樂/電子競技等n頭豹研究院成立至今匯集超5,000+行企報告，覆蓋超14個大類行業(yè)以及上千個細分小類行業(yè)。本次評測匯集頭豹研究院百余名各資深行業(yè)分析師，結(jié)合自身特定領(lǐng)域認知與經(jīng)驗，對模型在14大行業(yè)的理解和產(chǎn)出能力進行評估沙利文聯(lián)合頭豹研究院成立至今，平臺共積累超12萬+注冊用戶，5,000+行業(yè)企業(yè)研究報告積累，覆蓋14個大類行業(yè)，以及上千個細分小類行業(yè)。沙利文聯(lián)合頭豹的精英分析師團隊以及各項研究成果廣泛受到金融、制造、互聯(lián)網(wǎng)科技等各個行業(yè)領(lǐng)域的用戶認可。當前，頭豹已發(fā)展成為中國最大的行企研究平臺之一，擁有行業(yè)覆蓋程度廣、報告庫數(shù)量多、報告撰寫效率高、行業(yè)知識精準度高四大優(yōu)勢。在本次大模型評測中，頭豹研究院聯(lián)合其上海、南京和深圳分院，匯聚了跨越多個行業(yè)領(lǐng)域的百余名分析師，利用自身對競爭格局、發(fā)展趨勢、制約因素、以及行業(yè)壁壘等關(guān)鍵知識領(lǐng)域的深厚理解，并結(jié)合豐富的行業(yè)報告撰寫經(jīng)驗，向模型提出了針對14個主要行業(yè)的細致問題。通過對模型在各特定行業(yè)細分領(lǐng)域的縱向評估和全行業(yè)范圍的橫向比較，最終確定了12大模型在行業(yè)理解和內(nèi)容產(chǎn)出方面的深度與能力。來源：沙利文、頭豹研究院400-072-558814大模型評測

2023/12中國：人工智能系列Chapter

2大模型行研能力評測結(jié)果q

商湯科技——商湯商量q

百度——文心一言3.5q

OpenAI——GPT3.5q

阿里云——通義千問q

昆侖萬維——天工q

百川智能——百川q

科大訊飛——訊飛星火q

騰訊云——騰訊混元q

智譜AI——智譜清言q

武漢人工智能研究院——紫東太初q

名之夢——MiniMaxq

中科聞歌——雅意400-072-558815大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——評測結(jié)果?

資深分析師團隊根據(jù)三大維度，總計1,800+道題目，對十二大市場主流大模型進行評估測試。評測結(jié)果顯示，商湯商量、文心一言3.5、GPT3.5、訊飛星火以及騰訊混元處在第一梯隊，綜合實力強勁中國大模型行研能力綜合評測結(jié)果排模型名稱企業(yè)機構(gòu)

八大模塊得分

排名

模型能力得分

排名

行業(yè)能力得分

排名

總得分名GPT3.5OpenAI商湯商量百度7.588.278.088.107.587.447.587.387.347.26517.928.177.837.336.756.586.586.426.336.67217.016.556.786.276.506.726.326.356.336.09147.297.737.487.257.066.926.906.816.766.741商湯商量2

文心一言3.53323456789訊飛星火騰訊混元智譜清言天工科大訊飛騰訊2410565智譜AI昆侖萬維百川773479百川897通義千問Minimax阿里云名之夢910681111武漢人工智能研究院10

紫東太初11

雅意7.33106.08116.4166.686.54中科聞歌7.23126.08115.9912國產(chǎn)大模型行研能力綜合評測結(jié)果第一梯隊第二梯隊第三梯隊商湯商量

文心一言

訊飛星火混元智譜天工行研基礎(chǔ)能力百川通義千問

Minimax

紫東太初

中科聞歌報告撰寫能力行業(yè)理解能力備注：評測的時間于11月15日至11月30日，評選的模型基于目前市場上開放且可用的版本。在此次評測中，GPT和文心一言均選用3.5公測版本進行評測。來源：沙利文、頭豹研究院400-072-558816大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——報告撰寫能力?

模型在報告撰寫能力板塊的表現(xiàn)中，商湯商量、訊飛星火以及文心一言3.5占據(jù)前三甲。其余模型的表現(xiàn)各有千秋，例如紫東在行業(yè)特征的歸納總結(jié)能力較強，Minimax則在發(fā)展歷程和產(chǎn)業(yè)鏈分析細分維度表現(xiàn)優(yōu)秀大模型報告撰寫能力評測結(jié)果行業(yè)特征發(fā)展歷程產(chǎn)業(yè)鏈市場規(guī)模政策分析競爭格局排名模型名稱總得分定義分類12商湯商量訊飛星火文心一言3.5天工8.278.108.087.587.587.587.447.387.347.337.267.23345GPT3.56騰訊混元智譜清言百川789通義千問紫東太初Minimax雅意101112得分高得分低報告撰寫能力由模型在定義、分類、行業(yè)特征、發(fā)展歷程、產(chǎn)業(yè)鏈、市場規(guī)模、政策分析以及競爭格局8D模塊的表現(xiàn)綜合評定而成n模型在報告撰寫評測的表現(xiàn)中，商量、訊飛星火、以及文心一言3.5是表現(xiàn)TOP3的模型，其中商湯商量在8D模塊均表現(xiàn)強勁，訊飛星火在高難度撰寫板塊展現(xiàn)一定實力根據(jù)大模型報告撰寫能力綜合熱力矩陣圖可以看出商湯商量是綜合能力最強的模型，且在各個板塊的表現(xiàn)穩(wěn)定處在前列位置。訊飛星火雖在發(fā)展歷程失分較為嚴重，但在市場規(guī)模、政策分析以及競爭格局的高難度撰寫板塊中表現(xiàn)強勁。來源：沙利文、頭豹研究院400-072-558817大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——報告撰寫能力表現(xiàn)?

在報告撰寫評測中，不同平臺表現(xiàn)存在顯著差異。例如，商量憑借其穩(wěn)定性和在關(guān)鍵模塊的領(lǐng)先優(yōu)勢顯著。而GPT3.5和百川因信息庫更新不足及答案完整性與準確性問題，在高權(quán)重模塊中失分較多大模型報告撰寫能力評測結(jié)果7.56.55.54.5產(chǎn)業(yè)鏈商湯商量定義發(fā)展歷程訊飛星火分類競爭格局

市場規(guī)模文心一言特征天工政策分析GPT3.5(參考模型）騰訊混元紫東太初智譜百川通義千問Minimax中科聞歌n在報告撰寫評測中，各平臺表現(xiàn)各異，其中商量整體表現(xiàn)穩(wěn)定且領(lǐng)先，而GPT3.5和百川因信息更新和答案完整性問題而在某些關(guān)鍵模塊中失分較多在報告撰寫能力評測中，商量的整體表現(xiàn)穩(wěn)定，在8D模塊中均超過均分，領(lǐng)先于其他。文心一言3.5和星火表現(xiàn)出波動，例如訊飛在發(fā)展歷程和競爭格局低于均分，但在分類任務中表現(xiàn)最佳。天工在發(fā)展歷程、市場規(guī)模和定義方面表現(xiàn)優(yōu)秀，但在產(chǎn)業(yè)鏈方面略顯不足。GPT3.5在競爭格局和市場規(guī)模中失分較多，主要因為其信息庫較舊，無法提供有效價值信息，影響了其在報告撰寫的綜合表現(xiàn)。智譜清言和通義千問的綜合表現(xiàn)穩(wěn)定，在8D各模塊中與均分相近，其中智譜清言在政策分析方面表現(xiàn)優(yōu)異，通義千問在特征環(huán)節(jié)表現(xiàn)突出。百川的表現(xiàn)波動較大，尤其是在政策模塊由于無法給出答案，導致失分嚴重，影響了整體均分。紫東太初和雅意的表現(xiàn)相似，除在特征和政策分析模塊外，其他分值走勢幾乎一致。Minimax在8D模塊中五項略高于均分，但在產(chǎn)業(yè)鏈和競爭格局這兩個高權(quán)重模塊中失分嚴重。來源：沙利文、頭豹研究院400-072-558818大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

產(chǎn)業(yè)鏈分析是8D模塊中最具挑戰(zhàn)性和權(quán)重最高的部分，考驗大模型在行業(yè)定義、信息檢索和價值挖掘方面的能力，其中商湯商量、文心一言3.5和訊飛星火憑借出色的知識儲備和邏輯推理表現(xiàn)優(yōu)異大模型產(chǎn)業(yè)鏈分析能力評測結(jié)果產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈均值：5.80n產(chǎn)業(yè)鏈分析作為8D模塊中最具挑戰(zhàn)性且權(quán)重最高的部分，考驗著大模型在定義行業(yè)、信息檢索和價值挖掘方面的綜合能力，其中商湯商量、文心一言3.5和訊飛星火因其優(yōu)秀的知識儲備和邏輯推理能力在這一模塊中表現(xiàn)突出產(chǎn)業(yè)鏈分析是高階難度撰寫模塊之一，權(quán)重在評測分數(shù)中占到了17.5%，是8D模塊中評測得分權(quán)重最大的模塊。其復雜性源于需要大模型在三個關(guān)鍵維度進行深入的信息處理：首先是對特定行業(yè)產(chǎn)業(yè)鏈的上中下游及其參與者的精確界定；其次是在確認主體后，篩選出與各環(huán)節(jié)相關(guān)的關(guān)鍵信息；最后是對收集到的信息進行深度加工，探索產(chǎn)業(yè)鏈的價值流向和影響力，以提煉出對該行業(yè)宏觀層面的關(guān)鍵見解。這一系列步驟要求模型具備高度的信息檢索和邏輯歸納能力，且隨著過程的深入，難度逐漸增大。大模型在產(chǎn)業(yè)鏈分析表現(xiàn)均分為5.8分，是8D模塊的第二低分，側(cè)面反映了其內(nèi)容產(chǎn)出的難度。其中，商湯商量、文心一言3.5、百川、雅意、訊飛星火以及GPT3.5是表現(xiàn)優(yōu)異的模型，綜合表現(xiàn)高于均分。商湯商量、文心一言3.5以及訊飛星火得益于其優(yōu)秀的知識儲備能力以及邏輯推理歸納能力，在這一模塊表現(xiàn)優(yōu)秀。來源：沙利文、頭豹研究院400-072-558819大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

市場規(guī)模分析作為8D模塊中難度較高和權(quán)重第二的模塊，要求精確界定市場規(guī)模的測算標準和預測市場變化。在此模塊中，訊飛星火和天工因其在市場規(guī)模測算及未來變化推演方面的表現(xiàn)而尤其突出大模型市場規(guī)模能力評測結(jié)果市場規(guī)模市場規(guī)模均值：6.32n市場規(guī)模分析作為8D模塊中難度較高且權(quán)重第二的模塊，主要挑戰(zhàn)在于確定行業(yè)市場規(guī)模的測算標準和界限，以及分析和預測市場規(guī)模的過去和未來變化。其中，訊飛星火和天工在市場規(guī)模測算和未來變化推演方面表現(xiàn)突出市場規(guī)模是高階難度撰寫模塊之一，權(quán)重在評測分數(shù)中占到了15%，是8D模塊中評測得分權(quán)重第二高的模塊之一。市場規(guī)模測算是在給定時間內(nèi)的總銷售額或總市場價值，其價值意義是反映經(jīng)濟影響力和潛力。這一模塊的挑戰(zhàn)主要包括兩個方面：首先是定義特定行業(yè)的市場規(guī)模測算標準，比如選擇營收端還是成本端，并明確市場規(guī)模的界限，以確保測算結(jié)果的實際意義；其次是對過去五年及未來五年市場規(guī)模的變化進行原因分析和預測，這既考驗大模型的信息整合能力，也考驗其未來趨勢的預判能力。正因為這些要求，市場規(guī)模分析被認為是高難度撰寫模塊之一。大模型在市場規(guī)模分析表現(xiàn)均分為6.32分，是8D模塊的第五低分。在市場規(guī)模模塊，商湯商量、文心一言3.5、Minimax、智譜清言、訊飛星火以及GPT3.5是表現(xiàn)優(yōu)異的模型，綜合表現(xiàn)高于均分。訊飛星火和天工在市場規(guī)模測算口徑制定以及未來變化推演能力強，因此表現(xiàn)優(yōu)異。來源：沙利文、頭豹研究院400-072-558820大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

競爭格局分析是8D模塊中最具挑戰(zhàn)性的部分之一，主要考驗模型在精準篩選行業(yè)關(guān)鍵參與者和推演市場競爭態(tài)勢的能力。在該模塊中，商湯商量和訊飛星火因其在企業(yè)篩選和未來變化推演上的強大能力而表現(xiàn)杰出大模型競爭格局能力評測結(jié)果競爭格局競爭格局均值：5.74n競爭格局分析作為8D模塊中最具挑戰(zhàn)性的模塊之一，主要考驗模型在精準篩選行業(yè)關(guān)鍵參與者和推演市場競爭態(tài)勢的能力。在這一模塊中，商湯商量和訊飛星火因其在企業(yè)篩選和未來變化推演上的強大能力而表現(xiàn)杰出競爭格局是高階難度撰寫模塊之一，權(quán)重在評測分數(shù)中占到了15%，是8D模塊中評測得分權(quán)重第二高的模塊之一。競爭格局分析旨在闡述行業(yè)內(nèi)企業(yè)間的競爭狀況，涉及市場份額分布和競爭動態(tài)的變化，旨在揭示市場的當前競爭態(tài)勢，以便企業(yè)進行戰(zhàn)略調(diào)整。其挑戰(zhàn)在于準確篩選行業(yè)參與者，并歸納推演市場競爭態(tài)勢的形成原因及未來趨勢。首先，識別行業(yè)中的關(guān)鍵競爭者是一個復雜的任務，需要從眾多企業(yè)中精準挑選出既正確又具有強大競爭力的企業(yè)。其次，確定企業(yè)后，模型必須分析當前競爭情況的成因并預測其未來變化。這兩個環(huán)節(jié)都對模型的歸納和推演能力提出了高要求，使得競爭格局成為高難度撰寫模塊之一。大模型在競爭格局分析的表現(xiàn)均分為5.74分，是8D細分模塊的最低分。在競爭格局模塊，商湯商量、文心一言3.5、Minimax、智譜清言、雅意、騰訊混元、訊飛星火以及GPT3.5均表現(xiàn)出色，綜合表現(xiàn)高于均分。商湯商量和訊飛星火在企業(yè)篩選以及未來變化推演能力較強，在競爭格局表現(xiàn)杰出。來源：沙利文、頭豹研究院400-072-558821大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——高階難度模塊表現(xiàn)?

行業(yè)特征分析是8D模塊中的高難度部分，挑戰(zhàn)在于處理海量數(shù)據(jù)并提煉深刻、獨創(chuàng)的見解。在這一模塊中，大模型整體的表現(xiàn)差異不大，其中通義千問因其簡潔性、豐富論據(jù)及深度獨創(chuàng)性，在此模塊中表現(xiàn)優(yōu)異大模型行業(yè)特征能力評測結(jié)果行業(yè)特征行業(yè)特征均值：6.27n行業(yè)特征分析作為8D模塊中的一個高難度撰寫部分，主要挑戰(zhàn)在于綜合處理海量數(shù)據(jù)、提煉具有深度的代表性見解以及展現(xiàn)獨創(chuàng)性。其中通義千問因其簡潔性、豐富論據(jù)及深度獨創(chuàng)性，在此模塊中表現(xiàn)優(yōu)異行業(yè)特征是高階難度撰寫模塊之一，權(quán)重在評測分數(shù)中占到了17.5%，是8D模塊中評測得分權(quán)重最高的模塊之一。行業(yè)特征分析旨在區(qū)分一個特定行業(yè)與其他行業(yè)的獨特屬性和條件，價值在于披露行業(yè)獨有的價值信息以供投資管理決策。行業(yè)特征的核心難度在于信息量的維度，不同于其它模塊，行業(yè)特征的提示問題缺少明確指向性，需要大模型根據(jù)特定行業(yè)的海量數(shù)據(jù)資料去總結(jié)歸納最符合當下行業(yè)的實際特征。行業(yè)特征的質(zhì)量取決于兩點，一點是深度，也就是該行業(yè)特征是否對特定行業(yè)有足夠的代表性。另一點是獨創(chuàng)性，也就是對特定行業(yè)是否有獨到的見解，而非泛泛而談。由于行業(yè)特征的問題較為寬泛且模型需要篩選的信息量極大，因此撰寫難度極高。大模型在競爭格局分析的表現(xiàn)均分為6.27分，從結(jié)果看是8D模塊中表現(xiàn)較好的模塊。在行業(yè)特征模塊，多個模型綜合表現(xiàn)高于均分，其中通義千問的回答簡潔性強，論據(jù)豐富且具有一定深度與獨創(chuàng)性，因此在特征模塊表現(xiàn)優(yōu)異。來源：沙利文、頭豹研究院400-072-558822大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——低階難度模塊表現(xiàn)?

行業(yè)定義、行業(yè)分類、發(fā)展歷程以及政策分析在行研撰寫中難度較低，重點聚集在信息搜集的準確度。在低難度撰寫模塊中，12大模型沒有顯著的差距，但部分模型由于在特定模塊中無法回答，因此失分嚴重大模型報告撰寫能力低階難度模塊評測結(jié)果行業(yè)定義行業(yè)分類定義均值：6.48分類均值：6.93發(fā)展歷程政策分析發(fā)展歷程均值：6.52政策分析均值：6.12n模型在低難度報告撰寫模塊的表現(xiàn)中，商湯商量和訊飛星火表現(xiàn)最為優(yōu)秀，在四個模塊的評測得分均顯著高于均分行業(yè)定義、行業(yè)分類、發(fā)展歷程以及政策分析在行研撰寫中難度較低，這四大模塊重點落在信息搜集的準確度，對歸納推理的整體要求較低，更多考察模型的知識庫豐富性以及把握信息準確性的能力。在低難度撰寫模塊中，12大模型整體的表現(xiàn)較為平均，模型之間沒有顯著的差距。但部分模型在發(fā)展歷程和政策分析模塊中無法給出明確的答案，從而導致失分情況嚴重，對最終均分影響較大。來源：沙利文、頭豹研究院400-072-558823大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——報告撰寫能力分布?

商湯商量、科大訊飛星火以及文心一言3.5是模型報告撰寫能力排名前三甲。在報告撰寫的細分模塊中，行業(yè)定義和分類的平均得分較高，撰寫難度相對較低。產(chǎn)業(yè)鏈、競爭格局和市場規(guī)模得分較低，撰寫難度大大模型報告撰寫能力分布商湯商量：商量科大訊飛：訊飛星火產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局百度：文心一言3.5昆侖萬維：天工產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局騰訊：混元OpenAI:GPT3.5產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局來源：沙利文、頭豹研究院400-072-558824大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——報告撰寫能力分布?

商湯商量、科大訊飛星火以及文心一言3.5是模型報告撰寫能力排名前三甲。在報告撰寫的細分模塊中，行業(yè)定義和分類的平均得分較高，撰寫難度相對較低。產(chǎn)業(yè)鏈、競爭格局和市場規(guī)模得分較低，撰寫難度大大模型報告撰寫能力分布智譜AI：清言百川：百川產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局阿里云：通義千問武漢人工智能研究院：紫東太初產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局中科聞歌：雅義名之夢：MiniMax產(chǎn)業(yè)鏈分析產(chǎn)業(yè)鏈分析政策分析行業(yè)定義政策分析行業(yè)定義行業(yè)特征發(fā)展歷程行業(yè)特征發(fā)展歷程市場規(guī)模行業(yè)分類市場規(guī)模行業(yè)分類競爭格局競爭格局來源：沙利文、頭豹研究院400-072-558825大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力?模型在行研基礎(chǔ)能力的表現(xiàn)差異顯著，商湯商量、GPT3.5以及文心一言3.5占據(jù)前三甲，整體領(lǐng)先幅度較大。排名靠后的模型雖然綜合評分較低，但在細分模塊仍有優(yōu)異表現(xiàn)，例如智譜清言和百川在意圖理解能力高于均分大模型行研基礎(chǔ)能力評測結(jié)果排名模型名稱總得分類比遷移

邏輯推理

文字生成

意圖理解

語境轉(zhuǎn)換

知識儲備12商湯商量GPT3.58.177.927.837.336.756.676.586.586.426.336.176.083文心一言3.5訊飛星火騰訊混元Minimax天工45677智譜清言百川91011通義千問紫東太初雅意12得分高得分低模型基礎(chǔ)能力由模型在類比遷移、邏輯推理、文字生成、意圖理解、語境轉(zhuǎn)換、知識儲備六大問題經(jīng)過基礎(chǔ)題庫測試與報告撰寫的分析師評測綜合評定而成n模型在基礎(chǔ)能力評測的表現(xiàn)中，商湯商量、GPT3.5、以及文心一言3.5占據(jù)前三甲根據(jù)大模型基礎(chǔ)能力綜合熱力矩陣圖可以看出表現(xiàn)TOP3的模型分別為商湯商量、GPT3.5以及文心一言3.5。其中，商湯商量在語境轉(zhuǎn)換和知識儲備板塊排名第一，訊飛星火則在邏輯推理和文字生成部分達到第一。值得關(guān)注的其它模型中，排名第8的智譜清言在意圖理解的能力最強。而天工在長文本生成和生成速度方便較為優(yōu)秀。來源：沙利文、頭豹研究院400-072-558826大模型評測

2023/12中國：人工智能系列中國大模型行研能力評測分析——行研基礎(chǔ)能力表現(xiàn)?

在行研基礎(chǔ)能力評測中，GPT3.5、商湯商量和文心一言3.5穩(wěn)定領(lǐng)先，展現(xiàn)出各自在邏輯推理、文字生成和意圖理解的強項，而其他模型如天工、智譜清言等表現(xiàn)波動，模型底層能力還有待改善大模型行研基礎(chǔ)能力評測結(jié)果12.011.010.09.08.07.06.05.04.03.02.0類比遷移邏輯推理文字生成意圖理解語境轉(zhuǎn)換知識儲備商湯商量天工GPT3.5文心一言百川訊飛星火通義千問騰訊混元紫東太初Minimax智譜清言中科聞歌n模型在行研基礎(chǔ)能力評測維度中，商湯商量、GPT3.5、以及文心一言3.5表現(xiàn)穩(wěn)定性強，在單一模塊能力各有領(lǐng)先在行研基礎(chǔ)能力評測中，商湯商量、GPT3.5和文心一言3.5三大領(lǐng)先模型發(fā)揮最為穩(wěn)定。其中，GPT3.5在邏輯推理能力上排名領(lǐng)先，商湯商量在文字生成和語境轉(zhuǎn)換方面表現(xiàn)良好，而文心一言3.5則在意圖理解方面領(lǐng)先于其他模型；天工、智譜清言和百川的表現(xiàn)高度波動，如智譜清言在文字生成方面接近滿分，但在意圖理解和邏輯推理上遠低于均分。這種高波動性表明這些模型在實際使用中可能影響行研任務的整體效果。訊飛星火、騰訊混元以及Minimax在行研基礎(chǔ)能力的表現(xiàn)較為平穩(wěn)，但存在一定波動性。例如，Minimax雖在類比遷移和知識儲備方面展示了其強大的實力，但在文字生成表現(xiàn)伐善，排名墊底。通義千問、紫東太初和雅意整體表現(xiàn)較弱，在邏輯推理和意圖理解等高維模塊能力上較弱，但這也反映出它們在模型參數(shù)量和微調(diào)方面與領(lǐng)先模型存在差距。來源：沙利文、頭豹研究院400-072-558827大模型評測