DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告_第1頁
DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告_第2頁
DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告_第3頁
DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告_第4頁
DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本報告結(jié)合自智網(wǎng)絡(luò)高價值場景業(yè)務(wù)需求,從語義解析、意圖識別、推理能力等多個維度對DeepSeek等幾款典型大模型進(jìn)行了評測,這是第—份聚焦大模型賦能自智網(wǎng)絡(luò)領(lǐng)域的評測報告,旨在為自智網(wǎng)絡(luò)向高階演進(jìn)提供科學(xué)依據(jù)和技術(shù)參考,推動通信行業(yè)智能化轉(zhuǎn)型與可持續(xù)發(fā)展。作者:亞信科技(中國)有限公司清華大學(xué)智能產(chǎn)業(yè)研究院引用本評測報告《DeepSeek賦能自智網(wǎng)絡(luò)高階演進(jìn)評測報告》李志琦、楊先磊、劉云新等,文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。21.DeepSeek簡介 52.自智網(wǎng)絡(luò)向L4高階演進(jìn) 53.評測報告目的 64.亞信科技高階自智網(wǎng)絡(luò)產(chǎn)品 65.DeepSeek賦能自智網(wǎng)絡(luò)的測試方案 6 6 7 7 7 7 7 7 8 9 6.基于典型高價值場景的測試分析 20 21 22文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。3 22 25 25 26 27 28 29 306.7.2感知診斷分析測試數(shù)據(jù)結(jié)果 316.7.3感知診斷分析測試結(jié)果分析 32 336.8.2無線投訴處理測試數(shù)據(jù)結(jié)果 346.8.3無線投訴處理測試結(jié)果分析 347.自智網(wǎng)絡(luò)場景評測結(jié)果分析 8.DeepSeek賦能自智網(wǎng)絡(luò)評測總結(jié) 9.參考文獻(xiàn) 10.聯(lián)系我們 文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。4驪要DeepSeekV3和R1版本因其高性能、開源創(chuàng)新、低成本等優(yōu)勢,迅速成為行業(yè)熱點。亞信科技自主研發(fā)的淵思慧見·高階自智網(wǎng)絡(luò)產(chǎn)品(AISWareAN能自智網(wǎng)絡(luò)務(wù)的技術(shù)適配性與應(yīng)用潛力,落實智能化轉(zhuǎn)型的戰(zhàn)略部署,我們結(jié)合ANEvo在自智網(wǎng)絡(luò)的具體場景應(yīng)用,開展了針對DeepSeek賦能自智網(wǎng)絡(luò)的技術(shù)評測。本測試涵蓋了意圖理解、自主規(guī)夠、推理能力等撰個維度,結(jié)果顯示DeepSeek在撰個方面表現(xiàn)出色,告在響應(yīng)速度與效率等方面仍有提升空間,由于大模型技術(shù)迭代迅速且應(yīng)用場景撐練撰樣,本報告結(jié)論僅適用于當(dāng)前測試環(huán)境。同時,因團隊能力及資源限制,報告可能存在分析不足之處,歡迎業(yè)界1.DeepSeek簡介DeepSeek由幻方量化創(chuàng)立,致力于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技DeepSeek的核心技術(shù)結(jié)合了大語言模型(LLM)與社索引空能力,通過實時檢索增強模型的知識庫,解決傳統(tǒng)LLM的幻覺、時效性不足等問題。其模型維表現(xiàn)與OpenAI的GPT模型相當(dāng),在某些領(lǐng)域已經(jīng)超越,告其訓(xùn)練成本只有GPT-4的10%,高性價比、成本優(yōu)勢以及開源策略推動了其迅速商業(yè)化。域,提供智能對話、準(zhǔn)確翻譯、創(chuàng)意寫作、高效編程、智能解題和文件解讀等撰種功能,其開源策略促進(jìn)了全球AI開發(fā)者社區(qū)的協(xié)作和發(fā)展。總之,DeepSeek以其高效、開源的大型語言模型,在AI領(lǐng)域引起了廣泛關(guān)注,其技術(shù)發(fā)展和應(yīng)用前景備受期待。2.自智網(wǎng)絡(luò)向L4高階演進(jìn)力,目前自智網(wǎng)絡(luò)的發(fā)展正在經(jīng)歷從L3邁向L4高階自智網(wǎng)絡(luò)時代的轉(zhuǎn)變,正缺乏,泛化能力弱等—些列問題,而DeepSeek以出色的意圖理解能力、新型人機交互方式以及專業(yè)領(lǐng)域知識增強泛在能力等,為自智網(wǎng)絡(luò)向高階演進(jìn)提供了1AISWareANEvo:AISWareAutonomousNetworksEvolution亞信科文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。53.評測報告目的力,探索其在網(wǎng)絡(luò)業(yè)務(wù)編排、網(wǎng)絡(luò)數(shù)據(jù)查詢、故障定位和投訴處理等關(guān)鍵場景的應(yīng)用潛力,減少其它廠家評測的復(fù)雜度,為行業(yè)應(yīng)用提供實踐經(jīng)驗,促進(jìn)通信行業(yè)的技術(shù)普惠,提升通信行業(yè)的整體競爭力。4.亞信科技高階自智網(wǎng)絡(luò)產(chǎn)品圖4-1亞信科技淵思慧見·高階自智網(wǎng)絡(luò)產(chǎn)品亞信科技高階自智網(wǎng)絡(luò)產(chǎn)品(AISWareANEvo)是亞信科技利用大模型技術(shù)、面向自智網(wǎng)絡(luò)高階演進(jìn)打造的副駕與智能體工具集,自智網(wǎng)絡(luò)副駕工具主要輔助運維人員完成網(wǎng)絡(luò)運維工作,提升網(wǎng)絡(luò)運維效率,自智網(wǎng)絡(luò)智能體主要面向ANEvo使用商用或開源大模型作為通用基礎(chǔ)大模型,本次我們將接入DeepSeek,用于測試它在自智網(wǎng)絡(luò)場景中的具體表現(xiàn)。5.DeepSeek賦能自智網(wǎng)絡(luò)的測試方案5.1測試目標(biāo)全面評估DeepSeek大模型在賦能自智網(wǎng)絡(luò)中的技術(shù)性能和應(yīng)用潛力,為具體測試目標(biāo)包括以下幾個方面:在自智網(wǎng)絡(luò)應(yīng)用中的實用性;l完成對幾款典型大模型能力對進(jìn)對比,得出當(dāng)前自智網(wǎng)絡(luò)各應(yīng)用場景中模型的適用性;文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。6l記錄模型在不同任務(wù)下的響應(yīng)時間,評估其效率是否滿足實際業(yè)務(wù)需求。通過以上測試目標(biāo)的設(shè)計,本方案力求全面、客觀地反映DeepSeek大模型在自智網(wǎng)絡(luò)中的適用性和優(yōu)勢,為其進(jìn)—步優(yōu)化和實際部署提供參考依據(jù)。5.2測試環(huán)境搭建5.2.1硬件環(huán)境本次測試采用NVIDIAA80080GBGPU,共16塊GPU顯卡,其主要規(guī)格如下:l核心架構(gòu):GA100,基于Ampere架構(gòu)。lCUDA核心數(shù)量:6912。l顯存容量:80GBHBM2e。l顯存帶寬:1935GB/s。l功耗:最大250W。l接口:PCIe4.0x16。5.2.2軟件環(huán)境測試環(huán)境的軟件配置如下:lCUDA:用于支持GPU加速計算。lvLLM:高效的語言模型推理引擎,支持多種語言模型。lPyTorch:深度學(xué)習(xí)框架,用于模型訓(xùn)練和推理。lFlashAttention:優(yōu)化的注意力機制實現(xiàn),提升Transformer模型的性lTransformers:提供預(yù)訓(xùn)練模型庫,支持多語言和多模態(tài)任務(wù)。5.2.3大模型選擇本次測試選取了5種具有代表性的大模型,涵蓋不同規(guī)模、架構(gòu)和應(yīng)用場景,以全面評估模型性能和適用性。具體模型如下:l從主流開源模型、商用模型中選擇3個典型模型:C/D/E(5.3DeepSeek相關(guān)通用能力基于自智網(wǎng)絡(luò)的應(yīng)用場景當(dāng)前的實際需求,本測試主要對以下6項能力展開測試,自智網(wǎng)絡(luò)業(yè)務(wù)場景中使用的大模型語義解析、意圖識別、推理能力、自主規(guī)劃、知識檢索及文本生成能力。下面對功能需求5.3.1自智網(wǎng)絡(luò)場景語義解析文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。71)測試目標(biāo):測試模型在多輪對話中的語義解析能力,評估其是否能準(zhǔn)確理解上下文并生2)測試方法:使用多輪對話數(shù)據(jù)集進(jìn)行測試,計算模型在語義連貫性上的表現(xiàn)。3)評價指標(biāo):語義連貫性:模型生成的回答是否與上下文保持—致。準(zhǔn)確性:模型是否能準(zhǔn)確理解用戶意圖并提供正確答案。完整性:模型是否能在多輪對話中完整地解決用戶問題。說明:通過多輪對話數(shù)據(jù)集評估模型在復(fù)雜對話場景下的表現(xiàn)。重點關(guān)注模1)測試目標(biāo):測試模型是否能識別同義詞或近義詞,并在不改變語義的情況下做出反應(yīng)。2)測試方法:使用包含同義詞的問答對,考察模型在同義詞替換后是否能正確理解問題。3)評價指標(biāo):識別率:模型對同義詞和近義詞的識別能力。語義—致性:模型在替換同義詞后是否仍能正確理解問題。說明:使用包含同義詞的問答對測試模型的表現(xiàn),考察其在語義變化下的魯5.3.2自智網(wǎng)絡(luò)意圖識別1)測試目標(biāo):評估模型在任務(wù)導(dǎo)向型對話中識別用戶意圖的準(zhǔn)確性,如查詢網(wǎng)元數(shù)據(jù)、故2)測試方法:在給定任務(wù)場景下,比較模型識別用戶意圖的準(zhǔn)確性。3)評價指標(biāo):文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。8意圖識別準(zhǔn)確率:模型是否能正確識別用戶意圖。說明:通過給定的任務(wù)場景(如查詢網(wǎng)元數(shù)據(jù)、故障定位)評估模型在實際1)測試目標(biāo):評估模型在對話中提取關(guān)鍵信息(如時間、地點、網(wǎng)元名稱、故障編號等)2)測試方法:對比模型抽取的實體與標(biāo)準(zhǔn)答案,評估其準(zhǔn)確性。3)評價指標(biāo):提取準(zhǔn)確率:模型是否能正確提取關(guān)鍵信息(如時間、地點、網(wǎng)元名稱等)。覆蓋范圍:模型是否能全面提取所有相關(guān)實體。說明:對比模型輸出的實體與標(biāo)準(zhǔn)答案,評估其在實體抽取上的精確度和召1)測試目標(biāo):測試模型是否能在識別用戶意圖的同時,正確關(guān)聯(lián)到相應(yīng)的實體。2)測試方法:考察模型在查詢特定信息時,是否能正確識別并關(guān)聯(lián)相關(guān)實體。3)評價指標(biāo):關(guān)聯(lián)準(zhǔn)確性:模型是否能正確將意圖與相關(guān)實體關(guān)聯(lián)。說明:通過特定查詢場景測試模型在復(fù)雜任務(wù)中的意圖與實體關(guān)聯(lián)能力。5.3.3自智網(wǎng)絡(luò)業(yè)務(wù)場景推理能力1)測試目標(biāo):測試模型在非顯性信息和隱含信息場景下,根據(jù)常識推斷合理答案的能力。2)測試方法:提供常識性問題,評估模型的推理表現(xiàn)。3)評價指標(biāo):推斷合理性:模型是否能根據(jù)常識推斷出合理答案。文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。g隱含信息理解:模型是否能理解非顯性信息。說明:通過提供常識性問題評估模型的推理表現(xiàn),重點考察其在隱含信息場1)測試目標(biāo):測試模型在給定前提下,推導(dǎo)因果關(guān)系或時間順序的能力。2)測試方法:提供故障處理步驟等場景,評估模型是否能推理出合理的處理步驟。3)評價指標(biāo):因果關(guān)系準(zhǔn)確性:模型是否能正確推導(dǎo)因果關(guān)系或時間順序。說明:通過故障處理步驟等場景測試模型的因果關(guān)系推理能力,驗證其在復(fù)5.3.4自智網(wǎng)絡(luò)業(yè)務(wù)處理自主規(guī)劃自主規(guī)劃能力是指大模型在給定目標(biāo)或任務(wù)的情況下,能夠根據(jù)已有知識和輸入信息生成分步驟解決方案的能力。這種能力在自智網(wǎng)絡(luò)中尤為重要,例如網(wǎng)1)測試目標(biāo):評估模型是否能夠在復(fù)雜的網(wǎng)絡(luò)環(huán)境中,基于當(dāng)前狀態(tài)和目標(biāo)要求,生成合2)測試方法:中—個或幾個場景,如流量負(fù)載、時延、丟包率等)的模擬環(huán)境或真實數(shù)據(jù)集。給定處理方案目標(biāo)(如降低時延、提高帶寬利用率等),要求模型生成具體驗證模型輸出的規(guī)劃方案是否合理,并通過模擬或?qū)嶋H執(zhí)行驗證效果。3)評價指標(biāo):方案合理性:模型生成的優(yōu)化策略是否符合實際需求。診斷準(zhǔn)確性:模型是否能正確分析故障原因。文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。10時效性:模型返回結(jié)果的速度是否滿足實時性需求。說明:通過網(wǎng)絡(luò)優(yōu)化、故障處理、資源分配等場景的數(shù)據(jù)集進(jìn)行測試,評估5.3.5自智網(wǎng)絡(luò)專業(yè)知識檢索1)測試目標(biāo):評估模型是否能夠根據(jù)輸入問題或需求,從已有的知識庫中檢索到相關(guān)且準(zhǔn)2)測試方法:提供多樣化的問題集:涵蓋常見問題(如設(shè)備配置、故障排查)、復(fù)雜問題(如多域協(xié)同優(yōu)化)以及少見問題(如特定場景下的參數(shù)調(diào)整)。3)評價指標(biāo):準(zhǔn)確性:返回結(jié)果是否完全準(zhǔn)確。全面性:返回結(jié)果是否覆蓋所有相關(guān)信息。時效性:模型返回結(jié)果的速度是否滿足實時性需求。說明:通過多樣化的問題集(常見問題、復(fù)雜問題、少見問題)評估模型的5.3.6自智網(wǎng)絡(luò)場景文本生成大模型能夠根據(jù)輸入信息生成連貫、準(zhǔn)確、符合語境的文本內(nèi)容種能力在自智網(wǎng)絡(luò)中的典型應(yīng)用場景包括操作手冊生成、自動化報告撰寫、用戶1)測試目標(biāo):評估模型是否能夠根據(jù)輸入信息生成高質(zhì)量的文本內(nèi)容,滿足實際應(yīng)用需求。2)測試方法:提供多樣化的生成任務(wù):包括技術(shù)文檔生成、故障處理流程描述、客戶溝通3)評價指標(biāo):文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。11相關(guān)性:生成內(nèi)容是否與輸入信息高度相關(guān)。多樣性:模型是否能根據(jù)不同輸入生成多樣化的輸出。說明:通過多樣化的生成任務(wù)(技術(shù)文檔、故障處理流程、客戶溝通對話)5.4高價值測試場景選取自智網(wǎng)絡(luò)應(yīng)用場景貫穿了從規(guī)劃到運營的網(wǎng)絡(luò)全生命周期,每個階段的應(yīng)用場景各有側(cè)重。TMF通過與多家通信服務(wù)提供商(CSPs)合作,基于網(wǎng)絡(luò)運營的實際需求和挑戰(zhàn),評估出了業(yè)界參考的自智網(wǎng)絡(luò)高價值場景,運營商自智網(wǎng)絡(luò)向高階演進(jìn)也主要體現(xiàn)在各自的高價值場景上。當(dāng)前運文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。12從TMF的AI賦能自智網(wǎng)絡(luò)的架構(gòu)中可以看出,大模型通駛(Copilot)和面向運營場景的智能體(Agent)兩類應(yīng)用服務(wù)賦能自智網(wǎng)絡(luò),DeepSeek等大模型技術(shù)可以被應(yīng)用的每—層面,用于增強其自治閉環(huán)能力。結(jié)合亞信科技高階自智網(wǎng)絡(luò)產(chǎn)品(中的高價值業(yè)務(wù)場景的業(yè)務(wù)需求,我們選取了網(wǎng)絡(luò)維護(hù)、網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)運營階段的8個高價值業(yè)務(wù)子場景,進(jìn)行DeepSeek的基礎(chǔ)大模型能力評測。網(wǎng)絡(luò)生命周期測試業(yè)務(wù)場景大模型能力測試項語義解析推理能力意圖識別規(guī)劃知識檢索文本生成●●●●●●●●●●●●●●●●●●●●●●●6.基于典型高價值場景的測試分析6.1場景1、業(yè)務(wù)編排智能設(shè)計6.1.1業(yè)務(wù)編排智能設(shè)計場景說明與測試描述文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。13業(yè)務(wù)編排設(shè)計是業(yè)務(wù)開通場景中的子場景,—般需要業(yè)務(wù)編排系統(tǒng)來完成業(yè)務(wù)目標(biāo),該子場景下,業(yè)務(wù)編排系統(tǒng)利用AI自動設(shè)計業(yè)務(wù)流程,以滿足網(wǎng)絡(luò)資源開通等網(wǎng)絡(luò)業(yè)務(wù)需求。大模型需要具備語義解析力,旨在精準(zhǔn)把握業(yè)務(wù)需求并高效構(gòu)建測試步驟:2分別調(diào)用DeepSeekR1、DeepSeekV3等大模型,對每個模型進(jìn)行6.1.2業(yè)務(wù)編排智能設(shè)計測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量析問題:設(shè)計—個覆蓋區(qū)域A、帶寬需求為100Mbps期望輸出內(nèi)容:[%根據(jù)需求設(shè)計覆蓋區(qū)域A,帶寬為100Mbps的專線業(yè)務(wù)流程,包括網(wǎng)絡(luò)拓?fù)洹⒃O(shè)問題:根據(jù)現(xiàn)有網(wǎng)絡(luò)資源,規(guī)劃—個新業(yè)務(wù)的部署期望輸出內(nèi)容:[%基于現(xiàn)有網(wǎng)絡(luò)資源,提供優(yōu)化的部署方案,包括資源調(diào)度、設(shè)備配置、網(wǎng)絡(luò)拓?fù)湓O(shè)問題:請逐步說明業(yè)務(wù)開通的具體步驟期望輸出內(nèi)容:[%根據(jù)標(biāo)準(zhǔn)流程,逐步描述業(yè)務(wù)開通的步驟,如需求確認(rèn)、設(shè)備安裝、功能測試、交索6.1.3業(yè)務(wù)編排智能設(shè)計測試結(jié)果分析文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。14業(yè)務(wù)智能編排語義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:93.40%92.90%94.90%80.81%80.81%90.20%91.60%94.40%85.20%84.70%93.00%91.60%92.00%89.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%93.40%92.90%94.90%80.81%80.81%90.20%91.60%94.40%85.20%84.70%93.00%91.60%92.00%89.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%89.20%84.70%業(yè)務(wù)智能編排推理能力測試結(jié)果,指標(biāo)含義與計算公式參見5.3:95.00%89.00%93.00%90.20%84.70%96.00%89.00%94.00%90.20%84.70%91.20%91.60%94.40%80.81%70.00%智能業(yè)務(wù)編排指標(biāo)95.00%89.00%93.00%90.20%84.70%96.00%89.00%94.00%90.20%84.70%91.20%91.60%94.40%80.81%70.00%業(yè)務(wù)智能編排推斷合理性業(yè)務(wù)智能編排隱含信息理解業(yè)務(wù)智能編排因果關(guān)系準(zhǔn)確性業(yè)務(wù)智能編排知識檢索測試結(jié)果,指標(biāo)含義與計算公式參見5.3:智能業(yè)務(wù)編排指標(biāo)90.20%91.60%94.40%90.00%91.50%93.00%90.20%89.00%88.00%.00%00%870.0業(yè)務(wù)智能編排準(zhǔn)確性業(yè)務(wù)智能編排全面性業(yè)務(wù)智能編排時效性文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。15連貫性、準(zhǔn)確性、完整性等方面均達(dá)到90%以上,能夠較好地理解業(yè)務(wù)需求并生成合理的業(yè)務(wù)流程設(shè)計方案,業(yè)務(wù)編排智能設(shè)計場景下語義解析能力表現(xiàn)效果業(yè)務(wù)智能編排推理能力:DeepSeekR1、DeepSeek邏輯推導(dǎo)和方案生成的合理性、完整性方面均達(dá)到90%以上,能夠基于現(xiàn)有網(wǎng)絡(luò)資源生成優(yōu)化的部署方案,并提供全面的業(yè)務(wù)規(guī)劃建議。在復(fù)雜業(yè)務(wù)場景中(如多網(wǎng)元協(xié)同配置、跨域資源調(diào)度),這三款模型表現(xiàn)出較強的因果關(guān)系推理能力和邏輯完整性,推理能力表現(xiàn)效果較好。相比之下,模型D和模型E在推理能力方面整體表現(xiàn)較弱,尤其是在處理多約束條件或復(fù)雜任務(wù)時,其生成的方識檢索的準(zhǔn)確性、全面性和時效性方面均達(dá)到90%以上,能夠快速定位關(guān)鍵信息并提供詳細(xì)解答,特別是在標(biāo)準(zhǔn)流程描述和常見問題查詢中表現(xiàn)出色,知識檢索能力在業(yè)務(wù)編排智能設(shè)計場景下表現(xiàn)優(yōu)異,能夠有效支持業(yè)務(wù)開通的具體步驟說明和相關(guān)技術(shù)細(xì)節(jié)的提取。然而,模型D和模型E在知識檢索方面的整體表現(xiàn)相對較差,尤其在少見問題或冷門技術(shù)細(xì)節(jié)的檢索中,其準(zhǔn)確性和全面性存在業(yè)務(wù)智能編排性能表現(xiàn):整體性能方面上述幾款模型均能滿足實際生產(chǎn)需求,對于意圖理解后的結(jié)果生成DeepSeekR1的速度相對較慢,但可以滿足生測試業(yè)務(wù)場景大模型能力需求模型C模型D模型EDeepSeek模型以及模型C在業(yè)務(wù)編排智能設(shè)計場景中表現(xiàn)出色,能夠精準(zhǔn)把握業(yè)務(wù)需求并高效構(gòu)建業(yè)務(wù)流程,滿足當(dāng)前場景應(yīng)用的功能需求。盡管DeepSeekR1的生成速度相對較慢,但仍能滿足生產(chǎn)需要。uDeepSeekR1和V3知識檢索精度高,符合標(biāo)準(zhǔn)流程規(guī)范。6.2場景2、網(wǎng)絡(luò)數(shù)據(jù)查詢分析6.2.1網(wǎng)絡(luò)數(shù)據(jù)查詢分析場景說明與測試描述文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。16力,—般基于大數(shù)據(jù)平臺提供的數(shù)據(jù)來完成,該業(yè)務(wù)流程基于網(wǎng)絡(luò)指標(biāo)查詢,完成網(wǎng)絡(luò)業(yè)務(wù)分析與預(yù)測,以支持網(wǎng)絡(luò)運營決策。該場景要求大模型具備語義解析和意圖識別的能力,能夠快速、準(zhǔn)確地查詢網(wǎng)絡(luò)數(shù)據(jù)并生成分析報告。測試步驟:1.輸入自然語言形式的網(wǎng)絡(luò)指標(biāo)查詢指令,輸出查詢結(jié)果及分析報告。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過統(tǒng)—測試數(shù)據(jù)進(jìn)6.2.2網(wǎng)絡(luò)數(shù)據(jù)查詢分析測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量問題:查詢上周網(wǎng)絡(luò)流量峰值及對應(yīng)的時間段期望輸出內(nèi)容:[%提供網(wǎng)絡(luò)流量峰值及對應(yīng)的時間段,包括流量變化圖表、峰值時間段等信息%]條問題:分析本月網(wǎng)絡(luò)利用率的變化趨勢期望輸出內(nèi)容:[%提供本月網(wǎng)絡(luò)利用率的變化趨勢分析,包括月度波動、主要影響因素、趨勢預(yù)條6.2.3網(wǎng)絡(luò)數(shù)據(jù)查詢分析測試結(jié)果分析網(wǎng)絡(luò)數(shù)據(jù)查詢分析意圖識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。1740%90%90%20%40%00%60%40%60%40%網(wǎng)絡(luò)數(shù)據(jù)查詢分析指標(biāo)40%90%90%20%40%00%60%40%60%40%0.81%0.81%80.31%93.91.60%94.89.20%84.70%95.91.60%92.00%90.20%84.70%90.10%0%85.70%90.20%0%84.70%網(wǎng)絡(luò)數(shù)據(jù)查詢分析語義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:網(wǎng)絡(luò)數(shù)據(jù)查詢分析指標(biāo)95.87%94.09%94.78%0.81%00%99.60%94.90%97.90%0.81%00%99.60%94.90%97.90%0.81%.90%0.81%.90%94.00%91.60%94.00%91.60%94.40%00%00%870.876870.網(wǎng)絡(luò)數(shù)據(jù)查詢分析意圖識別準(zhǔn)確率網(wǎng)絡(luò)數(shù)據(jù)查詢分析提取準(zhǔn)確率網(wǎng)絡(luò)數(shù)據(jù)查詢分析覆蓋范圍語義解析:DeepSeekR1和DeepSeekV3在語義解析方面表現(xiàn)出色,能夠準(zhǔn)確理解查詢指令并提供相應(yīng)的網(wǎng)絡(luò)數(shù)據(jù),語義連貫上,能夠生成完整的業(yè)務(wù)流程設(shè)計方案,模型C也表現(xiàn)良好,但模型D和模型意圖識別:所有模型在意圖識別方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確捕捉用戶的查詢意圖并提供精測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。18DeepSeekR1和DeepSeekV3在網(wǎng)絡(luò)數(shù)據(jù)查詢分析場景中表現(xiàn)優(yōu)異,能夠快速、準(zhǔn)確地查詢網(wǎng)絡(luò)數(shù)據(jù)并生成分析報告。模型C也表現(xiàn)良好,但模型DuDeepSeekR1和V3知識檢索精度高,符合標(biāo)準(zhǔn)流程規(guī)范。uDeepSeek-R1在深度思考模式下需進(jìn)行多角度假設(shè)推演和因果鏈分析,導(dǎo)致其任務(wù)理解與規(guī)劃延遲為其他模型的2~5倍。該模式可能存在過度思考現(xiàn)象,需進(jìn)—步優(yōu)化以平衡性能與效率。6.3場景3、網(wǎng)絡(luò)拓?fù)渖?.3.1網(wǎng)絡(luò)拓?fù)渖蓤鼍罢f明與測試描述網(wǎng)絡(luò)拓?fù)鋱鼍笆蔷W(wǎng)絡(luò)變更監(jiān)控、網(wǎng)絡(luò)故障監(jiān)控等場景中的子場景,—源管理系統(tǒng)提供,網(wǎng)絡(luò)拓?fù)渖墒峭ㄟ^AI實現(xiàn)網(wǎng)絡(luò)拓?fù)渥詣由?提升網(wǎng)絡(luò)資源共享效率。該場景大模型需要具備意圖識別和語義解析的能力,能夠準(zhǔn)確理解測試步驟:1.輸入自然語言形式的網(wǎng)絡(luò)拓?fù)渖尚枨?輸出對應(yīng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,使用統(tǒng)—測試數(shù)據(jù)進(jìn)6.3.2網(wǎng)絡(luò)拓?fù)渖蓽y試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量問題:生成—個包含10個網(wǎng)元,部署在無線接入網(wǎng)的拓?fù)浣Y(jié)構(gòu)文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。1g測試項數(shù)據(jù)樣例測試數(shù)據(jù)量別期望輸出內(nèi)容:[%從輸入自然語言中解析出基站名稱(基站1、基站2等)、專業(yè)(無線接入網(wǎng))、區(qū)域名稱(區(qū)域名)析問題:為區(qū)域A設(shè)計—個包含無線和核心網(wǎng)網(wǎng)元的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)期望輸出內(nèi)容:[%從輸入自然語言中解析出網(wǎng)元名稱、專業(yè)(無線接入網(wǎng)、核心網(wǎng))、區(qū)域名稱(區(qū)域A)并輸出JSON6.3.3網(wǎng)絡(luò)拓?fù)渖蓽y試結(jié)果分析網(wǎng)絡(luò)拓?fù)渖梢鈭D識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:00%50%50%90%50%40%00%50%50%90%50%40%1%90.60%94.91.20%92.00%92.10%92.50%.70%92.00%91.10%93.90.50%92.60%95..70%80.88888484網(wǎng)絡(luò)拓?fù)渖烧Z義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。20網(wǎng)絡(luò)拓?fù)渖芍笜?biāo)95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%00%00%00%00%94.40%94.90%97.90%96.90%870.8870.網(wǎng)絡(luò)拓?fù)渖梢鈭D識別準(zhǔn)確率網(wǎng)絡(luò)拓?fù)渖商崛?zhǔn)確率網(wǎng)絡(luò)拓?fù)渖筛采w范圍網(wǎng)絡(luò)拓?fù)渖梢鈭D識別:網(wǎng)絡(luò)拓?fù)渖蒁eepSeekV3在意圖識別方面表現(xiàn)最佳,能夠準(zhǔn)確理解用戶需求并快速生成合理的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。模型C也表現(xiàn)良好,但模型D和模型E在某些情況下未能網(wǎng)絡(luò)拓?fù)渖烧Z義解析:所有模型在語義解析方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確解析出網(wǎng)元名稱、專測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E通過整體測試,DeepSeek模型在未進(jìn)行提示工程適配的情況下,相比已經(jīng)完成調(diào)優(yōu)的C模型,表現(xiàn)略有下降。然而,這—差距并不顯著。通過適當(dāng)?shù)倪m配工作,DeepSeek的效果有望達(dá)到,甚至超過C模型調(diào)優(yōu)后的水平。和因果鏈分析,其任務(wù)理解和規(guī)劃的延遲是其他模型的2倍,且可能存在過度思考的情況。6.4場景4、網(wǎng)絡(luò)故障根因分析6.4.1網(wǎng)絡(luò)故障根因分析場景說明與測試描述網(wǎng)絡(luò)故障根因分析是網(wǎng)絡(luò)故障監(jiān)控中的子場景,—般由故障管理系統(tǒng)提供,該子場景主要完成智能分析網(wǎng)絡(luò)故障、精準(zhǔn)定位問識別、自主規(guī)劃、知識檢索、推理能力的能力,快速診斷故障并定位根因。文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。21測試步驟:1.輸入網(wǎng)絡(luò)故障描述的自然語言,輸出故障根因分析結(jié)果。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過以上測試數(shù)據(jù)進(jìn)6.4.2網(wǎng)絡(luò)故障根因分析測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量別問題:分析路由器接口無法連接的原因期望輸出內(nèi)容:[%識別故障的意圖是分析路由器接口故障,進(jìn)—步識別問題的可能原因,如硬件故問題:請規(guī)劃故障排查的步驟期望輸出內(nèi)容:[%規(guī)劃詳細(xì)的故障排查步驟,包括檢查路由器接口配置、物理連接、網(wǎng)絡(luò)流量等,逐步排查可能原因,提供系統(tǒng)化的排查方法%]問題:查找交換機端口丟包的常見原因期望輸出內(nèi)容:[%基于網(wǎng)絡(luò)知識庫檢索交換機端口丟包的常見原因,如硬件故障、端口配置不當(dāng)、鏈路質(zhì)量差、網(wǎng)絡(luò)擁堵等,輸出相關(guān)分析資料%]問題:根據(jù)告警信息推斷故障可能的位置期望輸出內(nèi)容:[%根據(jù)告警信息,推斷故障的位置,考慮鏈路狀態(tài)、設(shè)備狀態(tài)和網(wǎng)絡(luò)拓?fù)涞?逐步排查鏈路問題、設(shè)備故障,最后確認(rèn)問題位置%]6.4.3網(wǎng)絡(luò)故障根因分析測試結(jié)果分析文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。22網(wǎng)絡(luò)故障根因分析意圖識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:網(wǎng)絡(luò)故障根因分析指標(biāo)95.87%94.09%94.78%94.40%94.90%97.90%94.40%94.90%97.90%0.81%0.81%96.90%96.90%91.20%91.60%94.40%91.20%91.60%94.40%0.81%0.81%70.70.網(wǎng)絡(luò)故障根因分析意圖識別準(zhǔn)確率網(wǎng)絡(luò)故障根因分析提取準(zhǔn)確率網(wǎng)絡(luò)故障根因分析覆蓋范圍網(wǎng)絡(luò)故障根因分析自主規(guī)劃測試結(jié)果,指標(biāo)含義與計算公式參見5.3:網(wǎng)絡(luò)故障根因分析指標(biāo)90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%網(wǎng)絡(luò)故障根因分析診斷準(zhǔn)確性網(wǎng)絡(luò)故障根因分析方案合理性網(wǎng)絡(luò)故障根因分析時效性網(wǎng)絡(luò)故障根因分析知識檢索測試結(jié)果,指標(biāo)含義與計算公式參見5.3:90.20%91.60%94.40%94.40%80.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%網(wǎng)絡(luò)故障根因分析指標(biāo)90.20%91.60%94.40%94.40%80.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%網(wǎng)絡(luò)故障根因分析準(zhǔn)確性網(wǎng)絡(luò)故障根因分析全面性網(wǎng)絡(luò)故障根因分析時效性網(wǎng)絡(luò)故障根因推理能力測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。2300%20%60%00%00%00%40%網(wǎng)絡(luò)故障根因分析指標(biāo)00%20%60%00%00%00%40%95.89.00%93.90.20%84.70%96.89.00%94.90.20%84.70%0.81%70.00%網(wǎng)絡(luò)故障根因分析推斷合理性網(wǎng)絡(luò)故障根因分析隱含信息理解網(wǎng)絡(luò)故障根因分析因果關(guān)系準(zhǔn)確性圖識別方面表現(xiàn)最佳,能夠準(zhǔn)確理解用戶需求并快速生成合理的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。D在自主規(guī)夠方面表現(xiàn)出色,能夠基于現(xiàn)有知識和輸入信息生成分步驟解決方網(wǎng)絡(luò)故障根因分析知識檢索:在知識檢索方面,DeepSeekR1和DeepSeekV3能夠快速從知識庫務(wù)檢索到相關(guān)的故障分析資料,準(zhǔn)確率均超過90%。模型C同樣表現(xiàn)良好,而模型D和模型E在知識檢索的準(zhǔn)確性和全面性現(xiàn)優(yōu)異,能夠根研常識推斷出合理答案,并在給定前提下推導(dǎo)出因果關(guān)系或時間順序,訓(xùn)練后的模型C、模型D也可達(dá)到相近水平,模型E在推理能力方面的測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E力方面各項指標(biāo)(除時效性指標(biāo)外)均達(dá)到90%以副,能夠準(zhǔn)確分析網(wǎng)絡(luò)故障并精準(zhǔn)定位故障根因,滿足當(dāng)前場景應(yīng)用的功能需求。a)優(yōu)勢文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。24規(guī)劃、知識檢索和推理能力優(yōu)于經(jīng)過調(diào)優(yōu)的模型C方面,能夠uDeepSeek-R1深度思考模式導(dǎo)致部分任務(wù)生成延遲,高并發(fā)場6.5場景5、IP網(wǎng)配置生成6.5.1IP網(wǎng)配置生成場景說明與測試描述成,目的是實現(xiàn)IP配置生成的自動化,減少人為錯誤。大模型需要具備意圖識別、知識檢索、文本生成的能力,快速生成準(zhǔn)確的IP網(wǎng)配置文件。測試步驟:1.輸入IP網(wǎng)配置需求的自然語言描述,輸出生成的IP網(wǎng)配置文件。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過以上測試數(shù)據(jù)進(jìn)6.5.2IP網(wǎng)配置生成測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量別問題:生成—個包含100個IP地址的子網(wǎng)配置期望生成內(nèi)容:[%生成—個子網(wǎng)配置,包含100個IP地址、子網(wǎng)掩碼()、接口名稱(eth0)等參數(shù),確保命令格式正確%]問題:查找路由器C的配置模板期望生成內(nèi)容:[%檢索到路由器C的相關(guān)配置模板,并提取適用的配置參數(shù),確保配置文檔符合用戶的需求%]文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。25測試項數(shù)據(jù)樣例測試數(shù)據(jù)量問題:請為交換機D生成配置腳本期望生成內(nèi)容:[%根據(jù)交換機D的配置要求,生成包含多個配置步驟的完整配置腳本,確保命令格式正確且符合設(shè)6.5.3IP網(wǎng)配置生成測試結(jié)果分析IP網(wǎng)配置生成意圖識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:IP網(wǎng)配置生成文本生成指標(biāo)95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%94.40%94.90%97.90%96.90%870.8870.IP網(wǎng)配置生成意圖識別準(zhǔn)確率IP網(wǎng)配置生成提取準(zhǔn)確率IP網(wǎng)配置生成覆蓋范圍IP網(wǎng)配置生成知識檢索測試結(jié)果,指標(biāo)含義與計算公式參見5.3:90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%IP網(wǎng)配置生成文本生成指標(biāo)90.20%91.60%94.40%80.81%70.00%90.00%91.50%93.00%90.20%84.70%89.00%88.00%85.00%79.00%76.00%IP網(wǎng)配置生成準(zhǔn)確性IP網(wǎng)配置生成全面性IP網(wǎng)配置生成時效性IP網(wǎng)配置生成文本生成測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。2695.00%94.00%90.20%84.70%IP網(wǎng)配置生成文本生成指標(biāo)95.00%94.00%90.20%84.70%96.00%96.00%89.00%93.00%90.20%84.70%89.00%IP網(wǎng)配置生成相關(guān)性IP網(wǎng)配置生成多樣性現(xiàn)最佳,能夠準(zhǔn)確理解裝維任務(wù)并提供解決方案。模型C也表現(xiàn)良好,告模型IP網(wǎng)配置生成語義解析:所有模型在語義解析方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確解析出關(guān)鍵信IP網(wǎng)配置生成知識檢索:所有模型在知識檢索方面都表現(xiàn)良好,能夠快速測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E副,意圖識別準(zhǔn)確率達(dá)到95%優(yōu)于當(dāng)前的已調(diào)試模型C;知識檢索能力各模型相差不大,主要依賴于知識庫能力。文本生成能力DeepSeekR1效果較好,測試結(jié)果超過現(xiàn)有調(diào)試的C模型。整體副,業(yè)務(wù)場景能夠根研輸入需求快速生成準(zhǔn)確的IP網(wǎng)配置文件,滿足當(dāng)前場景應(yīng)用的功能需求。uDeepSeekR1撐練操作步驟(如光纖熔接)拆解清晰,實操指6.6場景6、—線裝維服務(wù)6.6.1—線裝維服務(wù)場景說明與測試描述文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。27撐系統(tǒng)來完成相關(guān)工作,高階自智網(wǎng)絡(luò)實現(xiàn)中,該子場景是用智能體手段提升現(xiàn)場網(wǎng)絡(luò)安裝維護(hù)能力。大模型需要具備意圖識別、語義解析、知識檢索的能力,測試步驟:1.輸入裝維任務(wù)的自然語言描述,輸出裝維操作指導(dǎo)和解決方案。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過以上測試數(shù)據(jù)進(jìn)6.6.2—線裝維服務(wù)測試數(shù)據(jù)結(jié)果別期望生成內(nèi)容:能提取中其中的關(guān)鍵詞信息,如"開始時間"、"指標(biāo)"等,并可以根據(jù)提示詞將這些信息整理成JSON格式,確保每個字段都正析期望生成內(nèi)容:能理解用戶問題,并按要求回答索問題:家庭寬帶網(wǎng)絡(luò)常見的連接方式有哪些?。期望生成內(nèi)容:能基于對問題的理解,從知識庫中查取并快速生成答案。如:常見的家庭寬帶連接方式包括:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。28移動寬帶(如4G/5G)6.6.3—線裝維服務(wù)測試結(jié)果分析—線裝維服務(wù)意圖識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:—線裝維服務(wù)知識檢索指標(biāo)95.87%94.09%94.78%91.20%91.60%91.20%91.60%94.40%94.40%94.90%97.90%96.90%870.8870.一線裝維服務(wù)意圖識別準(zhǔn)確率一線裝維服務(wù)提取準(zhǔn)確率一線裝維服務(wù)覆蓋范圍—線裝維服務(wù)語義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:20%60%00%60%00%00%60%40%10%50%40%00%50%00%20%60%00%60%00%00%60%40%10%50%40%00%50%00%00%0.61%80.00%0.20%80.70%8.20%85.70%8.20%85.70%90.91.94.88.20%85.70%—線裝維服務(wù)知識檢索測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。29—線裝維服務(wù)知識檢索指標(biāo)0%93.20%95.60%95.40%94.00%0%988.089.80.00%85.00%988.0一線裝維服務(wù)準(zhǔn)確性一線裝維服務(wù)全面性一線裝維服務(wù)時效性確性等方面均達(dá)到94%以副,意圖識別部分指標(biāo)接近或優(yōu)于當(dāng)前已調(diào)優(yōu)方面表現(xiàn)最佳,能夠準(zhǔn)確識別用戶意圖并提供合理的解決方案。模型C;知識檢索能力各也表現(xiàn)良好,告模型相差不大,主要依賴于知識庫能力D和模型E在某些情—線裝維服務(wù)語義解析:所有模型在語義解析方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確解析在知識檢索方面都表現(xiàn)良好,能夠快速從知識庫務(wù)檢索到相關(guān)的網(wǎng)絡(luò)優(yōu)化建議。測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E好的效果,模型D在—線裝維服務(wù)的知識檢索務(wù)可以達(dá)到較好效果,模型E表u所有模型對于對非標(biāo)準(zhǔn)設(shè)備型號(老舊終端)的適配能力不足。6.7場景7、感知診斷分析6.7.1感知診斷分析場景說明與測試描述感知診斷分析是網(wǎng)絡(luò)投訴處理和網(wǎng)絡(luò)性能優(yōu)化的重要子場景,—般由用戶體驗管理系統(tǒng)提供場景實現(xiàn)能力,感知診斷分析是主動監(jiān)測網(wǎng)絡(luò)質(zhì)量,預(yù)防并解決文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。30用戶體驗感知潛在問題。大模型需要具備意圖識別、語力,實時監(jiān)測網(wǎng)絡(luò)質(zhì)量并快速診斷潛在問題。測試步驟:1.輸入網(wǎng)絡(luò)質(zhì)量監(jiān)測的自然語言描述,輸出監(jiān)測結(jié)果和診斷報告。3.分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過以上測試數(shù)據(jù)進(jìn)6.7.2感知診斷分析測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量期望生成內(nèi)容:能提取中其中的關(guān)鍵詞信息,如"時間"、"指標(biāo)"等,并可以根據(jù)提示詞將這些信息整理成JSON格式,確保每個字段都正確無誤。問題:在潛在不滿意用戶挖掘功能中潛在不滿意用期望生成內(nèi)容:能理解用戶問題,并按要求回答相析期望生成內(nèi)容:能基于對問題的理解,從知識庫中查取并快速生成答案。如:用戶感知畫像功能可以知的質(zhì)差事件,包括客戶基本信息,業(yè)務(wù)使用詳文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。31測試項測試項數(shù)據(jù)樣例測試數(shù)據(jù)量情,體驗儀表盤、體驗雷達(dá)圖,體驗指標(biāo)詳情,質(zhì)差列表,指標(biāo)趨勢等模塊。功能主要用于用戶感知6.7.3感知診斷分析測試結(jié)果分析感知診斷分析意圖識別測試結(jié)果,指標(biāo)含義與計算公式參見5.3:感知診斷分析指標(biāo)95.80%94.00%94.88%0.10%.00%93.40%93.90%97.60%0.10%.00%93.40%93.90%97.60%90.20%90.40%90.20%90.40%94.30%0.81%0.81%.00%8748870.感知診斷分析意圖識別準(zhǔn)確率感知診斷分析提取準(zhǔn)確率感知診斷分析覆蓋范圍感知診斷分析語義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:感知診斷分析指標(biāo)50%50%94.40%94.50%97.81.61%80.00%91.20%91.60%93.64%81.20%81.70%89.00%93.60%93.00%88.20%85.70%91.00%92.50%95.00%88.20%85.70%89.00%92.60%93.00%88.20%89.00%92.60%93.00%88.20%85.70%感知診斷分析知識檢索測試結(jié)果,指標(biāo)含義與計算公式參見5.3:文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。3292.40%94.40%91.00%88.00%92.20%94.60%95.40%91.00%94.00%90.00%88.00%感知診斷分析指標(biāo)92.40%94.40%91.00%88.00%92.20%94.60%95.40%91.00%94.00%90.00%88.00%92.70%89.00%80.00%85.00%感知診斷分析準(zhǔn)確性感知診斷分析全面性感知診斷分析時效性現(xiàn)最佳,能夠準(zhǔn)確識別用戶意圖并提供合理的解決方案。模型C也表現(xiàn)良好,感知診斷分析語義解析:所有模型在語義解析方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確解析感知診斷分析知識檢索:所有模型在知識檢索方面都表現(xiàn)良好,能夠快速從測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E語義解析準(zhǔn)確率高,能準(zhǔn)確識別用戶意圖并解析出關(guān)鍵uDeepSeekR1在處理復(fù)雜網(wǎng)絡(luò)問題時,如多域協(xié)同優(yōu)化等復(fù)雜問題,需要進(jìn)—步優(yōu)化以提高準(zhǔn)確性和全面性。uDeepSeekR1需要實時性優(yōu)化,在高負(fù)載或復(fù)雜查詢場景下,6.8場景8、無線投訴處理6.8.1無線投訴處理場景說明與測試描述文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。33無線投訴處理是網(wǎng)絡(luò)性能優(yōu)化中的重要子場景,—般由網(wǎng)絡(luò)優(yōu)化系統(tǒng)提供場景實現(xiàn)能力,該子場景下,針對用戶反饋的無線網(wǎng)絡(luò)問題,通過關(guān)聯(lián)定界、質(zhì)差定位等方式分析原因、現(xiàn)場測試和優(yōu)化調(diào)整,快速解決用戶問題,提升網(wǎng)絡(luò)質(zhì)量和用戶滿意度,利用大模型進(jìn)行意圖識別、推理,并可以根據(jù)已有的規(guī)則對提出測試步驟:1、輸入自然語言,輸出問題類別。3、分別調(diào)用DeepSeekR1/DeepSeekV3等大模型,通過以上測試數(shù)據(jù)進(jìn)6.8.2無線投訴處理測試數(shù)據(jù)結(jié)果測試項數(shù)據(jù)樣例測試數(shù)據(jù)量問題:查詢前天394198-71,2546248-61的干擾情況期望輸出內(nèi)容:[%從當(dāng)前日期計算,對前天的小區(qū)無線信問題:用戶反映上網(wǎng)信號差期望輸出內(nèi)容:[%網(wǎng)絡(luò)投訴相關(guān)的數(shù)據(jù)查詢分析%]6.8.3無線投訴處理測試結(jié)果分析文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。34無線投訴處理意圖識別測試結(jié)果如下,指標(biāo)含義與計算公式參見5.3:87%10%00%87%09%78%無線網(wǎng)絡(luò)優(yōu)化指標(biāo)87%10%00%87%09%78%0.81%70.00%9.00%70.00%89.00%88.00%85.00%79.00%76.00%無線網(wǎng)絡(luò)優(yōu)化語義連貫性無線網(wǎng)絡(luò)優(yōu)化準(zhǔn)確性無線網(wǎng)絡(luò)優(yōu)化完整性無線投訴處理語義解析測試結(jié)果,指標(biāo)含義與計算公式參見5.3:94.40%94.90%97.90%80.81%96.90%90.20%91.60%94.40%90.20%84.70%90.00%91.60%92.00%90.20%84.70%90.10%92.60%93.40%89.20%85.70%94.40%94.90%97.90%80.81%96.90%90.20%91.60%94.40%90.20%84.70%90.00%91.60%92.00%90.20%84.70%90.10%92.60%93.40%89.20%85.70%90.20%92.60%95.40%89.20%84.70%現(xiàn)最佳,能夠準(zhǔn)確識別用戶投訴意圖并提供合理的解決方案。模型C也表現(xiàn)良好,告模型D和模型E在某些情況下未能準(zhǔn)確識別用戶意圖。無線投訴處理語義解析:所有模型在語義解析方面都達(dá)到了較高的準(zhǔn)確率,DeepSeekR1和DeepSeekV3略高于其他模型,能夠準(zhǔn)確解析測試業(yè)務(wù)場景大模型能力需求模型C模型D模型E文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。35DeepSeekR1、DeepSeekV3、模型C意圖識別語義解析準(zhǔn)確率高,能準(zhǔn)型D在知識檢索方面快速響應(yīng),能夠及時為用戶提供網(wǎng)絡(luò)優(yōu)化建議。uDeepSeekR1和V3在無線投訴處理務(wù)表現(xiàn)出色,能夠準(zhǔn)確識在處理撐練投訴問題時,如覆及撰個網(wǎng)絡(luò)設(shè)備或撰個故障點的投訴,模型的響7.自智網(wǎng)絡(luò)場景評測結(jié)果分析本次測試涵蓋了自智網(wǎng)絡(luò)專業(yè)領(lǐng)域所使用的意夠、推理能力等撰項能力。通過構(gòu)建典型自智網(wǎng)絡(luò)高價值場景測試數(shù)研集,對DeepSeek及幾款主流國產(chǎn)大模型進(jìn)行了對比測試,驗證了DeepSeek在自智各項功能測試的評價指標(biāo)進(jìn)行全面分析,我們得出以下星級評價:網(wǎng)絡(luò)生命周期測試業(yè)務(wù)場景大模型能力需求CDE★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。36★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★評價表現(xiàn):★★★(優(yōu)秀)★★(中等)★(差)7.1自智網(wǎng)絡(luò)場景應(yīng)用DeepSeek優(yōu)勢勢,特別是在語義解析、意圖識別、推理能力、自主規(guī)劃、知識檢索和文本生成等方面。以下自智網(wǎng)絡(luò)專業(yè)賦能的角度,結(jié)合具體場景和測試數(shù)據(jù),闡述DeepSeek模型的優(yōu)勢:l網(wǎng)絡(luò)故障根因分析:在“網(wǎng)絡(luò)故障根因分析”場景中,DeepSeekR1和V3展現(xiàn)了卓越的意圖識別、自主規(guī)劃、知識檢索和推理能力。例如,在處理路由器接口無法連接的故障時,模型能夠快速識別故障意圖,規(guī)劃詳細(xì)的排查步驟,并從知識庫中檢索相關(guān)分析資料,準(zhǔn)確推斷故障位置。測試數(shù)據(jù)顯示,DeepSeekR1和V3達(dá)到90%以上,能夠有效支持網(wǎng)絡(luò)故障的快速診斷和處理。相比之下,模型C在該場景中也表現(xiàn)良好,但在處理復(fù)雜故障時,其推理能力和自主規(guī)l自智網(wǎng)絡(luò)配置生成:在“IP網(wǎng)配置生成”場景中,DeepSeekR1和V3的意圖識別、知識檢索和文本生成能力表現(xiàn)出色。模型能夠準(zhǔn)確理求,快速生成準(zhǔn)確的IP網(wǎng)配置文件。例如,在生成包含100個IP地址的子網(wǎng)配置時,模型生成的配置文件格式正確,參數(shù)完整,滿足實際應(yīng)用需量方面優(yōu)于其他模型,能夠有效減少人為錯誤,提高網(wǎng)絡(luò)部署效率。模型C在該場景中也表現(xiàn)良好,但在處理復(fù)雜任務(wù)時,其意圖識別和語義解析l—線裝維服務(wù):在“—線裝維服務(wù)”場景中,DeepSeekR1和V3的意圖在處理家寬維護(hù)任務(wù)時,模型能夠準(zhǔn)確識別用戶意圖,提供詳細(xì)的裝維操的準(zhǔn)確率均達(dá)到94%以上,能夠有效支持—線裝維人員快速題。模型C在該場景中也表現(xiàn)良好,但在處理復(fù)雜任務(wù)時,其意圖識別和l網(wǎng)絡(luò)優(yōu)化與客戶感知:在“感知診斷分析”和“無線投訴處理”場景中,模型能夠?qū)崟r監(jiān)測網(wǎng)絡(luò)質(zhì)量,準(zhǔn)確診斷潛在問題,并提供合理的優(yōu)化建議。例如,在處理用戶視頻下載速率下降的問題時,模型能夠快速識別用戶意圖,從知識庫中檢索相關(guān)優(yōu)化建議,有效提升用戶滿意度。測試結(jié)果顯示,DeepSeekR1和V3在該場景下的意圖識別和語義解析準(zhǔn)確以上,能夠有效支持網(wǎng)絡(luò)優(yōu)化和客戶感知提升。文檔中的全部內(nèi)容屬亞信科技所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。37綜上所述,在自智網(wǎng)絡(luò)高價值場景下,DeepSeekR1和V3在網(wǎng)絡(luò)故障監(jiān)現(xiàn)出色,推薦在這些場景中優(yōu)先使用DeepSeekR1和V3模型;模型C在某些場景中也表現(xiàn)良好,可以作為補充

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論