2025AI時代的存儲基石_第1頁
2025AI時代的存儲基石_第2頁
2025AI時代的存儲基石_第3頁
2025AI時代的存儲基石_第4頁
2025AI時代的存儲基石_第5頁
已閱讀5頁,還剩74頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

AI目錄CONTENTS前言:存儲是人工智能的關(guān)鍵基座 04第一章:AI與存儲技術(shù)開啟未來數(shù)據(jù)新紀(jì)元 09典型AI應(yīng)用帶來的存儲增長趨勢 12大模型場景下的以存強算 12自動駕駛3.0時代的數(shù)據(jù)循環(huán) 14邊緣AI存儲成為熱點 17存儲技術(shù)的挑戰(zhàn)與機遇 17存儲系統(tǒng)的智能化 18算力與存力高效協(xié)同 19計算存儲協(xié)同促進AI落地 19第二章:AI應(yīng)用場景與存儲需求 21準(zhǔn)備數(shù)據(jù) 22訓(xùn)練過程 檢查點及其作用 數(shù)據(jù)量與讀寫壓力 25檢查點的保存 27檢查點的恢復(fù) 29推理過程 33KVCache及容量需求 33RAG與向量數(shù)據(jù)庫 35內(nèi)容生成 37生成式AI促進數(shù)據(jù)生產(chǎn) 邊緣側(cè)計算和存儲能力增長 40數(shù)據(jù)留存與復(fù)用 412小結(jié) 422第三章:AI應(yīng)用中的存儲層級 存儲層級架構(gòu) 44HBM與SRAM 45存儲容量 46HDD 47SSD 存取性能 52順序讀寫 52隨機讀取 53隨機寫入 54耐久性 55分層存儲 56第四章:技術(shù)演進與生態(tài) 59容量趨勢 60硬盤 60SSD 62性能趨勢 64多磁臂 65FDP 統(tǒng)一生態(tài) 68綠色節(jié)能 71功耗水平 72增長趨勢 72液冷選項 長效節(jié)能 硬盤再生 3結(jié)語:AI重新定義數(shù)據(jù)存儲的量與質(zhì) 773因“數(shù)”而變,以存強算存儲是人工智能的關(guān)鍵基座自2022年底通用大模型技術(shù)取得突破以來,人工智能領(lǐng)域進入發(fā)展快車道。年2月發(fā)布的多模態(tài)生成式模型,標(biāo)志著基礎(chǔ)大模型正從單一數(shù)據(jù)處理向多維度信息整合演進。這類系統(tǒng)通過融合文本、圖像、音頻等多模態(tài)數(shù)據(jù),實現(xiàn)更接近人類認知的復(fù)雜信息處理能力,在醫(yī)療、交通、工業(yè)制造和氣象預(yù)測等領(lǐng)域展現(xiàn)出顯著應(yīng)用價值。近期,得到廣泛采用的開源大模型通過系統(tǒng)性優(yōu)化,在保持高性能的同時大幅證了算法效率與算力規(guī)模協(xié)同發(fā)展的重要性,為行業(yè)提供了多樣化的技術(shù)路徑參考。2018融、制造等相關(guān)行業(yè)上百個數(shù)據(jù)中心,見證了云計算、人工智能高速發(fā)展下的技術(shù)應(yīng)用趨勢和架構(gòu)演進。△JasonFeist希捷科技市場營銷高級副總裁2024年,希捷科技再次聯(lián)合益企研究院,針對不同行業(yè)場景深入調(diào)研和解讀。我們發(fā)現(xiàn)算力和存力的緊密結(jié)合,正推動著數(shù)字經(jīng)濟高質(zhì)量發(fā)展。基于本次調(diào)研,我們認為以下三個方面值得在更大的范圍內(nèi)進行探討。首先,隨著數(shù)據(jù)的爆炸式增長,生成式AI應(yīng)用走向普及,更豐富的內(nèi)容、更頻繁的復(fù)制以及更持久的數(shù)據(jù)留存,帶來了更多的數(shù)據(jù)創(chuàng)建和存儲需求。IDC2834ZB80~90AI業(yè)利用數(shù)據(jù)的能力提升,帶動數(shù)據(jù)存儲、管理、使用的需求增長。用戶越來越關(guān)注數(shù)據(jù)存儲容量、數(shù)據(jù)訪問速度、設(shè)備與系統(tǒng)的能效等方面。△IDC:全球生成的數(shù)據(jù)中,只有不到5%會被保存下來。預(yù)計到228年,存儲在云端10ZB(具體構(gòu)成如上圖,HDD80%,SSD6),企業(yè)端約6ZB,4ZB更重要的是,高質(zhì)量數(shù)據(jù)是構(gòu)建可信人工智能的支柱。數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和時效性直接影響著AI模型的訓(xùn)練效果和決策的可靠性。不準(zhǔn)確的數(shù)據(jù)可能導(dǎo)致模型產(chǎn)生錯誤的預(yù)測和判斷。反之,良好的數(shù)據(jù)管理,跟蹤模型歷史和數(shù)據(jù)脈絡(luò)不僅可以幫助企業(yè)實現(xiàn)精準(zhǔn)決策,還確保企業(yè)遵守人工智能法規(guī)。同時可以避免企業(yè)依賴于單一來源或者商業(yè)利益驅(qū)動下的專有數(shù)據(jù),使AI模型更加全面準(zhǔn)確地反映現(xiàn)實世界情況,確保推理的可確定性。其次,AI工作負載在不同階段需要不同特點和類型的算力、存力支撐。在大型數(shù)據(jù)中心部署中,AI相關(guān)數(shù)據(jù)在使用和創(chuàng)建的無限循環(huán)中流動。工作流程的每個階段都需要不同組合的內(nèi)存和存儲設(shè)備。AIAI相關(guān)數(shù)據(jù)周而復(fù)始的無限循環(huán)從定義、查找和準(zhǔn)備數(shù)據(jù)開始。通過網(wǎng)絡(luò)訪問的存儲便于共享和擴展,其中硬盤(HDD)能夠長期保存原始數(shù)據(jù)并提供數(shù)據(jù)保護,固態(tài)盤(SSD)則充當(dāng)可即時訪問的數(shù)據(jù)層。在模型的訓(xùn)練過程中,先要快速地從存儲中加載數(shù)據(jù)到HBM(高帶寬內(nèi)存)、DRAM以及本地固態(tài)盤以供后續(xù)的計算密集型操作使用。網(wǎng)絡(luò)硬盤和固態(tài)盤存儲檢查點,以保護和優(yōu)化模型訓(xùn)練。推理過程中的內(nèi)容創(chuàng)建主要依靠HBMDRAM便不斷進行優(yōu)化。硬盤用于存儲并保護內(nèi)容的副本。在這一系列步驟之后,數(shù)據(jù)被妥AIAIAI對模型訓(xùn)練來說,為了能夠快速恢復(fù)訓(xùn)練,需要頻繁創(chuàng)建檢查點。大容量、高性能AIAI數(shù)據(jù)的持續(xù)生成帶來更多存儲需求,而后者反過來又推動了數(shù)據(jù)生成和人工智能的進化,形成了一種良性循環(huán)。△在大型數(shù)據(jù)中心部署中,大多數(shù)AI相關(guān)的數(shù)據(jù)最終都存儲在大容量對象存儲中隨著人工智能基礎(chǔ)設(shè)施的更新,AI工作負載在性能、容量和能耗方面對數(shù)據(jù)中心和邊緣計算的存儲提出了嚴峻挑戰(zhàn)。數(shù)據(jù)的處理和存儲在整個AI業(yè)務(wù)流程和生態(tài)系統(tǒng)中扮演著重要角色,而存儲與計算共同構(gòu)成了AI落地的關(guān)鍵基礎(chǔ)設(shè)施。最后,在AI相關(guān)的數(shù)據(jù)中心,對存儲容量要求大幅增長,不同的存儲介質(zhì)在性能和可擴展性方面各具優(yōu)勢。希捷的熱輔助磁記錄技術(shù)突破了硬盤面密度的增長瓶頸,有效提升了硬盤容量、性能和能效。基于魔彩盒3+(Mozaic3+)技術(shù)的希捷銀河新一代企業(yè)級硬盤,已經(jīng)在超大規(guī)模數(shù)據(jù)中心部署。以希捷為代表的機械硬盤廠商與服務(wù)器廠商、最終用戶緊密協(xié)作,不斷擴展存儲能力,構(gòu)建高可靠、高價值存儲方案與服務(wù),以保證整體解決方案的性能和穩(wěn)定性,有效地激活數(shù)據(jù)價值。結(jié)論AI時代,存儲比以往任何時候都更為重要,因為它支撐著最核心的資產(chǎn)——數(shù)據(jù)。在AI迅速發(fā)展的當(dāng)下,數(shù)據(jù)成為了推動人工智能進步的關(guān)鍵要素。存儲作為數(shù)據(jù)的載體,其重要性不言而喻。為了充分抓住AI帶來的機遇,企業(yè)需要進行長期的、戰(zhàn)略性的存儲容量和性能規(guī)劃。只有這樣,才能滿足AI對海量數(shù)據(jù)的存儲需求,為人工智能的發(fā)展提供堅實的基礎(chǔ)。AI生態(tài)系統(tǒng)的重構(gòu)對計算、存儲、網(wǎng)絡(luò)等多種組件提出了更高的要求。存儲作為人工智能大模型的關(guān)鍵基座,不僅提供了數(shù)據(jù)存儲和管理的基礎(chǔ)支撐,還推動了生態(tài)互AIAI9AI9AI與存儲技術(shù)AI與存儲技術(shù)開啟未來數(shù)據(jù)新紀(jì)元人工智能(ArtificialIntelligence,AI)技術(shù)自誕生之初,便開啟了從理論探索到實踐應(yīng)用的發(fā)展歷程。初期,以專家系統(tǒng)為代表的AI技術(shù),嘗試模擬人類專家的決策過程,為特定領(lǐng)域提供智能支持。隨著技術(shù)的不斷進步,機器學(xué)習(xí)(Machine(Deep等更為先進的AI動了自然語言處理、計算機視覺等領(lǐng)域的飛速發(fā)展。伴隨著大模型的爆發(fā)和人工智能技術(shù)的快速迭代,計算架構(gòu)、算法框架、數(shù)據(jù)供給正面臨深刻變革,生成式AI重新定義存儲的內(nèi)涵。△人工智能將推動總潛在市場(TAM)增長率達到更高的水平(來源:希捷@OCP)ChatGPT(LargeLanguageModel,LLM)是AI變到質(zhì)變長期積累的結(jié)果,也是GenAI(GenerativeAI,生成式人工智能)發(fā)展的重要里程碑。從GPT-4開始,超大規(guī)模預(yù)訓(xùn)練模型展示了一條通向通用人工智能的可以用自然語言方式生成任務(wù)描述,以非常靈活的方式應(yīng)對大量長尾問題和開放性任ITAIGenAI算法突破、算力緊俏的背后,是數(shù)據(jù)需求的激增。數(shù)據(jù)、算法、算力,并稱人工智能“三駕馬車”。在深度學(xué)習(xí)時代,高質(zhì)量的數(shù)據(jù)能夠為人工智能模型提供準(zhǔn)確的學(xué)習(xí)樣本和標(biāo)簽,使得模型能夠從中提取有效的規(guī)律和特征。例如,在圖像識別領(lǐng)域,大量清晰、標(biāo)注準(zhǔn)確的圖像數(shù)據(jù)是訓(xùn)練高性能模型的關(guān)鍵。只有通過對這些數(shù)據(jù)的學(xué)習(xí),模型才能逐漸掌握不同物體的特征,從而準(zhǔn)確地識別出各種圖像中的內(nèi)容。在自然語言處理中,豐富多樣的文本數(shù)據(jù)能夠幫助模型理解語言的結(jié)構(gòu)、語義和上下文關(guān)系,從而實現(xiàn)準(zhǔn)確的語言翻譯、文本生成等任務(wù)。隨著大語言模型的爆發(fā),公眾的注意力常常集中在算力規(guī)模(GPU卡數(shù)量)上,但業(yè)內(nèi)先驅(qū)們早已認識到數(shù)據(jù)才是最難補齊的短板。根據(jù)OpenAI0文中展示的大語言模型擴展法則(aplanscalinglaws),每個參數(shù)需要1.7Token,175B大語言模型需要300BTokensDeepMind2022年提出的霍夫曼擴展法則(Hoffmannscalinglaws)認為,要獲得理想的模型質(zhì)量,每個參數(shù)需要大約2010B200BTokens,若每個FP32數(shù)據(jù)格式,那就意味著800GB的數(shù)據(jù)。DeepMind的論文預(yù)測,10Trillion(10)216TTokens。這個數(shù)字大約是人類迄今所生1010010TB級模型的千倍甚至萬倍的算力或訓(xùn)練時間。△出自DeepMind發(fā)表的論文《TrainingCompute-OptimalLargeLanguageModels》,2022年3月簡而言之,有效數(shù)據(jù)匱乏已經(jīng)成為當(dāng)前預(yù)訓(xùn)練階段的主要矛盾。雖然模型參數(shù)仍在繼續(xù)增加,但由于數(shù)據(jù)的限制,更大規(guī)模的模型在實現(xiàn)通用人工智能(AGI,ArtificialGeneralIntelligence)的道路上存在訓(xùn)練不足的隱患。如何攝取、整理、處理、存儲超乎想象的巨量數(shù)據(jù)成為AI時代最關(guān)鍵的問題。典型AI應(yīng)用帶來的存儲增長趨勢按照霍夫曼擴展法則,模型的規(guī)模和訓(xùn)練數(shù)據(jù)的規(guī)模是決定模型能力的關(guān)鍵因素,超千億參數(shù)的大模型研發(fā)不僅僅是算法問題,而是囊括了底層龐大算力、網(wǎng)絡(luò)、存儲等諸多領(lǐng)域的復(fù)雜系統(tǒng)性工程,需要有超大規(guī)模數(shù)據(jù)中心的AI算力來支撐。而在當(dāng)前算力成本高昂的背景下,提升算力利用率成為了有效提高系統(tǒng)性能和降低整體成本的關(guān)鍵。因此,面對算力成本急劇上升和優(yōu)化算力利用率的迫切需求,存儲系統(tǒng)的構(gòu)建也越來越重要。大模型場景下的以存強算大模型的全生命周期主要可以分為三個階段,包括數(shù)據(jù)的采集、訓(xùn)練/微調(diào)、推理。AI微調(diào)是對存儲層要求較高的環(huán)節(jié)型從單模態(tài)到多模態(tài),出現(xiàn)數(shù)百億的小文件,多模態(tài)大模型所需的訓(xùn)練數(shù)據(jù)量是傳統(tǒng)單模態(tài)小模型的1000AI數(shù)據(jù)挖掘全流程的30%,對算力消耗巨大。存儲系統(tǒng)需要高效地存儲和調(diào)度大規(guī)模的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),可能包含文字、圖片、視頻、音頻等多種多樣的數(shù)據(jù)類型,用戶迫切希望擁有一個大容量、低成本、高可靠的數(shù)據(jù)存儲底座。例如,在自然語言處理領(lǐng)域,為了訓(xùn)HTML、PDF儲系統(tǒng)需要與計算資源緊密結(jié)合,實現(xiàn)高效的數(shù)據(jù)處理。在模型訓(xùn)練環(huán)節(jié),訓(xùn)練數(shù)據(jù)集加載慢、易中斷、數(shù)據(jù)恢復(fù)時間長等問題是大模型訓(xùn)練中的常見難題,存儲系統(tǒng)必須足夠快速地為AI算力芯片提供訓(xùn)練所需數(shù)據(jù)。為了解決這些問題,需要實現(xiàn)海量小文件數(shù)據(jù)集快速加載,降低GPU等待時間,以及快速讀寫檢查點(checkpoint)文件,降低恢復(fù)時長,提高訓(xùn)練效率。分布式文件系統(tǒng)可以將數(shù)據(jù)分散存儲在多個節(jié)點上,提高數(shù)據(jù)的并行訪問能力。同時,數(shù)據(jù)緩存技術(shù)可以將頻繁訪問的數(shù)據(jù)緩存在內(nèi)存中,減少存儲I/O操作,提高數(shù)據(jù)加載速度。其次,對于快速讀寫檢查點文件,可以采用高性能的存儲設(shè)備和優(yōu)化AIAI群的算力可用度處于較高水平,提升算力應(yīng)用效率。AI4年是多模態(tài)市場成為現(xiàn)實的關(guān)鍵一年,25AI和多模態(tài)模型,AI將被用于分析和整合非結(jié)構(gòu)化數(shù)據(jù),例如文本、敘事和洞察,與定量數(shù)據(jù)融合,提供更全面的分析結(jié)果。這將顛覆傳統(tǒng)的基于數(shù)字和結(jié)構(gòu)化數(shù)據(jù)的分析模式,為企業(yè)決策提供更豐富的背景和更動態(tài)的洞察。更多的數(shù)據(jù)、更大的模型以及更長的上下文窗口能夠帶來更高效的人工智能應(yīng)用范式。模型的推理過程是一個復(fù)雜的存儲系統(tǒng)工程,關(guān)鍵是需要能夠存的多、傳的快、性價比高。數(shù)據(jù)的不斷生成促成一個良性循環(huán)。此外,存儲成本也是企業(yè)需要考慮的重要因素。隨著數(shù)據(jù)量的不斷增長,存儲成本也會相應(yīng)增加。因此,企業(yè)需要尋找一種低成本的存儲解決方案,既能滿足數(shù)據(jù)存儲的需求,又能控制成本。大模型的存儲還需考慮數(shù)據(jù)的安全性和隱私性。由于大模型通常涉及敏感的訓(xùn)練數(shù)據(jù)和商業(yè)機密,因此存儲系統(tǒng)必須提供嚴格的數(shù)據(jù)加密和訪問控制機制,以防止數(shù)據(jù)泄露和非法訪問。自動駕駛3.0時代的數(shù)據(jù)循環(huán)自動駕駛作為AI從行業(yè)趨勢來看,由硬件與軟件驅(qū)動的自動駕駛1.02.0動的3.0時代正式開啟。1.0駛方案。但在100萬公里后,硬件不再是決定自動駕駛技術(shù)發(fā)揮的下限。2.0AIAI多自動駕駛企業(yè)加大了對算法模型的應(yīng)用,這使得其產(chǎn)品最終能夠落地,讓自動駕駛“走”了起來。2023~2033(來源:PrecedenceResearch)伴隨智能網(wǎng)聯(lián)汽車傳感器數(shù)量的快速增加,ADAS和自動駕駛車輛數(shù)據(jù)的生成量也呈現(xiàn)指數(shù)級增長,從GB到TB、PB,傳統(tǒng)數(shù)據(jù)存管模式無法應(yīng)對大規(guī)模復(fù)雜數(shù)據(jù)的快速處理、各種傳感器數(shù)據(jù)及外部數(shù)據(jù)的適配接入。PrecedenceResearch2023年全球自動駕駛汽車市場規(guī)模估計為1583.1億美元,預(yù)計到2033年將達到27528億美元左右,從2033年將以33%的復(fù)合年增長率(CAGR)增長。2023年美國自動駕駛汽車市場價值59.2億美元。從4年到033年,亞太地區(qū)的復(fù)合年增長率預(yù)計將達到35%。在過去兩年的調(diào)研中,數(shù)字中國萬里行團隊發(fā)現(xiàn)大模型的發(fā)展思路給自動駕駛帶來了更多啟發(fā),從道路信息感知到路徑規(guī)劃決策,從智能駕駛的開發(fā)效率到用戶駕駛體驗,智能駕駛企業(yè)正采用多模態(tài)傳感器聯(lián)合輸出結(jié)果,用大模型大數(shù)據(jù)的模式提供自動駕駛方案。在自動駕駛3.0時代,數(shù)據(jù)閉環(huán)是核心要素,即從車端數(shù)據(jù)采集,到處理后形成有效數(shù)據(jù)集,再通過云服務(wù)器進行存儲、運輸,經(jīng)過算法模型訓(xùn)練、驗證后,將有效數(shù)據(jù)成果部署上車,各環(huán)節(jié)相互連接,形成自動駕駛數(shù)據(jù)循環(huán)。△自動駕駛的數(shù)據(jù)循環(huán)路徑以具有國內(nèi)合規(guī)采集資質(zhì)的吉利汽車為例,基于用戶車隊及集團內(nèi)運營車輛資源,目前吉利一輛車每個月的合規(guī)數(shù)據(jù)采集量是幾個GB的量級,星睿智算中心每天的采集TBFSDV12,向系統(tǒng)內(nèi)輸入了1000200萬輛的車隊,每天也會提供約1600億幀視頻用于訓(xùn)練。端到端自動駕駛存在與其他大模型應(yīng)用相同的問題:難以修正錯誤。基于規(guī)則的系統(tǒng)/務(wù),設(shè)置多個頭部、部署不同的模型可以隔離不同任務(wù)訓(xùn)練時對其他能力的影響。但在重新訓(xùn)練過程當(dāng)中,依舊可能無法徹底解決問題,或出現(xiàn)新的問題。譬如FSDV124FSDV13.2.2的規(guī)則與交規(guī)不符。迫或者故意。這些數(shù)據(jù)對學(xué)習(xí)效果的影響難以評估,訓(xùn)練結(jié)果難以測量。按下葫蘆浮起瓢的反復(fù)訓(xùn)練模式會極大消耗算力和數(shù)據(jù)資源。實現(xiàn)高等級自動駕駛的難點在于覆蓋盡可能多的極端場景、長尾場景。這類場景的采集難度極大,需要收集大量的數(shù)據(jù)。特斯拉有意識地收集自動駕駛模式中人為介入的場景。解決數(shù)據(jù)不足的思路還包括合成數(shù)據(jù)、強化學(xué)習(xí)等。自動駕駛還需要處理來自多種類型傳感器的多模態(tài)數(shù)據(jù),包括但不限于圖像、視頻流、點云等。此外,還需要應(yīng)對復(fù)雜的天氣條件、交通狀況以及各種長尾場景下的數(shù)據(jù)采集與分析。這些數(shù)據(jù)在結(jié)構(gòu)、大小和訪問頻率上都存在差異。因此,存儲系統(tǒng)需要具備靈活的數(shù)據(jù)管理能力,能夠適應(yīng)不同類型數(shù)據(jù)的存儲需求,并提供高效的數(shù)據(jù)檢索和分析功能。另外,自動駕駛技術(shù)對邊緣側(cè)的數(shù)據(jù)存儲可靠性也有著極高的要求。自動駕駛事關(guān)生命安全,因此任何數(shù)據(jù)丟失或損壞都可能帶來嚴重的后果。存儲系統(tǒng)必須采用多種數(shù)據(jù)冗余和保護機制,確保數(shù)據(jù)的完整性和可用性,即使在面臨硬件故障或自然災(zāi)害等極端情況下,也能保證數(shù)據(jù)的可靠存儲。邊緣AI存儲成為熱點數(shù)字平臺在不同領(lǐng)域的擴展產(chǎn)生了大量數(shù)據(jù),特別是由于物聯(lián)網(wǎng)(IoT)設(shè)備等互聯(lián)設(shè)備,產(chǎn)生了大量的數(shù)據(jù)集。如今,AI的進步催生了新的數(shù)據(jù)采集形式,這些形式不再與模型構(gòu)建者試圖訓(xùn)練的精確策略直接相關(guān)。生成性AI的興起,引發(fā)了對基準(zhǔn)測試、偏好數(shù)據(jù)、安全性及紅隊測試的新關(guān)注——不再局限于標(biāo)注和收集精確的策略數(shù)據(jù),而是向價值鏈上游延伸,涉及更復(fù)雜、更昂貴和更具挑戰(zhàn)性的任務(wù)。比如在智能制造領(lǐng)域模擬到現(xiàn)實的合成技術(shù)、模塊化機械臂附件等方式,開展大規(guī)模機器人數(shù)據(jù)采集。這些方法有助于收集基礎(chǔ)規(guī)模的數(shù)據(jù),以支持現(xiàn)實世界中的通用機器人。然而,收集數(shù)十億或數(shù)萬億個機器人數(shù)據(jù)Token需要大容量存儲設(shè)備進行后續(xù)的處理,邊緣AI的存儲也成為另外一個熱門場景。存儲技術(shù)的挑戰(zhàn)與機遇AIAI為了應(yīng)對這一挑戰(zhàn),新型存儲技術(shù)應(yīng)運而生。分布式存儲技術(shù)通過將數(shù)據(jù)分散到多個節(jié)點上存儲,提高了系統(tǒng)的可擴展性和容錯性。這種技術(shù)不僅能夠滿足AIAI過程提供有力支持。云存儲技術(shù)則是另一種重要的解決方案。通過將數(shù)據(jù)存儲在云端,云存儲技術(shù)實現(xiàn)了數(shù)據(jù)的集中管理和按需訪問。云存儲具有彈性擴展、高可靠性、低成本等優(yōu)勢,能夠滿足AIAI總的來說,存儲容量和性能的提升是AI技術(shù)發(fā)展的重要支撐。隨著新型存儲技術(shù)的不斷涌現(xiàn)和應(yīng)用,我們有理由相信,未來的存儲系統(tǒng)將更加智能、高效、可靠,為AI應(yīng)用的發(fā)展提供更為強大的動力。高速、低延遲的存儲性能對于確保AI應(yīng)用的順暢運行和實時響應(yīng)至關(guān)重要。傳統(tǒng)存儲技術(shù),盡管在過去的數(shù)十年中發(fā)揮了重要作用,但在面對AI應(yīng)用帶來的數(shù)據(jù)洪流時,卻顯得力不從心。優(yōu)化存儲性能是確保AIAI用對高速、低延遲存儲的迫切需求。這不僅有助于提升AIAIAI(HDD)與固SSDAI存儲系統(tǒng)的智能化隨著人工智能技術(shù)的深入發(fā)展,其對存儲系統(tǒng)的影響日益顯著。智能化存儲系統(tǒng)作為這一趨勢的重要產(chǎn)物,正逐漸改變著傳統(tǒng)存儲方式的面貌。通過集成先進的機器學(xué)習(xí)算法和深度學(xué)習(xí)模型,智能化存儲系統(tǒng)能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的智能分析與挖掘,進而優(yōu)化存儲性能,提升數(shù)據(jù)處理的效率。智能化存儲系統(tǒng)的核心在于其具備的自我學(xué)習(xí)和自我優(yōu)化能力。系統(tǒng)能夠通過對歷史數(shù)據(jù)的分析,識別出數(shù)據(jù)的訪問模式和特征,從而預(yù)測未來的數(shù)據(jù)需求。基于這些預(yù)測結(jié)果,智能化存儲系統(tǒng)可以自動調(diào)整存儲策略和布局,以確保數(shù)據(jù)能夠以最優(yōu)的方式被存儲和訪問。這種動態(tài)調(diào)整的能力不僅提升了存儲系統(tǒng)的性能,還有效降低了運營成本。除了優(yōu)化存儲性能外,智能化存儲系統(tǒng)還在數(shù)據(jù)備份和恢復(fù)方面展現(xiàn)出強大的實力。傳統(tǒng)的數(shù)據(jù)備份方式往往需要人工干預(yù),且恢復(fù)過程繁瑣易錯。而智能化存儲系統(tǒng)則能夠根據(jù)數(shù)據(jù)的重要性和優(yōu)先級,自動制定備份計劃,并在必要時迅速恢復(fù)數(shù)據(jù)。這種智能化的備份和恢復(fù)機制不僅提高了數(shù)據(jù)的安全性,還大大減少了因數(shù)據(jù)丟失而造成的損失。智能化存儲系統(tǒng)還在容災(zāi)方面發(fā)揮著重要作用。在面臨自然災(zāi)害、人為錯誤或惡意攻擊等潛在威脅時,智能化存儲系統(tǒng)能夠迅速響應(yīng),自動將數(shù)據(jù)遷移到安全的存儲位置,確保業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的完整性。這種高度的自動化和智能化水平,使得智能化存儲系統(tǒng)成為現(xiàn)代企業(yè)不可或缺的重要基礎(chǔ)設(shè)施之一。算力與存力高效協(xié)同數(shù)據(jù)規(guī)模的增長對存儲技術(shù)的性能、容量和可靠性提出了更高要求。尤其在大模型訓(xùn)練和推理過程中的數(shù)據(jù)調(diào)度、邊緣側(cè)與云端數(shù)據(jù)的存儲,需要大容量、高速、低延遲的存儲系統(tǒng)以支撐實時數(shù)據(jù)處理和分析,大容量的存儲技術(shù)解決方案成為支撐整個AI生態(tài)系統(tǒng)的關(guān)鍵。在整個生成式AI落地過程中,企業(yè)如果希望充分利用AI能力,需要首先建立一套高效、可靠的數(shù)據(jù)存儲與管理系統(tǒng),確保數(shù)據(jù)價值被充分發(fā)掘且高效利用算力。譬如,針對非結(jié)構(gòu)化數(shù)據(jù)的處理,向量數(shù)據(jù)庫成為AI大潮當(dāng)中的熱點。計算存儲協(xié)同促進AI落地AI應(yīng)用需處理和分析的數(shù)據(jù)規(guī)模日益龐大,使得算力不斷增加。但算力規(guī)模增加的同時,集群的可用性明顯下降,數(shù)據(jù)的存儲與訪問速度對系統(tǒng)性能和效率產(chǎn)生直接影響。此外,隨著AI應(yīng)用數(shù)據(jù)規(guī)模和復(fù)雜性的持續(xù)增長,對存儲技術(shù)的容量、速度和可靠性提出了更為嚴苛的要求。越來越多的應(yīng)用場景開始將AI算法與存儲介質(zhì)緊密結(jié)合,以實現(xiàn)更為智能化的數(shù)據(jù)處理和存儲管理,提升集群的可用度。PrecedenceResearch20247AI202428720342552億美元,年復(fù)合增長率(CAGR)相當(dāng)喜人。越來越多企業(yè)正在積極尋求更智能、更靈活的數(shù)據(jù)管理解決方案。AI2024~2034(來源:PrecedenceResearch)大模型場景下,數(shù)據(jù)存儲面臨的挑戰(zhàn),將不僅僅是傳統(tǒng)意義上容量增加、性能提升的GPUGPUAIAI21AI21AI應(yīng)用場景與存儲需求AI應(yīng)用場景與存儲需求GPU(AI)AI縮短訓(xùn)練時間及獲得更好的投資回報(ROI),是網(wǎng)絡(luò)和存儲架構(gòu)設(shè)計時必須重點考慮的因素。AI工作負載可以分為準(zhǔn)備數(shù)據(jù)、開發(fā)模型(訓(xùn)練)和部署模型(推理)能取得較好的效果。GPUNVIDIA8GPUDGXA100/H10083.84TBU.2NVMeSSD(DataCache)30TB。新一代的GB200NVL724GPU8E1.SSSD,每個GPU對應(yīng)的本地存儲容量并沒有很明顯的增長。8U.2SSD(中下部區(qū)域)8UGPU81UGPU器(節(jié)點),8E1.SSSD(中部區(qū)域),后者明顯更節(jié)省空間,但容量上限也相應(yīng)下降網(wǎng)絡(luò)存儲如文件存儲和對象存儲,在共享、擴展和故障恢復(fù)等方面都優(yōu)于(服務(wù)器)(如(HDD)SSDHDD20TB以上,但在性能和成本等方面各具優(yōu)勢。準(zhǔn)備數(shù)據(jù)采集(生成/獲取)、積累源數(shù)據(jù)是個相對長期的過程,除了結(jié)構(gòu)化數(shù)據(jù),更多的是非結(jié)構(gòu)化數(shù)據(jù),從文本到圖像、視頻等,文件尺寸越來越大,累積下來總數(shù)據(jù)量通常可達PB級,并且規(guī)模還在不斷增長。相對而言,性能上的要求不算很高,順序?qū)懭肟梢赃M一步降低存儲介質(zhì)端的壓力,HDD在單位容量成本上的優(yōu)勢較為明顯。AICPUGPU、不同存儲層之間的流動(來源:微軟)CPU式轉(zhuǎn)換及數(shù)據(jù)增強等操作,將原始數(shù)據(jù)轉(zhuǎn)換為GPU可處理的張量格式,再批量送往GPU。數(shù)據(jù)加載是個順序讀取的過程,數(shù)據(jù)量在數(shù)百GBTB級,單臺服務(wù)器的讀GB/sGB/sSSDHDD都是最為舒適的場景,有足夠的網(wǎng)絡(luò)帶寬與合理的存儲系統(tǒng)架構(gòu)支持,根據(jù)數(shù)據(jù)類型和模型的特點不同,從存儲讀取數(shù)據(jù)不一定成為瓶頸。例如,處理文本數(shù)據(jù)(供語言模型使用)時,只需進行分△數(shù)據(jù)加載涉及存儲IO和轉(zhuǎn)換流水線(來源:SNIA)MIT3ImageNet(讀取ImageNet16遠超實際訓(xùn)練過程的時長。通過將數(shù)據(jù)集預(yù)處理為更適合高吞吐量加載的格式,并用優(yōu)化的數(shù)據(jù)加載器在訓(xùn)練時加載數(shù)據(jù),可以大幅減少數(shù)據(jù)加載所需的時間。理想的情況是將讀取和預(yù)處理數(shù)據(jù)的過程與訓(xùn)練過程并行,把準(zhǔn)備數(shù)據(jù)的時長“隱藏”GPU/(數(shù)據(jù)一點也很難成立。△MIT在2023年發(fā)表的論文《FFCV:AcceleratingTrainingbyRemovingDataBottlenecks》中指出,ImageNet訓(xùn)練所花費的時間里,圖片處理階段占比最高訓(xùn)練過程在正常的訓(xùn)練過程中,只有少量的讀訪問,順序和隨機都有,訓(xùn)練結(jié)束后得到的模型被寫入存儲,這個數(shù)據(jù)量也不算大。然而,訓(xùn)練過程恰恰是給存儲系統(tǒng)訪問壓力最大的環(huán)節(jié),因為AI集群在高強度的訓(xùn)練過程中出現(xiàn)異常是常態(tài),存儲系統(tǒng)肩負“起死回生”的重任。檢查點及其作用大規(guī)模AI訓(xùn)練集群結(jié)構(gòu)復(fù)雜,組件眾多,如上千臺服務(wù)器、上萬個GPU/加速器、網(wǎng)卡和數(shù)量更多的光模塊,而訓(xùn)練的同步性質(zhì)使其對故障的容忍度較低——單個GPU、網(wǎng)卡或光模塊的故障就可能需要重啟整個作業(yè)。MetaLlama3405B(4050)16000NVIDIAH100GPU2000MetaGrandAI544664741978GPULlama3405B5478已確認或懷疑的硬件問題訓(xùn)練過程中定期保存檢查點可以在需要時恢復(fù)訓(xùn)練,或用于模型評估和推理。檢查點(Checkpoint)保存模型訓(xùn)練過程中的當(dāng)前狀態(tài),通常包括模型的參數(shù)(權(quán)重和偏置用檢查點可以從最后一個保存的檢查點繼續(xù)訓(xùn)練,而不必從頭開始。檢查點對于保障訓(xùn)練進度至關(guān)重要,如果每次故障后都需要從頭開始重新運行訓(xùn)練任務(wù),有些大型任務(wù)可能永遠無法完成。數(shù)據(jù)量與讀寫壓力檢查點的保存和恢復(fù)是兩個相反的過程:保存:GPU上運行的模型訓(xùn)練作業(yè),將模型狀態(tài)從GPU內(nèi)存拷貝到CPU存(系統(tǒng)內(nèi)存),進行序列化,形成檢查點數(shù)據(jù),寫入到持久存儲;恢復(fù):發(fā)生故障或需要恢復(fù)時,從存儲中讀取(相應(yīng)的)檢查點數(shù)據(jù)到系統(tǒng)內(nèi)存,反GPU內(nèi)存。檢查點的內(nèi)容包括模型權(quán)重(已學(xué)習(xí)的參數(shù))、優(yōu)化器和訓(xùn)練狀態(tài),可以理解為當(dāng)時“快照(訓(xùn)練用GPU數(shù)量或其內(nèi)存大小無關(guān)。(上和存儲下(NVIDIA)2(BF16FP16)計算,在混合精度訓(xùn)練中,為了減少累積誤差、提高訓(xùn)練穩(wěn)定性,也可以保留一份FP32(4)的模型參數(shù)。每個模21214就可以得出不同模型的檢查點大小,如GPT31750(175B)參數(shù),對應(yīng)的檢查2.4TB。對存儲系統(tǒng)而言,保存檢查點(Checkpointingprocess)是個(順序)檢查點恢復(fù)(esoefomacheckpoint)是個(順序)不僅于此,數(shù)據(jù)量和執(zhí)行頻度等要求也不同,都會影響存儲系統(tǒng)的架構(gòu)與實現(xiàn)。檢查點對應(yīng)的數(shù)據(jù)量與GPU(一定或加速器I(Dataaalleim,DP)和模型并行。在數(shù)據(jù)并行的多個模型實例中,每個實例都持有完整GPU參與保存檢查GPU轉(zhuǎn)移其模型參數(shù)數(shù)據(jù),而檢查點文件始終由單個線程順序?qū)懭搿PU從存儲系統(tǒng)讀取檢查點數(shù)據(jù)。每個模型實例都需要GPU意味著出錯的可能性更高,這些都會轉(zhuǎn)化為對存儲系統(tǒng)的壓力。檢查點的保存GPU的工作成果,但是,又不能讓這個過程的加入,嚴重影GPU的正常工作。檢查點操作所耗費時間應(yīng)盡可能的短,這樣可以增加檢查點的頻率,以最大限度減少浪費的訓(xùn)練時間并確保進度。△檢查點文件的寫入數(shù)據(jù)量是固定的(來源:SNIA/益企研究院)因為保存檢查點之前要將GPU(訓(xùn)練GPU狀態(tài)持續(xù)到保存檢查點完成,就意味著有效訓(xùn)練時間的相應(yīng)減少。而且保存檢查點花費的時間過長,也會限制保存檢查點的頻次,反過來影響檢查點的實際效果——檢查點之間的間隔拉遠,恢復(fù)時丟失的工作進度就會增加。回到前面的MetaLlama33290中斷后恢復(fù)的時間開銷不到17分鐘,這里面包含了作業(yè)啟動和(不止一次的)檢查點時間,其中留給每次保存檢查點的時間只能是一小部分。DellSNIAAI21%(72),五千億參數(shù)級別的大模型,寫入帶100GB/s表1:不同時長限制下檢查點需要的寫入帶寬(GB/s)模型參數(shù)檢查點大小(GB)72秒2小時1%180秒2小時2.5%360秒25%540秒2小時7.5%720秒2小時10%30億420.5830.2330.1170.0780.05870億981.3610.5440.2720.1810.136130億1822.5281.0110.5060.3370.253330億4626.4172.5671.2830.8560.642700億98013.6115.4442.7221.8151.3611400億196027.22210.8895.4443.6302.7221750億245034.02813.6116.8064.5373.4034050億567078.75031.50015.75010.5007.8755300億7420103.05641.22220.61113.74110.306Meta22(DRM)的檢查點系統(tǒng)Check-N-Run,默認每30分鐘保存一次檢查點。這就要求保存檢查點所花費的時間,必須達到分鐘級,甚至秒級。一種方法是全鏈路上強度,并行化檢查點寫入,可以成倍縮短耗費的時間。這種方法將檢查點創(chuàng)建分配給多個數(shù)據(jù)并行的GPU,因為每個模型實例持有相同的檢查點數(shù)PUAIGU/OI/OMetaLlama37500SSD2TB/s7TB/s另一種方法的思路與準(zhǔn)備數(shù)據(jù)階段的分析類似,不是簡單的把數(shù)據(jù)讀寫的壓力全部丟GPU從檢查點生成任務(wù)中解放出來——CPU處理檢查點操作時,GPUCheck-N-Run采用了解耦的思路,變同步為異步:訓(xùn)練僅在內(nèi)存中創(chuàng)建模型參數(shù)副本時暫停,GPU將其內(nèi)存(顯存)中的數(shù)據(jù)復(fù)制到系統(tǒng)內(nèi)存后(模型快照就緒),便可繼續(xù)進行訓(xùn)練工作;CPU接手模型快照的處理,由專用的進程在后臺負責(zé)創(chuàng)建、優(yōu)化和存儲檢查點。按照Meta16(128GPU)GPUCPU7300.4%,可忽略不計。目前微軟、字節(jié)跳動等企業(yè)都已采用了類似的解決方案。以微軟Nebula異步保存為例,需要一些內(nèi)存來存儲檢查點,須確保系統(tǒng)內(nèi)存至少大于檢查點的三個副本。此種做法的核心思路是最小化檢查點期間GPU的暫停時間,盡快讓寶貴的GPU回到檢查點的恢復(fù)GPUAI訓(xùn)練集群中的所有和服務(wù)器GPUN△恢復(fù)檢查點的讀取數(shù)據(jù)量與數(shù)據(jù)并行度正相關(guān)(來源:SNIA/益企研究院)N就是模型實例的數(shù)量,取決于數(shù)據(jù)并行度。換言之,從檢查點恢復(fù)時讀取的數(shù)GPU取數(shù)據(jù)量可能就越大。盡管恢復(fù)操作不會有檢查點那么頻繁,時間窗口的要求不必那么苛刻,但在乘以模型實例的數(shù)量之后,總讀取帶寬的要求仍然相當(dāng)可觀。以5分鐘恢復(fù)檢查點為例,大模型疊加高數(shù)據(jù)并行度的乘數(shù)效應(yīng),需要的總讀取帶寬依然高達TB/s。表2:不同模型實例數(shù)量對應(yīng)的5分鐘恢復(fù)檢查點的總讀取帶寬需求(GB/s)模型參數(shù)檢查點大小(GB)1816326412830億420.1401.1202.2404.4808.96019070億980.3272.6135.22710.45320.90741.813130億1820.6074.853.19.41338.82777.653330億4621.54012.32024.64049.28098.5601910700億9803.26726.13352.267104.533209.067418.1331400億19606.53352.267104.533209.067418.133836.2671750億24508.16765.333130.667261.333522.6671045.3334050億567018.900151.200302.400604.8001209.6002419.2005300億742024.733197.867395.733791.4671582.9333165.867NVIDA與斯坦福大學(xué)、微軟研究院在21年發(fā)表的論文《基于Megato-LMGPU3072GPU1萬億參數(shù)模型為例:13.8TB61.64TB/s28050除了采用全閃存存儲之外,分層存儲也可以化解這種高帶寬需求。因為檢查點對應(yīng)的存儲容量并沒有改變,只是有更多的GPU(及其服務(wù)器)需要這些數(shù)據(jù),從而提高了讀取帶寬的門檻。分層存儲可以把大部分的檢查點都保存在單位容量成本較低的HDD存儲層上,SSD存儲層只保存比較新的檢查點,或者用于臨時加載需要訪問的特定檢查點(相當(dāng)于緩存熱點數(shù)據(jù)),獲得更好的投入產(chǎn)出比。AzureBlobSSDHDD分層的方式存儲檢查點在計算側(cè)優(yōu)化的思路同樣適用于緩解恢復(fù)過程中的存儲帶寬壓力。字節(jié)跳動和北京大42egaScale1000個GPU》中,提出了一種優(yōu)化的數(shù)據(jù)檢索策略。多個GPU工作節(jié)點通常共享相同的狀態(tài)分區(qū),例如同一數(shù)據(jù)并行組中的工作節(jié)點。因此,MegaScale作節(jié)點從HDFS讀取共享狀態(tài)分區(qū),隨后將狀態(tài)分區(qū)廣播給所有共享相同數(shù)據(jù)的其他GPUHDFS保存期限與價值需要注意的是,檢查點不僅可以用于恢復(fù)中斷的訓(xùn)練,還有其他幾種用途:任務(wù)遷移:AI理硬件問題等。增量學(xué)習(xí):為后續(xù)的增量學(xué)習(xí)和遷移學(xué)習(xí)提供基礎(chǔ),利用先前訓(xùn)練模型的狀態(tài)從中間階段繼續(xù)訓(xùn)練,提升不同模型的訓(xùn)練效果。進度管理:調(diào)用檢查點對模型進行離線評估,是否朝著正確的方向發(fā)展。模型調(diào)優(yōu):需要重新調(diào)整超參數(shù)或者跳過部分數(shù)據(jù)(如出現(xiàn)尖峰)時,可以回到之前的檢查點進行調(diào)整。推理應(yīng)用:利用檢查點發(fā)布快照,即訓(xùn)練結(jié)果,供后續(xù)推理服務(wù)使用。SNIAbinar《IAI作負載中的關(guān)鍵作用》中提到:檢查點在整個訓(xùn)練過程中保留,有時保留的時間更長;模型可以恢復(fù)到任何一個之前的版本,而不僅僅是最近的檢查點。405015PBMetaLlama340PB6%出頭的一小部分,還有充足的空間滿足其他存儲需求。動覆蓋可以節(jié)省大量存儲空間,達到中斷恢復(fù)的基本條件。即便是MetaDLRMCheck-N-Run/178倍;預(yù)期會發(fā)生超過20次故障,平均帶寬仍能減少6倍,最大存儲容量減少超過2倍。但是,檢查點量化有可能降低訓(xùn)練準(zhǔn)確性,差分或增量檢查點則在檢查點之間建立了依賴關(guān)系,必須評估對恢復(fù)過程的不良影響。檢查點的較長期保存,也需要考慮HDD等單位容量成本較低的存儲方案。推理過程大模型(LLM)的推理分為兩個階段:Prefill階段主要處理來自用戶的輸入(如提示詞),是計算密集型;Decode階段要生成大量的Token,相對算力而言對內(nèi)存帶寬要求更高,是內(nèi)存密集型。PD12DeepSeek-V3SLO(服務(wù)級別目標(biāo))分離策略,有助于提高分布式推理的效率和服務(wù)質(zhì)量。可以看出,對內(nèi)存的使用和優(yōu)化在推理過程中的重要性。前面在數(shù)據(jù)準(zhǔn)備和訓(xùn)練過程中多次提到計算側(cè)優(yōu)化對存儲側(cè)的幫助,下面我們會看到內(nèi)存和存儲如何助力計算。KVCache及容量需求ansormerGPUCPU(/內(nèi)存)中加載模型權(quán)重,以及持續(xù)緩存注意力計算的中間狀態(tài)。模型權(quán)重所占用的內(nèi)存空間為參數(shù)數(shù)量及精度的積,注意力計算的中間狀態(tài)aue)KVCacheenoenGPT3-175B參數(shù)、FP16350GBKVCache,需要的顯存空間還要再多一半。GPUScaleUp(縱向擴展)GPUGPUCPU路(NVLink-C2C)也可以讓GPUCPU縮減參數(shù)規(guī)模和精度,可以降低顯存/7B(70)參數(shù)量的模型FP16BF1614GB/內(nèi)存空間;通過量化為較低的FP8/7GB。端側(cè)推理由于內(nèi)存1.3B(13)等更小參數(shù)量的模型。KVCache為主要矛盾。更長的上下文、更長的思維鏈(ChainofThought,CoT)KVCacheKVCache制,簡單說就是只緩存最近若干KV狀態(tài),以大幅度KVCacheKVCache可分為動態(tài)量化和靜態(tài)量化。動態(tài)量化通過在模型運行時確定量化參數(shù),能夠更好地適應(yīng)數(shù)據(jù)分布的動態(tài)變化,但這種實時運算需要更大的計算開銷。靜態(tài)量化采用預(yù)先確定量化參數(shù)的方式,能夠提供更優(yōu)的性能表現(xiàn),但需要額外的校準(zhǔn)數(shù)據(jù)集支持。另一種方法是尋找“外援,將模型權(quán)重、KVCacheCPU(系統(tǒng)內(nèi)存)至NVMeSSD載更大的批次。由于(系統(tǒng))內(nèi)存速度較慢,卸載會增加延遲,但考慮到計算本身也KVCacheAI/除了主機內(nèi)存,CXLSSD也可以參與卸載。有一些SSD廠商推出了NVMeSSD承載顯存卸載的需求。CXLGPU直接通訊也是新的研究課題。RAG與向量數(shù)據(jù)庫大語言模型應(yīng)用中最讓用戶反感的是“無知”,例如幻覺、正確的廢話等,缺乏最新的資訊和某些專業(yè)領(lǐng)域的知識。再訓(xùn)練可以改善大語言模型在某些專業(yè)領(lǐng)域的表現(xiàn),但依舊不能及時更新知識,需要重復(fù)進行訓(xùn)練。RAG(RetrievalAugmented除了專業(yè)性和時效性更高,RAG還有部署門檻低、風(fēng)險可控的優(yōu)點。大語言模型依靠的知識是通過內(nèi)嵌參數(shù)存儲的,而RAG將知識存儲與推理能力分離。相比預(yù)訓(xùn)練和微調(diào),RAG消耗的計算資源更低。RAG的知識存儲不依賴于模型參數(shù),可以使用更為輕量化的模型,除了可以降低云端部署的成本,還可適用于邊緣側(cè)、端側(cè),對企業(yè)和個人更為友好。對于有保密性需求的專有知識,RAG的知識庫也更可控。可控性還體現(xiàn)在RAG的知識庫可以逐步更新,而無需重新訓(xùn)練生成模型。這對于企業(yè)分階段處理長期沉淀的海量數(shù)據(jù)非常重要,可逐步擴展被RAG覆蓋的范圍,也更有實踐意義。RAG的核心流程分為知識庫建立、檢索、生成等關(guān)鍵階段。知識庫是將精煉后的信息構(gòu)建為向量數(shù)據(jù)庫。檢索模塊接受基于自然語言的提示詞輸入,相關(guān)提示會被轉(zhuǎn)換為向量嵌入,并接著使用向量搜索在預(yù)先構(gòu)建的知識庫中檢索相似信息。生成模塊對檢索所得進行總結(jié)、組合或擴展,以生成內(nèi)容豐富且上下文相關(guān)的輸出。向量數(shù)據(jù)庫作為知識庫的適宜載體,向量數(shù)據(jù)庫在RAG中扮演著至關(guān)重要的角色。向量數(shù)據(jù)庫是一類專為執(zhí)行相似性搜索而定制的數(shù)據(jù)管理系統(tǒng)。與傳統(tǒng)數(shù)據(jù)庫按行或列組織信息不同,向量數(shù)據(jù)集使用數(shù)據(jù)的嵌入(embedding)作為表示,并基于嵌入的相似性進行檢索。RAG應(yīng)用的向量數(shù)據(jù)庫需要經(jīng)歷幾個階段:識,專有名詞、潛規(guī)則等難以理解,會導(dǎo)致知識遺漏。文檔應(yīng)以文本形式為主,大多數(shù)RAG更擅長處理基于文本的來源,但難以有效地集成和理解多模態(tài)內(nèi)容。圖像和表格可以通過特定的工具轉(zhuǎn)換為文本信息。數(shù)據(jù)處理:利用特定RAG管線從之前收集的文檔中提取文本、格式化內(nèi)容,并將數(shù)據(jù)分塊成可管理的大小。塊(chunk)的劃分對輸出質(zhì)量影響較大,太小的塊可能導(dǎo)致正確答案被切分,導(dǎo)致檢索時遺漏關(guān)鍵信息;太大的塊可能引入過多的噪聲,還可能超過大語言模型的上下文窗口尺寸。針對不同類型的文檔應(yīng)當(dāng)使用不同的劃分方式。向量化:通過嵌入模型處理數(shù)據(jù)塊,將文本轉(zhuǎn)換為向量,可包括用于豐富上下文的元數(shù)據(jù)。選擇合適的嵌入模型對于檢索速度、質(zhì)量有很大的影響。不同的嵌入模型的維度有數(shù)百至數(shù)千不等,也意味著索引大小、檢索計算量會有十倍以上的差異。存儲:將向量化數(shù)據(jù)存儲在可擴展的向量數(shù)據(jù)庫中,以便進行高效檢索。由于嵌入PB級。數(shù)據(jù)量的急劇增長帶來了存儲方面DPU以進一步降低主機占用率和網(wǎng)絡(luò)時延。檢索檢索階段接受的通常是自然語言輸入,需要理解用戶意圖,并對查詢進行優(yōu)化。查詢優(yōu)化包括改寫、糾錯、說明等,是重要的大語言模型推理工作。改寫是指對用戶輸入的查詢語句進行修改或重寫,包括調(diào)整結(jié)構(gòu)、添加或刪除關(guān)鍵詞、通過近義詞替換來擴展檢索范圍等;糾錯通常是指嘗試修正用戶輸入當(dāng)中可能的拼寫或語法錯誤;說明是修正或分解用戶輸入中不明確或模糊的內(nèi)容,使系統(tǒng)更好地理解并執(zhí)行相應(yīng)的檢索,有助于避免歧義。檢索既可以通過一次檢索獲得最終結(jié)果,也可以是多步推理,包括迭代檢索、遞歸檢索和自適應(yīng)檢索等。內(nèi)容提供更全面的信息;遞歸檢索可以將之前的檢索輸出作為后續(xù)的檢索輸入,通常用于需要漸進式收斂到最終答案的場景,如學(xué)術(shù)研究、案例分析等;向量數(shù)據(jù)庫的檢索是整個RAG流程中消耗計算、存儲資源最多的階段,通常使用近似最近鄰搜索(ANNS,ApproximateNearestNeighborSearch)算法。典型的ANNS算法是內(nèi)存型,隨著數(shù)據(jù)庫規(guī)模的擴大,尤其是向量嵌入的高維度,需要大量的系統(tǒng)內(nèi)存來容納從對象存儲中提取的向量和索引,這導(dǎo)致了高昂的成本,并限制知ANNSSSD保存在內(nèi)存中,在保持接近內(nèi)存型的性能前提下,顯著提升成本效益。甚至有更激進SSD生成RAG流程的最終階段。這一階段將檢索到的相關(guān)信息與原始輸入合并,形成更豐富的上下文信息。利用大語言模型上下文信息即可生成符合用戶需求的回答。對于企業(yè)而言,RAG可以更充分發(fā)揮專業(yè)領(lǐng)域知識和私有數(shù)據(jù)的價值,以滿足商業(yè)分析、智能客服、研發(fā)等方面的需求,是訓(xùn)練、微調(diào)私有大語言模型的有力補充。對于擁有多種數(shù)據(jù)集、眾多用戶的大型企業(yè)而言,對加速計算、網(wǎng)絡(luò)和存儲基礎(chǔ)設(shè)施進行全面投資是有效部署RAG應(yīng)用的關(guān)鍵,以應(yīng)對大規(guī)模的并發(fā)、多輪次的查詢需求。內(nèi)容生成訓(xùn)練開始前要加載數(shù)據(jù),推理開始前要加載模型。當(dāng)模型首次部署到GPU服務(wù)器上時,會把模型權(quán)重從持久化存儲(如硬盤或網(wǎng)絡(luò)文件系統(tǒng))GPU內(nèi)存中。這一步驟主要是順序讀取操作。在推理過程中,模型會根據(jù)輸入數(shù)據(jù)動態(tài)訪問其參數(shù)和中間計算結(jié)果。這些訪問模式通常是隨機的,取決于具體的輸入序列和模型架構(gòu)的設(shè)計。例如,自注意力機制會導(dǎo)致對不同位置的激活值進行非連續(xù)訪問。RAG對(外部)存儲更為依賴,會產(chǎn)生額外的I/O活動。因為RAG不僅依賴于內(nèi)部參數(shù)進行預(yù)測,還需要與外部知識庫進行交互以檢索相關(guān)信息。這些I/O活動包括:而增加了I/O負載;緩存管理:KVCacheI/O獲取最新信息;數(shù)據(jù)預(yù)處理:為了使檢索到的數(shù)據(jù)適合用于后續(xù)生成步驟,通常需要對其進行一些預(yù)處理,比如文本清洗、分詞等。這部分工作也可能涉及到額外的文件讀寫操作;日志記錄與監(jiān)控:在生產(chǎn)環(huán)境中,為了跟蹤性能指標(biāo)和服務(wù)健康狀況,通常會對每次檢索和生成操作進行詳細的日志記錄。這也意味著會有一定的存儲寫入活動。RAGI/OI(enAI)RGGPU當(dāng)有多個文檔存儲和成百上千個AIRGLLMGPU//LLM查詢,需要存儲在多種模式下都有較好的性能表現(xiàn),以支持來自許多服務(wù)器的不斷讀取和寫入。△一套存儲方案支持多種不同類型AI應(yīng)用的全生命周期(來源:WEKA)AI數(shù)據(jù)保護、更好的數(shù)據(jù)共享、更輕松的管理和更靈活的配置。在嵌入大型文檔存儲并為其編制索引時,網(wǎng)絡(luò)存儲還可以提供更好的性能。生成式AI促進數(shù)據(jù)生產(chǎn)AI極大提高了內(nèi)容的生成效率,只言片語便可生成音樂、圖片甚至視頻,這使得即使是普通人也可以快速創(chuàng)作富媒體內(nèi)容,在專業(yè)人員手中更是如虎添翼。以dbeFiefy80模態(tài)內(nèi)容工具構(gòu)建更豐富的對話并適配口型、語音,更快速地建模、生成分鏡等。運維人員可以用生成更詳實的日志、故障報告、風(fēng)險分析等。另外,轉(zhuǎn)錄、翻譯音視頻也是讓富媒體數(shù)據(jù)量裂變的一種應(yīng)用。福布斯在3AIAI自然、功能更為強大,這類應(yīng)用的使用頻次、時長均會獲得明顯增長。AI同存儲介質(zhì)的優(yōu)勢,達成更好的效果(來源:WEKA)AI泛部署的大模型除了消耗更多的算力,存儲需求也水漲船高。邊緣側(cè)計算和存儲能力增長邊緣側(cè)的推理應(yīng)用有顯著的實時性要求,這種需求在大語言模型落地之前便已經(jīng)非常清晰。早期的推理應(yīng)用主要基于卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型,典型應(yīng)用是機FPGA、經(jīng)CPU、PUAIC。這類需求需要不間斷地采集視頻、圖像、音頻、溫濕度等信息流,并存儲起來。許多挑戰(zhàn),譬如不同模態(tài)信息的映射、對齊等。大語言模型降低了多模態(tài)數(shù)據(jù)的處理門檻,任何人都有機會利用基礎(chǔ)模型和自有數(shù)據(jù)微調(diào)、訓(xùn)練自有模型。在近一年中涌現(xiàn)了大量“垂直行業(yè)大模型”正是這一特點的表現(xiàn)。這種轉(zhuǎn)變顯著提升了過去難以利用的數(shù)據(jù)的價值,也促進了更多樣化的數(shù)據(jù)采集。自動駕駛是傳感器激增、數(shù)據(jù)量激增的一個典型例子。在L4等級自動駕駛的愿景面前,數(shù)據(jù)采集的瓶頸并不僅在于傳感器的成本,更在于算力的限制。這也反映出人類在追求AI輸都會帶來巨大的壓力。//和存儲,由此帶動了邊緣側(cè)算力和存儲空間的增長。業(yè)界預(yù)測邊緣存儲的增長速度是2數(shù)據(jù)留存與復(fù)用AI為后繼交互的上下文信息而短暫保留,大多數(shù)不符合用戶預(yù)期的生成內(nèi)容被拋棄,包括文本、圖像、音視頻等。也有大量的內(nèi)容被保留下來,不論是出于合規(guī)的需要(如智能客服的對話文本、錄音等),抑或是用戶認為有用。后一種內(nèi)容還有可能被多次復(fù)制、分發(fā),被上傳至多個設(shè)備、平臺。快速生產(chǎn)配合移動互聯(lián)網(wǎng)的裂變式傳播,生AI科學(xué)、法律、倫理方面帶來了巨大的審查壓力。技術(shù)是一把雙刃劍,生成式I。AIIAI47OpenAIIaSuserAI缺陷。AI退化。這也難怪即使是年最新、最熱門的大語言模型(如DeepSeek-V3),其AI類如何使用“hatGT”后的人類知識繼續(xù)訓(xùn)練未來的大語言模型成為一個嚴峻的問題。Ia4“預(yù)訓(xùn)練已死”的觀點,其核心論據(jù)便是高質(zhì)量訓(xùn)練數(shù)據(jù)已經(jīng)幾乎窮盡。AI“近親繁殖”導(dǎo)致模型崩潰的問題,主要影響的是預(yù)訓(xùn)練階/AI(包括合成數(shù)據(jù))其實是可以用于推理模型的訓(xùn)練迭代的。以自動駕駛為例,如果要進行極端場景的訓(xùn)練如暴雨、濃霧、狂風(fēng)等,或者針對性場景的訓(xùn)練如鬼探頭、加塞等,使用合成數(shù)據(jù)的效率肯定要比“偶遇”要高的多。早期的這類訓(xùn)練是以監(jiān)督學(xué)習(xí)為重要手段,通過確定的規(guī)則生成符合要求的訓(xùn)練樣本。隨著DeepSeek-R1推理大模型的爆紅,也宣告強化學(xué)習(xí)可以用于推理模型的訓(xùn)練。強化學(xué)習(xí)意味著只需要為訓(xùn)練設(shè)定獎勵,而不再需要對訓(xùn)練數(shù)據(jù)進行標(biāo)注。/進行,以匹配不同的用戶需求、驗證不同的基礎(chǔ)模型等。這導(dǎo)致數(shù)據(jù)的重復(fù)利用,也而微調(diào)模型的需求會喚醒沉睡的數(shù)據(jù),甚至在多次微調(diào)當(dāng)中反復(fù)利用,或分階段地利用不同部分的數(shù)據(jù)。譬如,客服電話錄音,在傳統(tǒng)上只是為了合規(guī)要求而保存,如無意外發(fā)生將被歸檔、等待銷毀。但在大語言模型支持下,這些錄音可以用于訓(xùn)練企業(yè)專屬的智能客服,“理解”、“總結(jié)”出話術(shù)、知識庫,甚至能夠進一步掌握情緒、語氣等原本“只可意會不可言傳”的信息與技能。再譬如,智能駕駛領(lǐng)域,有一定規(guī)模的車企會熱衷于宣傳其智駕模型訓(xùn)練迭代的頻次是以月,甚至以周計算。而對于數(shù)據(jù)量較小小結(jié)AI逐步冷卻后歸檔,最終“難逃一死”。而為了獲得更實用、更適用的大語言模型,人們需要比以往任何時候都要努力地搜集數(shù)據(jù)。不僅歸檔數(shù)據(jù)被發(fā)掘出價值,就連“錯誤”的數(shù)據(jù)都可以被監(jiān)督學(xué)習(xí)所利用。在每一次訓(xùn)練迭代當(dāng)中,都包括了“源數(shù)據(jù)→訓(xùn)練模型→生成內(nèi)容→復(fù)制數(shù)據(jù)→保存數(shù)據(jù)→復(fù)用數(shù)據(jù)→源數(shù)據(jù)→訓(xùn)練模型……”這樣一個循環(huán)。這種循環(huán)不論對于模型大小均AIAIAIAI應(yīng)用中的存儲層級AI應(yīng)用中的存儲層級存儲層級架構(gòu)隨著技術(shù)的演進和應(yīng)用需求的細化,經(jīng)典的存儲金字塔層級也日漸豐富。當(dāng)然,這么豐富的層級,是易失性的內(nèi)存(Memory)類和非易失性的存儲(Storage)類,兩相疊加的結(jié)果,交界處有兼具內(nèi)存的性能和存儲的持久性的存儲級內(nèi)存(StorageClassMemory,SCM)承上啟下。△經(jīng)典的存儲金字塔層級(來源:希捷)存儲介質(zhì)的分層,自上而下,性能逐級下降、容量逐級遞增、成本逐級遞減。訪問頻繁或者隨時變更的數(shù)據(jù)會保留在較高的存儲層,而鮮少訪問或需要長期保存的數(shù)據(jù)將移動到較低的存儲層。SCM是介乎于內(nèi)存和外部存儲之間的角色,可以向上或向下融合:SCM可以與DRAM組合應(yīng)用,從邏輯上看上去是內(nèi)存設(shè)備;SCMSSD、硬盤配合,從SSDSSD匹配的順序讀寫吞吐量,TLCSSD可以承載較高的隨機訪問需求。在數(shù)據(jù)進入較高性能存儲介質(zhì),再轉(zhuǎn)入較低性能存儲介質(zhì)的過程當(dāng)中,SCMSSD可以做適當(dāng)?shù)膬?yōu)化而非只是簡單的做二傳手。淺層的優(yōu)化是較大容量的緩沖可以承受數(shù)據(jù)的變化,一些臨時性的數(shù)據(jù)沒有必要向下一層傳遞,預(yù)測為熱門的數(shù)據(jù)還會盡量長時間保持在緩沖內(nèi)。深層的優(yōu)化主要是寫整形和條帶化,充分發(fā)揮容量層介質(zhì)不善于隨機訪問但適合連續(xù)寫入的技術(shù)特點。緩存和分層存儲是現(xiàn)代計算機系統(tǒng)中典型的策略,用以協(xié)調(diào)與綜合不同類型存儲介質(zhì)的性能、成本和容量特性,以優(yōu)化整體系統(tǒng)的性能、成本效益,但也帶來了更復(fù)雜的數(shù)據(jù)管理。HBM與SRAM內(nèi)存又可以細分為SRAM和因這一波人工智能浪潮而供不應(yīng)求的BandwidthMemory,高帶寬內(nèi)存,GPU和AI速器的內(nèi)存(簡稱顯存)KVCache。生成速度的上限是顯存/xPU的算力與存儲帶寬應(yīng)當(dāng)匹配。3:英偉達HopperBlackwellGPU的算力與帶寬GPU算力(FP8)HBM容量HBM帶寬B20010PFLOPS192GBHBM3e8TB/sH2003,958TFLOPS141GBHBM3e4.8TB/sH1003,958TFLOPS80GBHBM33.35TB/sNVIDIA從H100到間還有個H100HBM和帶寬),Llama2GPT-3~△H200相比H100的大模型推理性能提升(來源:NVIDIA)但是總體而言,由于DRAM提速的步伐遠低于摩爾定律,即使是以高帶寬為名的HBMPUHBM.5DGPU(擴展)HBMHBM容量和總帶寬的增長速度。為了獲得更高的帶寬,也有一些推理芯片使用大容量SRAMHBM相差可達三個數(shù)量級。例如:GroqLPU(LanguageProcessingUnit)230MBDRAM,80TB/s;CerebrasWSE-346225SRAM21PB/s。存儲容量DRAM及以上的內(nèi)存類介質(zhì)(HBM、SRAM)等都屬于易失性介質(zhì),斷電后就會丟失信息。它們的優(yōu)勢是速度快,缺點是成本較高、容量有限。能夠長期保存信息的非易失性介質(zhì)包括閃存、硬盤、磁帶等,也包括一些新興的存儲介質(zhì)。非易失性介質(zhì)DRAM低得多。HDD硬盤驅(qū)動器(HardDiskDrive,HDD),簡稱“硬盤”,在經(jīng)過多年的發(fā)展之后,已經(jīng)3.5700RPM的技術(shù)路線上繼續(xù)迭代。大容量硬盤普遍采用氦氣密封技術(shù),氦氣的低密度低阻力特性使盤片可以更順滑平穩(wěn)的轉(zhuǎn)動,便于在同樣的高度內(nèi)堆疊更多盤片。以希捷的Exos1103.5英寸盤片。所以硬盤容量持續(xù)提高的關(guān)鍵還是提高單張盤片的容量。在盤片尺寸保持不變的前提下,其實就是怎么提升面密度(ArealDensity)。硬盤的數(shù)據(jù)記錄在磁道上,這是一個個以主軸為圓心的同心圓。面密度可以分解為兩個互相垂直的分量,即圓周方向上的記錄密度(RecordingDensity),和徑向上的磁道密度(TrackDensity):記錄密度指沿著單個磁道上單位長度內(nèi)可以存儲的數(shù)據(jù)位數(shù),通常以每英寸位數(shù)(BiserInch,BPI磁道密度指每英寸磁盤表面可以容納的磁道數(shù)量,通常以每英寸磁道數(shù)erInch,PI)來表示,主要受磁頭的定位精度、磁盤表面的平滑度和平整度等因素影響。BPI與TPI的乘積為bpsi(bitspersquareinch,每平方英寸的比特數(shù)),用于衡量Exos單碟容量2.4TB記錄密度2552KBPI(最大)磁道密度512KTPI(平均)面密度1260Gb/in2(平均)傳統(tǒng)磁記錄(ConventionalMagneticRecording,CMR)技術(shù),磁道間是獨立而有間隙的,沒有依賴關(guān)系。疊瓦式磁記錄(ShingledMagneticRecording,SMR)正如其名,形似屋頂上層疊排列的瓦片,允許相鄰磁道部分重疊,提高了磁道密度,能夠在相同的磁盤表面上存儲更多的數(shù)據(jù)。,22/24TBCMRSMR4TB,6/2TB16%~1%。但是,SMR的提升路線不可持續(xù)且有性能代價,需要軟硬件協(xié)同優(yōu)化,應(yīng)用場景受限。HAMR技術(shù)發(fā)展通過磁頭和介質(zhì)的共同努力,從根本上獲得面密度的持續(xù)提升,才是HDD技術(shù)發(fā)展的主要方向。希捷研發(fā)多年的HAMR(Heat-AssistedMagneticRecording,熱輔助磁記錄)3TB30TB4TB5TB1HAMR3+(Mozaic3+)36TB3.6TB,并有望實現(xiàn)單碟10TBSSD固態(tài)盤(SolidStateDrive,SSD)可以提供更高的性能(帶寬,IOPS),主要承擔(dān)追求高吞吐量、低時延的業(yè)務(wù)。SSDNAND閃存介質(zhì),成本較高。SSD可以從多個維度上促進存儲容量的提升:3D2014~NAND200300堆疊層數(shù)能帶來存儲密度的成倍提高,這也是過去十年間SSD容量持續(xù)增長的最主要驅(qū)動力。裸片堆疊(DieStacking):Die,通常在數(shù)個、十?dāng)?shù)個的水NAND每個Cell1100%0%25%。這種增長還會給性能和壽命帶來不利的影響,綜合投入產(chǎn)出比,越往后越困難,譬如五層單元的NAND還沒有產(chǎn)品化。目前基于SSDSSDSSDSSDSSD些缺點導(dǎo)致SSDSSDSSD差異化的發(fā)展道路,以突出存儲密度優(yōu)勢,降低性能權(quán)重,并逐步采用異于傳統(tǒng)的管理方式(FDP等)。SSDSSD寫負載均衡的需求SSD在前述多種技術(shù)的組合下,25SSD60TBHDD2SSD3不過,60TB及以上容量的SSD要得到很廣泛的應(yīng)用,還要面對一些現(xiàn)實的挑戰(zhàn):爆炸半徑:單盤容量太大,上面承載的數(shù)據(jù)和應(yīng)用過多,一旦出現(xiàn)故障,受影響的范圍太廣,對軟硬件架構(gòu)是很嚴峻的考驗。Se:Ient(單位容量性能:3.84TBSSDPCIe5.0x4SSD15TBIOPS/GBHDD成本:HDDPCA“基礎(chǔ)設(shè)施”,最大容量版本的單位價格有優(yōu)勢,而大容量SSDNAND是成本的絕對大頭,總體成本會20~30TB的容量區(qū)間,SSDHDD的單位容量成本,還rendorceIDCNANDHDD“退出”的容量空白,需要付出巨大的代價不具備可比性;至于60TB及以上的超大容量SSD,價格更是令普通用戶望而卻步。IDC的分析,說明生產(chǎn)足夠的來替代硬盤驅(qū)動器的需求是成本過高的。另一個阻礙是單位容量的成本($/TBHDD6在追求容量密度和性能的場景,SSD的優(yōu)勢明顯。但是,放眼整個存儲市場,HDD仍HDD340EB(NL)19%達到創(chuàng)紀(jì)錄的286EB,出貨量環(huán)比增長15%50萬個,三家供應(yīng)商的近線盤平均容量分別為17.5TB、19.8TB和15.0TB;SSD917EB10%8%644.3PCIeSSD25%55.654EB29%1095.4PIeSSD5.08TBHDDPCIeSSDHDD的五分之一。顯然,在相當(dāng)長的一個時期內(nèi),SSDHDD面來判斷:NAND的產(chǎn)能狀況,很難填補硬盤退出留下的容量空白;HDD也還遠不能滿足市場需求。IDC(Datasphere)400ZB(394ZB)5%(近20ZB)。硬盤是應(yīng)用最廣泛、歷史最悠久、兼容性最好的非易失性存儲介質(zhì)。數(shù)據(jù)中心中90%以上的數(shù)據(jù)存儲在硬盤當(dāng)中。硬盤具有僅次于磁帶的容量價格比,短期內(nèi)也不會出現(xiàn)其他商業(yè)上成熟的技術(shù)方案替代硬盤的容量優(yōu)勢。SSDHDD的容量需求都將繼續(xù)增長。存取性能不論容量大小,SSDHDD的第一優(yōu)勢點,還是性能。性能主要分為順序/隨機、讀取/寫入兩個基本維度,共四種組合。順序讀寫SSDHDDSSD采用PCIe5.0x4HDDSA25SSDCIe.0x4HDDSA接口帶寬的一半左右,差距進一步拉開到四五十倍。HDD的結(jié)構(gòu)決定了其最高順序讀寫性能主要取決于(主軸)轉(zhuǎn)速、盤片直徑和記錄密度,如果前兩者不變,而后者又只是面密度的一個分量,那么HDD的順序讀寫性能多年來沒有大的突破,就是必然結(jié)果。4TBCMR300B/s(iB/s略低)。最大持續(xù)傳輸率只是HDD順序讀寫性能的一個切面,實際的順序讀寫性能還受磁道所處位置的影響,越靠內(nèi)圈的磁道,順序讀寫性能越低。最內(nèi)圈的持續(xù)順序傳輸率通Oacle22TBSSHDD151MiB/s257MiB/s,即內(nèi)圈略超外圈的六成。以全盤順序讀/來算平均值,20TB+HDD200MB/s除了沒有機械運動“拖后腿”,SSDNNDplaneSSDHDDQD14KBHDD(Exos20)90MB/sSSD(別是順序?qū)懭搿SD因為寫入操作更為復(fù)雜,順序?qū)懭氲乃俣葧陆等种换蚋郤SDGB/s的水平。隨機讀取+HDD(laeny),700RPM11~14ms(毫秒)的范圍內(nèi),對應(yīng)的讀IOPS90上下,把隊列深度加16(QD16)IOPS2(QD2)00IOPS。不過,再怎么努力,在小數(shù)據(jù)塊(4KB)隨機讀取的場景下,HDD的輸出驟降至1MB/sSSD的差距也迅速拉開。4:7200RPMCMRHDD隨機訪問性能的典型指標(biāo)4KB數(shù)據(jù)塊讀寫IOPSMB/s隨機讀@QD=1870.348隨機讀@QD161680.672隨機讀@QD322120.848隨機寫@QD16,WCD5502.200隨機寫@QD32,WCD5652.260讀寫各半@QD42200.880SSD,(小數(shù)據(jù)塊)隨機讀取的IOPS300B/s超過順序?qū)懭氲乃健SD(μs)級,也遙遙領(lǐng)先于硬盤。硬盤的機械特性決定了其不擅長隨機訪問,時延比基于半導(dǎo)體技術(shù)的其他介質(zhì)△Conventional(傳統(tǒng))和Shingled(疊瓦)分別對應(yīng)了CMR和SMR,兩種磁道可以在同一個碟片上出現(xiàn),劃在不同的分區(qū)(Zone)(來源:微軟@OCP)IOPS標(biāo),附帶一些保留容量、存儲密度方面的損失。隨著多磁臂技術(shù)的出現(xiàn),可以使用新IPSIPS臂硬盤可以獲得更好的容量價格比。對于不需要經(jīng)常改寫數(shù)據(jù)的應(yīng)用,如歸檔、視頻SMR技術(shù)的硬盤以進一步提升存儲密度、降低存儲成本。隨機寫入SSDSSDNAND一些,IOSIOPS級SSDIOPS4KB數(shù)據(jù)塊,輸出水平約為大數(shù)據(jù)塊順序?qū)懭氲陌俜种弧鹘y(tǒng)的DRAM作為寫緩存,有掉電時丟失數(shù)據(jù)的風(fēng)險,硬盤制造商們想出了用非易失性存儲如NVM或盤片上的特定區(qū)域來緩存寫入數(shù)據(jù)的辦法,在禁用寫緩存(WriteCacheDisabled,WCD)的模式下,可以獲得與啟用寫緩存(WriteCacheEnabled,WCE)相當(dāng)?shù)男阅堋MRSMR硬盤的原理決定了其不能像CMRSMR種磁道結(jié)構(gòu)只適合順序?qū)懭耄蛘哒f是按順序在后面追加(append)數(shù)據(jù)。SMR分區(qū)(zone)的隨機寫必須轉(zhuǎn)變?yōu)轫樞驅(qū)懀詈媚茉谇懊嫣岬降木彺鎸又羞M行必要的重新排序、達到一定數(shù)據(jù)量后成批順序?qū)懭搿H绻B續(xù)的磁道中間需要改寫SMR耐久性5.0接口的SSD已經(jīng)超過10GB/s,在絕大多數(shù)場合不會成為瓶頸;主流(單磁頭)硬盤200~300MB/s對流媒體應(yīng)用、監(jiān)控等用途也已經(jīng)足夠。HDD的順序?qū)懭胄阅芘c順序讀取相當(dāng),SSD的順序?qū)懭牒碗S機讀取也比順序讀取下降不多。HDD的命門,性能會急劇的下降,SMRSSDSSD5WPD(DrierieserDy,每日全盤寫入次數(shù))來衡量,TCSSD1~3DWPD,QLCSSD0.5SSDDWPD指標(biāo)共同決定了每天持續(xù)不停(隨機)寫入時能達到的輸出水平,以下表為例:表5:SSD的峰值與持續(xù)寫入性能容量7.68TB6.4TB61.44TBNAND類型TLCTLCQLCDWPD130.58隨機寫IOPS30萬@4KB50萬@4KB4@16KB理論帶寬1200MB/s2000MB/s640MB/s每天可寫入量TBTB35.64TB可用持續(xù)帶寬MB/s222.2MB/s412.4MB/sSSD具有極高吞吐量,但其耐久度還不足以支撐持續(xù)地寫操作。即使在順序?qū)懬?~5SSDSSD其更適合潮汐式、峰谷分明的業(yè)務(wù)模式。以高性能GPUSSD數(shù)據(jù)再異步至網(wǎng)絡(luò)存儲集群是典型負荷。但隨著檢查點間隔從小時計逐步縮減為以分SSDGPU(通常為再異步至存儲集群的技術(shù)方案,可以承受更為頻繁的檢查點操作。SSD盤上百TBSSD的耐久度還會更高。因此,在一些對總?cè)萘恳?guī)模要求并(PB)SSD一些大容量企業(yè)級HDD也會提供如每年550TB(550TB/year)的最大額定工作負載(MaximumRatedWorkload)指標(biāo)。年化工作負載率以TB/小時為TB低硬盤(驅(qū)動器)MTBF(MeanTimeBetween平均故障間隔時間)影響產(chǎn)品可靠性。分層存儲“破壞性SSDHDD,可以顯著優(yōu)化存儲系統(tǒng)的性能和存儲介質(zhì)的壽命。特別是SSD和SMRSSD不僅隨機寫入性能相對SSD用度也更低,需要控制寫入放大以保護SSD令人不安的耐久度。尤其對使用與LBAIUSSD而言,寫入放大問題會更為突出。規(guī)避容量層存儲弱點的最根本方式就是將隨機寫入盡量轉(zhuǎn)化為順序?qū)懭搿T陧樞驅(qū)懭隨SDSSDSMR機寫性能損失、SSDGPU與不同存儲的“距離”實際業(yè)務(wù)中,寫入時存在不同大小的數(shù)據(jù)塊,譬如近似于順序?qū)懭氲拇髷?shù)據(jù)塊,或是SSDHDDSSD,緩存層可以將這些數(shù)據(jù)塊進行聚合與整理,最終以整條帶的方式寫入容量層SSD、磁盤陣列)。條帶的大小可以根據(jù)容量層的特MBMB不等。這個緩存層使用的存儲介質(zhì)需要具備優(yōu)異的寫入性能和耐久性,容量和成本最好優(yōu)于DRAM,SCM(StorageClassMemory,存儲級內(nèi)存)易失性。SCM介于內(nèi)存和外部存儲之間,屬于非易失性存儲器,但提供接近DRAM的速度,尤其是極低的延遲。SCM具有IOPS、極高耐用度的特點。部分英特爾至強可擴展處理器可以把傲騰當(dāng)做內(nèi)存使用。理論上具有非易失性、高性能、高耐用度的技術(shù)路線還有磁變隨機存儲器(MRAM)、阻變隨機存儲器(ReRAM)、碳納米管隨機存儲器(NRAM),但仍處于商業(yè)化早期階段,容量較小、成本較高。隨著傲騰停產(chǎn),相應(yīng)的需求由、SSDSSD延也較低。SCM通常用于需要極高速度和低延遲的應(yīng)用場景,如大型數(shù)據(jù)庫,彌補主機內(nèi)存容量SCM高IOPSSSD搭配使用,可以彌補后者隨機寫入性能的弱點,并減少后者的寫入放大損耗,提高耐久度。對于高性能存儲陣列,SCM還可以作為對象存儲陣列的元數(shù)據(jù)緩存,降低訪問時延。雖然元數(shù)據(jù)緩存可以完全放置在內(nèi)存當(dāng)中,但會受到內(nèi)存容量的限制。使用SCM有利于在保持性能的前提下擴展容量。CXLSCMDRAM+TLCNANDCXL成本低于傳統(tǒng)SCM。AI59AI59技術(shù)演進與生態(tài)技術(shù)演進與生態(tài)容量趨勢存儲容量的增長終歸要依靠存儲密度的提升,而存儲密度的提升手段可以分為持續(xù)性的和一次性的。可持續(xù)的手段能夠以倍數(shù)級迭代多輪,譬如硬盤(HDD)HAMR和固態(tài)盤(SSD)3DNAND;一次性的手段提升幅度通常不會超過一倍,而且往往SMRSSD。硬盤SMR對存儲密度的提升幅度低于QLC,而造成的性能損失和應(yīng)用場景限制則遠過之。因此,從本源上提高磁記錄密度才是硬盤容量繼續(xù)增長的正途。HAMR提升單碟容量為滿足數(shù)據(jù)迅速增長的需求,以及保持單位容量成本能夠逐步降低,提升硬盤的單盤容量是根本性的解決方案。經(jīng)過數(shù)十年的發(fā)展,目前3.5英寸硬盤的外形尺寸已經(jīng)固定,盤片數(shù)量以及盤片面積在這個有限的立方體空間內(nèi)已經(jīng)難以取得進展,不斷提升磁盤的面密度幾乎是唯一的解決方案。△HAMR(Heat-AssistedMagneticRecording,熱輔助磁記錄)工作原理說明面密度(記錄密度和磁道密度)的增加導(dǎo)致放置每比特信息所能占用的磁性顆粒面積變小,顆粒之間的相互磁影響也會越來越大。為了保持信息穩(wěn)定,避免相鄰信息顆粒的干擾,高密度磁盤需要使用高矯頑力的顆粒。但這在改寫信息時,需要磁頭施加更強大的磁場變化,這可能意味著更長的操作時間和更多的干擾,導(dǎo)致性能或可靠性的下降。業(yè)界的解決方案是寫入前對目標(biāo)區(qū)域施加額外能量,讓磁性顆粒的極性變得更容易被改變。目前已經(jīng)正式商用的技術(shù)是希捷的HAMR(Heat-AssistedMagnetic通過等離子寫入器精確地加熱目標(biāo)區(qū)域的超晶格鉑合金400℃2nsHAMR技術(shù)的關(guān)鍵組件HAMR技術(shù)中,納秒級的激光加熱時間對硬盤的性能沒有負面影響,因為在目前的磁HAMR(倍增以上著單盤容量提升,存儲的單位容量成本將會很快被攤薄至傳統(tǒng)技術(shù)之下。HAMR的另一個顧慮是增加了硬盤內(nèi)的熱源(激光器本身熱量及盤片局部受熱),熱量的增加會帶來可靠性方面的隱患。隨著大型互聯(lián)網(wǎng)企業(yè)完成驗證和導(dǎo)入HAMR硬盤,證明可靠性方面的疑慮已經(jīng)被消除。從產(chǎn)品參數(shù)看,ExosM30TBExosX22目前已經(jīng)批量上市的魔彩盒33TB,還有很大的增長空間。HAMR4TB量的目標(biāo),235TB,246TB4TB盤已經(jīng)可以量產(chǎn)。根據(jù)建模分析,HAMR10TB6:ExosM30TBExosX22ExosM30TBExosX22格式化容量30TB22TB單碟容量3TB2.2TB最大傳輸率275MB/s285MB/s隨機讀/寫IOPS(4KBQD16)170/350IOPS168/550IOPS平均時延msms最大運行功耗(隨機讀4KBQD16)W4W運行溫度10~60℃10~60℃運行震動30Gs40GsSSDHDD相比,SSDNANDDie存儲密度提升提升NAND(3D堆疊向擴展、邏輯擴展。3D3DNAND160~1922003DNAND也已經(jīng)陸續(xù)導(dǎo)入市場;30050022030代到來之前有機會達到1000片面積減小可以相應(yīng)降低光刻成本。考慮到光刻仍是半導(dǎo)體制造成本的大頭,繼續(xù)垂直堆疊仍具有經(jīng)濟效益。橫向擴展是減小單元間的間距,也就是提高每一層的密度。由于相鄰存儲單元之間具2DNAND的3DNAND層數(shù)已經(jīng)達到數(shù)百層,適度SSD主控提升了糾錯能力也是壓縮單元間距的底氣所在。邏輯擴展是提升單個閃存單元所存儲的位數(shù)。通過區(qū)分更多的電荷狀態(tài)(電壓),每1位(SLC)2(MLC)TLC、QLC成為主流。FMSPLC(5)的樣品,而在實驗室低溫環(huán)境下,7QLCSSD仍處于市場培育階段,用戶的接受程度、部署的技術(shù)條件都有待繼續(xù)提升,PLCNAND在短期內(nèi)不會受到太多的關(guān)注。另外,考慮到基于電荷狀態(tài)細分表征信息的代價(可靠性、耐用度)越來越大,而容量收益越來越小,邏輯擴展需要尋找新的技術(shù)路線。NAND閃存封裝容量提升SSDNANDSSDPCB2.5PCB16以使用疊放兩塊柔性折疊或連接器2.515mm者開發(fā)新的外形規(guī)格以容納更大面積的CBEDSFFE1L增加每顆NAND(die晶粒封裝)、QDP(4)、ODP(8)HDP(16)。ODPHDP512Gb512GB1TB1010晶粒容量的成長卻慢得多。例如,64NAND256Gb512Gb100512Gb1Tb200512Gb1TbNANDSSD格與容量的關(guān)系近乎于線性增加,而且容量點之間的落差通常是倍數(shù)關(guān)系,用戶擴容SSD512GB1TB/SSD3.84512Gb,ODPSSD1668TBSSDSSD常為16PCB16SSD會面臨單位容量性能下降的問題。但大語言模型的爆火打破了這個平衡。對于GPUSSDGPU.68TBTCSSD作為緩存盤;對于配套的全閃存儲節(jié)點,為了提升機架利用率和減少單位能耗,需要更高容量的SSD30T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論