2024基于+DPU+的高性能存儲網絡技術報告-24正式版_第1頁
2024基于+DPU+的高性能存儲網絡技術報告-24正式版_第2頁
2024基于+DPU+的高性能存儲網絡技術報告-24正式版_第3頁
2024基于+DPU+的高性能存儲網絡技術報告-24正式版_第4頁
2024基于+DPU+的高性能存儲網絡技術報告-24正式版_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

[編號ODCC-2024-03001]基于DPU的高性能存儲網絡技術報告開放數據中心標準推進委員會2024.09發布基于DPU的高性能存儲網絡技術報告版權聲明制單位共同享有著作權。轉載、摘編或利用其它方式使用ODCC成果中的文字或者觀點的,應注明來源:“開放數據中心委員會ODCC”。和翻譯出版等侵權行為,ODCC合與支持。I基于DPU的高性能存儲網絡技術報告編寫組項目經理:許豪豪中國移動通信集團公司工作組長:何澤坤騰訊科技深圳有限公司貢獻專家:程宇中國移動通信集團公司肖愛元中國移動通信集團公司房梽斅中國移動通信集團公司儲琴琴中國移動通信集團公司董少杰中國移動通信集團公司覃小娜中國移動通信集團公司裴照華中國移動通信集團公司張耀華中國移動通信集團公司高堅中國移動通信集團公司許豪豪中國移動通信集團公司劉子軼中國移動通信集團公司曹輝中國移動通信集團公司王少鵬中國信息通信研究院孫聰中國信息通信研究院II基于DPU的高性能存儲網絡技術報告目錄版權聲明.................................................I編寫組..................................................一、存算分離數據中心架構................................1(一)NVMe-oF網絡存儲協議............................2(二)存算分離數據中心面臨的存儲問題.................3二、基于DPU的高性能存儲架構及關鍵技術..................4(一)RDMA網絡.......................................6RoCE技術.......................................7RDMA技術.......................................8(二)NVMeoverFabric..............................(三)DPU核心技術...................................11(四)DPU實現NVMeoF虛擬存儲卸載....................12三、基于DPU的高性能存儲架構應用場景...................(一)裸金屬場景....................................(二)虛擬化場景....................................四、挑戰與展望.........................................III基于DPU的高性能存儲網絡技術報告一、存算分離數據中心架構題[1]1靈活性,降低存儲成本和維護難度。圖1數據中心存算分離架構1基于DPU的高性能存儲網絡技術報告存算分離式數據中心常用的網絡協議為TCP(TransmissionControlProtocol和RDMA(RemoteDirectMemoryAccess程直接內存訪問)協議。TCP協議作為計算節點和存儲節點之間的通性和易用性;RDMA則連接存儲服務器,包括塊服務器和塊存儲服到計算機內存中,可旁路CPU控制。為支持更高性能的高速存儲設NVMe-oF(NVMeoverFabrics存儲介質接口)被廣泛采用,旨在解決傳統網絡存儲協議在高速存儲設備上的性能瓶頸。(一)NVMe-oF網絡存儲協議NVMe是面向基于PCIe的SSDNVMe-oF協議基于NVMe協議設計的高性能、低延遲的網NVMe-oF架構包括包括NVMeNVMe傳輸層以及網絡層。2基于DPU的高性能存儲網絡技術報告圖2NVMe-oF架構[2]NVMe網絡存儲定義NVMe設備的結構以及它與主機的交互方式,包括NVMe的層次結構,即命名空間、控制器、隊列和數據結構等。傳輸層綁定標準將NVMe協議轉換為特定的網絡傳輸格式。NVMe傳輸層定義NVMe語義基于不同網絡傳輸層的交互機制與數TCPRDMA和FC傳輸保證。(二)存算分離數據中心面臨的存儲問題3釋放SSD介質的能力,要求更高性能的存儲網絡支持。相比于傳統的iSCSI(InternetSmallComputerSystemInterface計算機系統接口協議,NVMe-oF協議作為存儲陣列與前端主機連接的通道,避免將存儲協議封裝成TCP/IP數據包的多次的序列化和反3基于DPU的高性能存儲網絡技術報告的時延。圖3存算分離數據中心的新需求基于NVMe-oF存儲網絡協議,存算分離數據中心仍然面臨挑戰“存儲稅10-20%的主機服務器CPU核心需要用于實現云存儲需要的虛擬化等功能[3]從主機側解耦,從而釋放主機到用戶服務,并提升存儲訪問性能。智算中心已經普遍使用NVMe-oF載可以有效幫助智算中心進一步向前發展。二、基于的高性能存儲架構及關鍵技術隨著網絡帶寬及存儲性能的不斷提升,以CPU為中心處理這部分網絡和存儲協議等占用了服務器主機約30%的資源,引入高昂的4基于DPU的高性能存儲網絡技術報告“數據中心稅[4]。另一方面,隨著CPU性能提升的放緩,通用CPU在處理網絡和存儲等數據中心基礎設施服務的能效比降低。DPU(DataProcessingUnit)是一種以數據為中心構造的專用處理絡存儲遇到的性能瓶頸。基于DPU的存算分離數據中心架構如圖4所示,將網絡存儲協議從主機側CPUCPU與壓縮解壓縮等,能夠進一步加快對存儲數據的處理。DPU通過硬搬運次數、降低訪問延遲,從而提高虛擬化環境下存儲訪問的性能。圖4基于DPU的存算分離數據中心架構5基于DPU的高性能存儲網絡技術報告(一)網絡RDMARemoteDirectMemoryAccess,CPU資源。RDMA具有以下三個方面的技術特征:1RDMA的參與,消除了系統調用開銷。2RDMA網卡和應用內存緩沖區之間直接傳輸。3CPU卸載:RDMA網卡將傳輸協議以及底層網絡協議固化到硬件。實現RDMA的協議主要包括以下三種:(InfiniBandInfiniBandTradeAssociation原生RDMA技術,其規定了一整套完整的鏈路層到傳輸層規范。IBIB技術的RDMA網絡需要購買和IB網卡配套的系列交換設備。iWARP(InternetWideAreaRDMAProtocal)基于TCP/IP協議的RDMA技術,由IETF標準定義。iWARP支持在標準以太網基礎設施上使用RDMA技術,但服務器需要使用支持iWARP的網卡。6基于DPU的高性能存儲網絡技術報告RoCE(RDMAoverConvergedEthernet)基于以太網的RDMAIBTA提出。RoCE將IB而支持在標準以太網基礎設施上使用RDMARoCE包括v1和兩個版本,v1版本網絡層仍然使用了IB使用了UDP+IPRoCE需要交換機支持無損以太網傳輸,因此企業需要采購支持RDMA流控的交換機配合RoCE網卡使用。圖5RDMA協議綜合考慮性能和價格,目前業界比較常用的網絡方案是InfiniBand方案和RoCEv2方案。1.RoCE技術RoCE技術支持在以太網上承載IB協議,實現RDMAoverEthernetRoCE與InfiniBand技術有相同的軟件應用層及傳輸控制層,僅網絡層及以太網鏈路層存在差異,RoCE架構如圖5所示。7基于DPU的高性能存儲網絡技術報告圖6RoCE架構RoCE協議分為兩個版本:RoCEv1RDMA它的報文結構是在原有的IB架構的報文上增加二層以太網的報文頭,通過Ethertype0x8915標識RoCE報文。RoCEv2UDP/IP協議承載RDMAIB架構的報文上增加頭、IP頭和二層目的端口號4791標識RoCE報文。RoCE支持基于源端口號hash,采用ECMP實現負載分擔,提高網絡利用率。2.RDMA技術RDMA的服務類型,包含連接服務及數據報服務,按照可靠性QPQueuePairContext中包含有遠端節點8基于DPU的高性能存儲網絡技術報告的信的在內的對端信息。數據報服務與面向連接恰好相反,不會跟一個唯一的遠端節點綁定,而是通過WQE(WorkQueueElement)來指定目的節點。靠同學是客戶端與服務端通信報文不需要進行應答的通信方式。按照連接和可靠兩個標準,RDMA可以支持四種不同的傳輸模式:RCReliableConnected):可靠連接,一個只和另一個QP相連,RDMA網卡保證一個發出的數據包都能夠被另外一個正確接收。RC連接很類似于TCP連接。(UnreliableConnected只和另一個相連,連接是不可靠的,所以數據包可能有丟失。傳輸層出錯的消息不會進行重傳,錯誤處理必須由高層的協議來進行。RD(ReliableDatagram):可靠數據報,一個和多個相連,消息通過akc/nak機制可靠的發送到多個QP。UDUnreliableDatagram):不可靠數據報,一個可以和其它任意的UP/QP進行數據傳輸和單包數據的接收。不保證按序性和9基于DPU的高性能存儲網絡技術報告(二)overFabricNVMe-oF是一種基于NVMe處理能力和數據處理效率。NVMe-oF目前主要支持三種網絡協議,分別是TCP、RDMA與FC(FibreChannel)網絡。NVMeoverTCP基于現有的IPTCP協議在網絡基礎設施不變的情況下實現端到端NVMe據包的分段和重組,引入額外傳輸延遲和開銷,因此其性能最差。NVMeoverRDMA基于RDMA網絡協議,包括RoCE、IB(InfiniBandiWARPInternetWideAreaRDMAProtocol基于以太網的RoCE目前已成為RDMA的主流網絡承載方式。該方案允許遠程主機直接從存儲器中讀寫數據,無需CPU的干預,從而能計算和存儲系統。NVMeoverFC協議標準為FC-NVMe,可復用傳統的FC網絡,FC網絡帶寬限制以及其較高的技術壁壘,難以推廣應用。在本報告的實現方式中,采用最為廣泛應用的NVMeoverRDMA主要是RoCE為實現標準。10基于DPU的高性能存儲網絡技術報告(三)核心技術DPU(DataProcessUnits,數據處理器)是以數據處理為核心的強I/O處理器,采用軟件定義技術路線支撐基礎設施層資源虛擬化,存儲、安全服務質量管理等基礎設施層服務[5]。網絡是DPU最基礎的功能之一,通過卸載TCP/IP協議棧和虛擬交換機等方式,加速傳統網絡處理。加速存儲也是DPU一個重要的功能,通過卸載網絡存儲協議和執行計算密集型算法,提高存儲訪問性能。DPU是一種把數據中心的計算、存儲、網絡等基礎設施云化并接入DPU,質量彈性云計算算力集群。DPU的主要組成部分為[6]:1IO硬件設備虛擬化2VPCoverlay網絡硬件加速3EBS分布式存儲接入硬件加速4)本地存儲虛擬化硬件加速5)彈性RDMA6)安全硬件加速7)彈性裸金屬支持8)池化能力基于DPU的高性能存儲網絡技術報告(四)實現NVMeoF虛擬存儲卸載考慮公有云生態兼容,I/O設備模型符合標準。因此實現基于virtio-blk、NVMe等業界標準I/O設備模型,成為了必須。NVMe/virtio-blk設備虛擬化通過調度外部存儲資源,基于本地PCIeSSD盤Host或hypervisorDPU的NVMe或virtio-blk設備虛署本地存儲資源。任何需要產生IO請求或者訪問數據的業務邏輯,都會通過NVMe/virtio-blk設備虛擬化框架重定向到基于網絡的對遠端存儲。在NVMeoverRDMA協議的場景,NVMe/virtio-blk設備虛擬化卸載有三種實現方式:Non-offload模式圖7Non-offload模式12基于DPU的高性能存儲網絡技術報告所有數據都經過EmbeddedCPU側處理,數據首先從Host內存DMA到EmbeddedCPUEmbeddedCPU側內存DMA到NIC發送出去。基于SPDK框架實現,每個設備對應一個SPDKbdeviSCSINVMe-oFRBD實現自己的存儲協議Zero-Copy模式圖8Zero-copy模式Zero-copy模式允許應用直接從主機內存傳輸數據到遠端存儲,無需進入EmbeddedCPU緩存。DataBuffer可以直接從主機內存傳輸到遠端存儲,不再需要兩次DMAHost->EmbeddedCPU,EmbeddedCPU->NICZero-copy模式仍是基于SPDKbdev13基于DPU的高性能存儲網絡技術報告實現,基于RDMAHost、ECPU雙側內存管理和DMA功能,故遠端存儲必須支持RDMANon-offloadRDMA(或者RoCEFull-offload模式圖9Full-offload模式Full-offload模式進一步降低了對ECPU的占用,完全offload數full-offload平面完全交給硬件,軟件不能干預。因此,用戶無法控制后端設備,后端設備是自動發現的,并且無需命名空間配置管理。三、基于的高性能存儲架構應用場景14基于DPU的高性能存儲網絡技術報告虛擬化成多個虛擬機,然后將這些虛擬機提供給一到多個用戶使用。DPU卸載的高性能存儲網絡在裸金屬和虛擬化兩種應用場景下,具有不同的性能和功能需求。(一)裸金屬場景應用場景,如大型數據庫、高性能計算等。(NVMe驅動)的處理,然后通過網絡存儲協議棧(NVMe-oF驅動)的處理到網絡協議棧,的下降。遠程資源本地化是裸金屬場景優化的重點,即利用DPU卸載的時,存儲資源對主機只表現為NVMe設備,裸金屬服務器可以直接通過NVMe驅動訪問遠端的存儲,而不需要經過頻繁的上下文切換15基于DPU的高性能存儲網絡技術報告與數據拷貝(如圖所示),從而利用DPU卸載的高性能存儲網絡達到遠端存儲與本地存儲相同的性能。(a)裸金屬場景網絡存儲協議(b)DPU卸載網絡存儲協議圖10裸金屬場景下DPU卸載網絡存儲協議(二)虛擬化場景虛擬化場景中云服務提供商通過虛擬化技術將物理機變為多個展性和可靠性。通常被用于需要靈活性和彈性的應用場景,如Web應用程序、大數據分析、軟件開發和測試等。等。這些內存拷貝操作會占用大量CPU時間,影響網絡訪問性能。16基于DPU的高性能存儲網絡技術報告耗大量CPU時間和資源。在虛擬化環境中,多個虛擬機共享一個物外,在虛擬機訪問網絡存儲時,如果使用額外的存儲服務如加解密、壓縮解壓縮等,不僅需要增加CPU時間計算,而且會增加額外的數據拷貝次數和延遲,性能進一步降低。遠程資源虛擬化是虛擬機場景優化的重點,即利用DPU卸載的高性能存儲網絡,在主機側模擬遠端存儲設備成為本地NVMe存儲NVMe設備

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論