從智能網卡的出現,到DPU在云基礎設施領域的興起,其所涉及到的芯片、產品以及云服務等多個領域的提供商,對于智能網卡的解讀也越加豐富。與此同時,伴隨DPU的不斷迭代升級,進一步引發了整個產業對于IT基礎架構體系未來演進方向的熱烈探討。
在由高效能服務器和存儲技術國家重點實驗室與開放計算中國社區聯合主辦的"第六期開放計算技術沙龍:網絡技術研究與實踐"線上研討會中,來自阿里云神龍計算平臺、中國電子云、NVIDIA、矩向科技以及網絡、芯片領域的合作伙伴、專家,圍繞DPU的價值、作用以及未來發展方向,進行了充分解讀。
DPU 使數據中心性能提升 開放全新"視野"
DPU作為數據處理單元,它在網絡計算領域中正扮演著關鍵角色。借助DPU,傳統通信方式中所存在的網絡擁塞及主機CPU資源被大量消耗的問題有望得到有效解決。同時,它還能夠有效應對多租戶應用性能隔離的難題。
NVIDIA網絡高級總監宋慶春介紹到,DPU作為NVIDIA "云原生超級計算架構"中的重要一員,使計算平臺、網絡、存儲均成為計算單元,實現了在一個數據中心里,數據在哪里,計算就在哪里。如此也就實現了在一個統一的架構下面,無論是像AI訓練這樣的大規模應用,還是非常小的一些基于VM實現的應用,租戶都可以使其性能達到最大化。
宋慶春通過一組數據,展現了DPU給用戶所帶來的收益。iAlltoall是HPC、AI應用過程中會經常采用的一種通信模型,通過用DPU和CPU實現計算通信Overlap,讓iAlltoall性能得到44%提升。iAllgather是AI大規模模型訓練過程中會使用的一個通信模型,通過DPU和CPU計算通信的Overlap,能夠讓iAllgather性能提升36%。
面對DPU在超大規模云數據中心領域被逐漸廣泛接受的現狀,矩向科技創始人黃朝波指出當下的DPU演進還在持續當中。黃朝波認為,伴隨著Chiplet等技術的成熟,在邊緣計算和企業云等規模更大、計算負載輕量的一些場景中,CPU、GPU和DPU會融合成一顆芯片,市場上將會出現超異構處理器——HPU產品。
智能網卡演進 促動數據中心體系架構創新
面對業界對于SmartNIC、DPU、IPU抑或是新進"登場"的CIPU的廣泛關注,中國電子云研發副總裁劉年超認為,智能網卡雖然在命名方式方面缺乏統一的標準,但它的出現反映出一種趨勢,以CPU為中心的體系架構,正在發生新的變化。
新一代 DPU/IPU 設備的共同特點是它們采用易于編程的多核CPU、先進的網絡接口以及一組強大的網絡、存儲和安全加速器,并可以進行編程以執行多個軟件定義的硬件加速功能。劉年超認為,這不僅在技術層面實現了對Host CPU計算性能的卸載,同時對于云服務商而言,DPU的應用能夠讓云服務商有更多可進行銷售的產品或服務,提升了主機CPU的對外售賣能力。
在大規模部署過程中,劉年超認為,DPU作為一個"小系統",對它的運維和管理也顯得尤為重要。中國電子云通過獨立的BMC,面對不同用戶的實際應用場景,均可實現對DPU網卡的直接管理。
在過去5年的DPU研發迭代過程中,阿里云愈加意識到自身的數據中心架構正在發生新的變化。阿里云神龍計算平臺負責人蔣林泉認為阿里云的新架構有可能不再以CPU為核心,它更需要借助以阿里云自主研發的CIPU(Cloud Infrastructure Processing Unit)為中心,連接起SSD、RDMA,CPU、GPU和其他異構計算設備。這一點已經在阿里云自研的云操作系統——飛天的一步步演進過程中得到了驗證。阿里云已經認識到,當初的智能網卡已經不再是插在服務器上的一張網卡。在未來,它的物理形態很有可能還會發生變化。
面對智能網卡以及DPU的技術演進特點,為了確保用戶在智能網卡的應用實踐過程中,最大限度降低試錯成本、契合應用場景的實際需求,浪潮網絡在智能網卡解決方案的制定過程中,從軟、硬件層面充分考慮了不同規模、不同IT技術能力儲備的企業用戶需求。
針對IT能力儲備有限的傳統企業,浪潮網絡提供完備的軟硬件一體化智能網卡方案,為上層應用提供標準的計算、存儲、網絡卸載和加速服務,簡化與主機軟件的集成,幫助客戶快速獲取智能網卡的技術紅利。從而降低最終用戶在網絡應用開發和運維管理等方面的技術門檻。對于大型互聯網、電信以及金融行業,浪潮網絡不僅提供了相應的技術支持服務,在產品線上也提供了業界領先,具備集成2個25GE或1個100GE以太網口,與主機端實現PCIe 4.0高速連接的N20X智能網卡。
浪潮網絡智能網卡具備三大性能優勢:
采用高性能FPGA+SOC架構,能夠實現高性能的加速與卸載功能,滿足客戶對低延遲、高性能、大吞吐的需要,可以確保網絡延遲小于三微秒,整體性能是傳統網絡的六倍。
全可編程的特性,根據業務新需求,進行軟件重新編排和硬件再利用,形成有效算力,資源得到最大化利用。支持最新的P4編程,大大降低了協議定制的復雜度,將原本ASIC需要接近半年的時間縮短到幾天或者幾周,滿足靈活的、快速的、彈性的業務升級需要。
在實際應用環境中,通過在主機側部署浪潮智能網卡,全面卸載網絡、安全、存儲業務,釋放了30%以上的CPU算力,通過智能網卡的批量部署,可以統一基礎設施架構,更好的支持業務的彈性擴展。
與此同時,智能網卡的應用需求正在從超算平臺、超大規模數據中心,逐漸向邊緣數據中心滲透。這種趨勢更加凸顯出云邊協同對于構建開放網絡的重要性。浪潮網絡所打造的云邊協同智慧聯接架構,在云中心側以領先的開放網絡平臺為核心,打造高性能、低成本、彈性可擴展的解決方案,使新業務上線時間縮短20%,提升排障效率30%,實現秒級網絡業務調整,滿足云業務彈性、敏捷擴展的需求。在邊緣側,浪潮網絡通過新一代邊緣網絡平臺,融合傳統有線、無線網絡,以及Zigbee、LoRa等終端網絡,打造低延遲、實時可靠的邊緣網絡,實現網絡的智能可視化調度,將網絡傳輸力提升27%、算力利用率提升30%。目前,浪潮網絡的云邊協同智慧聯接架構已在政府、教育、醫療、制造等諸多行業得到廣泛部署和應用。
對于智能網卡、DPU技術及產品的長期研發、推廣,體現出浪潮網絡以產品創新為引擎的技術實力。浪潮網絡通過云邊協同的智慧網絡,實現云、邊、端的智慧聯接、資源調度,為數據賦能,推動行業的數字化、智能化發展。