每年的GTC大會都是NVIDIA秀肌肉的時刻,這次也不例外。除了全新的CPU產品以及NVIDIA Hopper架構,NVIDIA的產品布局更加全面,涵蓋了基礎設施的方方面面。在軟硬件加持下,NVIDIA的“以工業規模創造智能,并將其融入真實和虛擬世界。”愿景正在加速到來。
又是一年GTC大會,那么,NVIDIA在網絡產品技術領域給我們帶來了哪些驚喜呢?
NVIDIA Spectrum-4:不只是一個網絡平臺
我們知道,NVIDIA提出了3U一體的數據中心加速計算架構,即GPU解決并行計算的工作負載,DPU承擔加速數據移動的工作負載,CPU承擔通用計算業務應用的工作負載,但在3U一體的數據中心架構中,網絡平臺在其中起到了互連互通的關鍵作用。因此,NVIDIA創新性的發布了NVIDIA Spectrum-4新一代以太網平臺,為大規模數據中心基礎設施提供所需的超高網絡性能和強大安全性。
NVIDIA網絡專家 崔巖
據NVIDIA網絡專家崔巖介紹,Spectrum-4以太網平臺不光是一款交換機產品,它是由三大部分構成:Spectrum-4交換機,加速整個云網絡架構;ConnectX-7智能網卡,加速服務器節點中網絡性能適配器;BlueField-3 DPU,可編程數據中心基礎架構;這三大組合部分共同搭建了端到端的400G超大規模網絡平臺——Spectrum-4。
那么,它有哪些過人之處呢?據了解,作為全球首個400Gbps端到端以太網網絡平臺,NVIDIA Spectrum-4的交換吞吐量比前幾代產品高出4倍,達到51.2Tbps,能夠大幅加速大規模云原生應用。
在NVIDIA Spectrum-4交換機性能與創新方面,NVIDIA Spectrum-4 ASIC和SN5000交換機系列基于4N工藝,包含1000多億個晶體管以及經過簡化的收發器設計,具有領先的能效和總擁有成本。憑借支持128個400GbE端口的51.2Tbps聚合ASIC帶寬,以及自適應路由選擇和增強擁塞控制機制,Spectrum-4優化了基于融合以太網的RDMA網絡架構,并顯著提升了數據中心的應用速度。
憑借12.8Tbp加密帶寬和這些安全功能,Spectrum-4將成為市場上優秀的、高性能的、安全的端到端以太網網絡平臺。由Spectrum交換機、BlueField DPU和ConnectX智能網卡組成的Spectrum平臺能夠提高AI應用、數字孿生和云基礎架構的性能和可擴展性,為現代數據中心帶來極高的效率和可用性。
如今,數據中心呈現指數級增長,應用層面、服務器層面對網絡帶寬的要求越來越高,同時還要提供更好的安全性和強大的功能。所以,為了滿足這些需求,要提供一個可以在大規模應用場景下又能提供高性能、低延時,還可以提供高級的虛擬化和模擬仿真支持的以太網平臺,是一個必不可少的解決方案。
崔巖表示,Spectrum-4不只是一個網絡平臺,我們會將其和NVIDIA其他的平臺軟件和應用做整合,這樣可以達到最好的網絡應用效果。同時,我們還有Cumulus Linux網絡操作系統、SONiC網絡操作系統、DOCA的開發平臺開發套件。通過DOCA可以更好的在 BlueField DPU上面做軟件開發,在大規模云原生應用場景下加速整個數據中心,基于基礎設施的虛擬化和軟件定義、硬件加速的網絡、存儲、安全來提供更多的應用和服務。
NVIDIA OVX、H100 GPU、H100 CNX、DGX H100一個都不能少
為了更好地推動NVIDIA Omniverse的落地,NVIDIA發布用于驅動大規模數字孿生的NVIDIA OVX計算系統。
NVIDIA網絡市場總監 孟慶
據NVIDIA網絡市場總監孟慶介紹,OVX服務器由8個NVIDIA A40 GPU、3個NVIDIA ConnectX-6 Dx 200Gbps網卡、1TB系統內存和16TB NVMe存儲組成。OVX計算系統可以從由8臺OVX服務器組成的單集群擴展到通過NVIDIA Spectrum-3交換架構連接的一個或多個OVX SuperPOD(由32臺OVX服務器組成),來加速大規模數字孿生模擬。
談到OVX就不得不說說H100 GPU,從技術進展來看,H100采用臺積電4N工藝、臺積電CoWoS 2.5D封裝,有800億個晶體管,搭載了HBM3顯存,可實現近5TB/s的外部互聯帶寬。與此同時,H100還是首款支持PCIe 5.0的GPU,也是首款采用HBM3標準的GPU,單個H100可支持40Tb/s的IO帶寬,實現3TB/s的顯存帶寬。
為了加速大型AI模型,NVLink結合全新外接NVLink Switch,可將NVLink擴展為服務器間的互連網絡,最多連接多達256個H100 GPU,相較于上一代采用英偉達NVLink只能在DGX機器內連接8個GPU,能力擴大了32倍。
據了解,NVIDIA為了將Hopper GPU的強大算力引入主流服務器,還推出了全新的融合加速器H100 CNX。它將網絡與GPU直接相連,耦合H100 GPU與英偉達ConnectX-7 400Gb/s InfiniBand和以太網智能網卡,使網絡數據通過DMA以50GB/s的速度直接傳輸到H100,能夠避免帶寬瓶頸,為I/O密集型應用提供更強勁的性能。
DGX H100系統是新一代英偉達DGX POD和DGX SuperPOD超級計算機的構建模塊。借助NVLink Switch系統,擁有32個節點、256個GPU的DGX Pod,其HBM3顯存達20.5TB,顯存帶寬高達768TB/s。通過采用Quantum-2 InfiniBand連接及NVLink Switch系統,新DGX SuperPOD架構在GPU之間移動數據的帶寬高達70TB/s,比上一代高11倍。
寫在最后,這些年來,NVIDIA GTC大會已經成為一場面向AI、HPC、科學計算、數字孿生及自動駕駛等諸多前沿領域的技術盛宴。在這場盛宴中,我們不僅看到技術突破如何改變各行各業的生產效率和工作方式,也看到英偉達圍繞計算世界的最新布局。
隨著新一代大規模云技術的出現,數據中心架構有待轉型。未來,NVIDIA將向五個方向發力:Million-X百萬倍計算速度飛躍,大幅加快AI速度的Transformers,成為AI工廠的數據中心,對機器人系統的需求呈指數級增長以及下一個AI時代的數字孿生。NVIDIA還將不斷提升自身,并幫助合作伙伴、開發者和客戶共同發力,讓數字孿生技術加速落地,讓云宇宙觸手可及。