Tech-Guide

如何透過GIGAPOD一站式服務,加速AI時代的全面革新

by GIGABYTE
簡介
技嘉科技推出的 GIGAPOD 是一種強化現代人工智慧應用,如大型語言模型訓練和實時推論的先進方案。圍繞著強大的GPU伺服器構建而成,搭配 NVIDIA HGX™ H100/200、AMD Instinct™ MI300 系列或 Intel® Gaudi® 3 AI加速器,利用NVIDIA® NVLink®、AMD Infinity Fabric™ Link 或 RoCEv2 進行GPU互連,再透過高速網路凝聚叢集中的節點為一個運算單元,從而提高AI生態中關鍵的高速平行運算能力。

技嘉可以一手承攬 GIGAPOD 的設計、生產到部署。易於擴展的靈活架構設計得以因應爆炸性成長的AI訓練模型,為傳統資料中心轉型成以大規模營運的AI雲服務營運商提供一站式解決方案。仰賴技嘉硬體專業知識加上與上游GPU製造商的堅固合作關係,不但確保AI超級電腦的部署順利進行,並提供使用者能信賴的AI生產力。
現代運算架構中的各種挑戰
早期GPU應用與人工智慧開發的運算需求相對不高且互連技術尚未成熟,GPU運算基本都以簡單的單伺服器架構運行;隨著訓練模型規模的擴大,多GPU和多節點架構重要性開始被重視,尤其在如今動輒數千億參數的大型語言模型訓練,藉著多機櫃互連運算能大幅縮短訓練時間,甚至可以說是大型運算中心的必備條件。

先進企業在打造理想的人工智慧應用解決方案時,在初期硬體佈建時不外乎有以下三點需求:
  • 強大的運算能力:GPU節點可同時運算,使其有效率地執行AI訓練與模擬中的矩陣運算等平行處理任務。
  • 系統化的硬體部署:資料中心部署需要對電源、樓層佈局、機櫃配置和散熱管理等關鍵方面進行精心規劃,提供完整的系統硬體整合。
  • 不間斷的高速網路架構:高速網路拓樸提供高頻寬、低延遲的網路互連,加快資料傳輸速度並增強系統效能。

雖然在討論建立資料中心時常常著重在GPU的數量以及算力,但是如果沒有完善的電力供應和冷卻系統,空有GPU在機房也無法發揮其優勢。此外高速連網架構亦扮演關鍵角色,確保每個運算節點都能即時溝通,實踐GPU與GPU之間的快速通訊以應付指數成長的數據資料。

為克服現今資料中心面臨的挑戰,接下來我們會詳細介紹GIGAPOD為何能成為現今建置AI資料中心的最佳方案。
最佳化的硬體配置
一組GIGAPOD的基礎配置由32台GPU伺服器組成,每台伺服器搭載8顆GPU,提供共256顆互連的GPU。此外,需配備一座專門用於容納網路交換器及儲存伺服器的機櫃。
圖1 GIGABYTE G593 GPU伺服器

以下是技嘉主力G593系列伺服器的配置:
  • 處理器:雙第四/五代 Intel® Xeon® 可擴充處理器
    或 AMD EPYC™ 9005/9004 系列處理器
  • 加速器:NVIDIA HGX™ H100/H200 8-GPU
    或符合OAM規範的 AMD Instinct™ MI300 Series 及 Intel® Gaudi® 8-GPU 加速器
  • 記憶體:支援最高32條DDR5 5600 MT/s記憶體,系統記憶體合計來到2TB
  • 硬 碟:8顆2.5吋Gen5 NVMe/SATA/SAS-4熱插拔硬碟
  • 擴充槽:4組全高半長與8組半高半長PCIe Gen5 x16插槽
  • 電 源:4+2組3000瓦80 PLUS鈦金冗餘電源

在G593系列中,每台伺服器支援八顆GPU和兩顆CPU。在處理平行運算工作負載時,主要依賴 GPU 運算,而複雜的線性程序工作可以交由處理器負責,這樣的工作分配非常適合人工智慧訓練應用。而中央處理器的選擇,用戶可以從AMD與Intel中自由選擇偏好的處理器平台。
技嘉G593系列獨有的系統設計,具有以下優點:
  • 業界領先最高密度設計:G593系列是目前市場上密度最高的氣冷8-GPU伺服器。相較於業界普遍的7U/8U設計,技嘉在僅僅5U機箱內實現了所有相同效能卻更為緊湊的空間。
  • 前置GPU托盤:前置可拆卸式GPU托盤,方便對GPU模組進行維護。
  • 先進冷卻技術:支援CPU/GPU/NVSwitch的直接液體冷卻(DLC)以降低能耗並獲得更低的PUE。
  • 1對1平衡設計:每組PCIe交換器連接相同數量的GPU、儲存和PCIe插槽,適合使用GPU RDMA和NVMe進行資料直接存取。
  • 6組CRPS冗餘電源:配備電源冗餘設計,可選配3600瓦電源達到N+N冗餘。

要建造效能最佳化的人工智慧運算工具,避免頻寬瓶頸至關重要。在高效能AI系統或叢集中,理想的場景是完全在GPU高頻寬記憶體中運行,尤其要避免透過處理器的PCIe線路傳輸資料。為了解決頻寬效能瓶頸,技嘉於系統板端上增設了四組Broadcom PCIe switch,目的是透過線路設計,讓GPU不須透過處理器而進行遠端直接記憶體存取(RDMA)資料;每顆GPU藉由這四顆PCIe switch連接到NVIDIA ConnectX-7,享有400 Gb/s的 InfiniBand或乙太網路頻寬。

此外,PCIe switch還有利於訊號擴展,允許在GPU模組之外增加PCIe插槽的數量。技嘉的設計包括四個額外的PCIe x16插槽,通常與NVIDIA BlueField®-3 DPU一起使用,連接網路與高效能儲存叢集。
高擴展性的網路架構
人工智慧運算通常涉及跨多個分散式節點處理大量資料,為了實現巨型電腦的願景,網路是關鍵,它可以實現高資料傳輸速度、確保同步並維持整個系統的資料一致性。

在執行大型語言模型訓練時,策略上會優先考慮系統節點內的8顆GPU,這些GPU透過GPU之間的高速互連技術能以高達900GB/s的速度進行資料交換,從而實現最高效的運算速度。與叢集中其他GPU節點的資料交換則可以透過多組交換器集結的網路架構,常見的配置為使用NVIDIA Quantum-2 QM9700交換器以400Gb/s的NDR InfiniBand連接叢集內的GPU運算節點。


GIGAPOD的網路拓樸設計稱為無阻塞胖樹結構,大致概念為:

無阻塞(non-blocking):任兩點都可以在不受其他流量干擾或壅塞的情況下進行通訊。在無阻塞網路中,可用頻寬應足以確保所有資料的同時傳輸,而不會出現任何延遲或瓶頸。

胖樹(Fat-Tree):GIGAPOD的胖樹結構利用了主幹枝葉的網路概念。枝葉交換器連接伺服器,主幹交換器構成網路核心。每個枝葉交換器都連結到主幹交換器,提供多條路徑以防止壅塞並確保高性能。「胖」設計用來達到保持頻寬目的,避免效能瓶頸,使GIGAPOD成為可擴展、高流量環境的理想選擇。

掌握了這兩個概念後,我們就可以深入研究GIGAPOD的網路架構了。學術界引入的原始胖樹結構遵循特定的連接規則,而我們基於這樣的結構設計了GIGAPOD網路架構,每台伺服器裡的每顆GPU與一張NIC卡對接,一共有8 對 GPU-NIC組合,以下簡稱為pair。這些pair需要分配至各台枝葉交換器。例如,一組機櫃中的第一台GPU伺服器的pair #1連接到枝葉交換器#1;最後一台GPU伺服器的pair #1連接到同一台枝葉交換器#1;在每台伺服器中的8個pair都連接到不同的枝葉交換器。

接下來將枝葉與主幹連接起來,形成一棵胖樹。原理與伺服器接到枝葉交換器的概念類似。我們要將每台枝葉交換器的接口平均分配給每個主幹交換器,形成更上一層的網路。

圖2 GIGAPOD胖樹結構
總體來說,一套GIGAPOD包含12台交換器,其中4個用作主幹交換器,8個用作枝葉交換器。同時透過256張NIC卡來連接和管理每顆GPU。以下是規格的參考範例:
  • 4台 NVIDIA Quantum-2 QM9700主幹交換器(頂層)搭配 NVIDIA MMA4Z00-NS 2x400Gb/s Twin-port OSFP收發器
  • 8台 NVIDIA Quantum-2 QM9700枝葉交換器(中層)搭配 NVIDIA MMA4Z00-NS 2x400Gb/s Twin-port OSFP收發器
  • 每台伺服器8張NVIDIA ConnectX®-7 NIC(底層 with NVIDIA MMA4Z00-NS400 400Gb/s Single-port OSFP收發器
  • NVIDIA MPO-12/APC Passive Fiber Cables
完整機櫃層級AI解決方案
介紹完了系統配置和網路拓樸,機櫃整合成為實現GIGAPOD佈建的最後一步。除了機櫃數量與節點配置很重要,還必須考量佈線最佳化設計,以提供最大化經濟效益。以下是機櫃整合需要考慮的關鍵因素:
  • 最佳化線路長度,防止打結並減少線長與非必要的成本
  • 最大化可用空間,增加設備密度
  • 改善散熱增強效能
  • 簡化部署以達最大效率
  • 供後續服務

圖3 GIGAPOD液冷配置4 GPU Compute Racks
圖4 GIGAPOD氣冷配置
高效率的空間利用一直是規劃資料中心時的首要任務,隨著處理器和GPU技術的不斷進步,以及全球對綠色運算的重視,散熱管理也成為基礎設施部署的關鍵因素。對希望在現有資料中心空間內最大化運算能力的客戶來說,具備直接液體冷卻設計的GIGAPOD是完美的解決方案。技嘉採用4U機身的8-GPU系統作為運算節點,處理器和GPU皆採用先進的液冷技術,透過被動式液冷循環板有效散溢晶片熱量,可以確保擁有峰質效能和能源效率;由於移除散熱器與部分風扇,加上優化的散熱設計,釋放出一半的機箱空間,使的GIGAPOD機櫃將所需數量再減半,僅需4組機櫃便可達到原8組機櫃的配置規模,從而實現最大化的機房空間運用。

完善的部署流程
一套GIGAPOD需要2萬多個原件方能完成,因此需要高度系統化的流程以確保每個階段都能順利進行。從諮詢到實際部署,技嘉採用了五個步驟來確保GIGAPOD建置從起點到終點順利達交。
GIGAPOD 部署流程
整個流程包含了無數次的細節討論,以GIGAPOD的電源供應為例。氣冷方案的GIGAPOD,每個機櫃需要50千瓦的電力,其中包括四台12千瓦的伺服器、交換器及其他零組件。因此,技嘉選擇IEC60309 100A 380V的電源插頭,並為每個機櫃配置兩組PDU的冗餘設計。在液體冷卻解決方案中,由於機櫃內的密度加倍,功率提升到每個機櫃100千瓦,這種情況則會採用2+2的PDU配置。GIGAPOD還支援C19/C20或Anderson兩種類型的電源插座,讓客戶得以選擇最適合的方案。除此之外,資料中心的電力需求,像是交流電源輸入類型,也可能因地理位置等因素而異;技嘉團隊保有高度彈性,會依據地域環境條件評估並給予最合適的解決方案。
結合AI創新的軟硬體整合
為了支援人工智慧驅動型企業的複雜需求,GIGAPOD搭配了資訊中心管理平台 (GIGAPOD Management Platform, GPM)來提供統一的設備維護介面,包含了叢集內的伺服器、網路、儲存、電力與散熱等裝置,使企業能夠施行大規模監控,維護並管理叢集內所有資源。GPM還能透過串接支援NVIDIA AI Enterprise的Base Command Manager(BCM)及Canonical的Juju平台,亦可自動化部署NVIDIA BCM SLURM與Canonical Charmed Kubernetes等工作排程軟體,讓使用者彈性管理不同架構的GPU伺服器。透過與NVIDIA和Canonical的合作,我們將先進的硬體設備與強大的軟體工具結合,提供端到端、可擴展的人工智慧基礎設施管理平台。

技嘉轉投資公司邁爾凌科技Myelintek也推出MLOps平台MLSteam。透過MLSteam,AI研發團隊能更專注於其知識領域,無須耗費額外的時間成本於建置研發環境上,並能有效管理訓練資料以及模型,包含資料標註、模型開發、模型服務、模型重新訓練等,進而實踐AI生命週期管理。同時也支援Nvidia AI Enterprise的人工智慧模型及NIM,以滿足各種AI研發工作需求。MLSteam更允許高度客製化的人工智慧模型開發,包括檢索增強生成(RAG)等高級功能,搭配GPM與技嘉支援多款運算加速卡的高效能GPU伺服器,一次滿足AI研發團隊所需的軟硬體架構需求。

結論
技嘉的 GIGAPOD人工智慧資料中心解決方案不僅在可靠性、可用性和可維護性方面表現出色,而且還提供無與倫比的靈活性。無論是GPU的選擇、機櫃尺寸、冷卻方案還是其他客製規劃,技嘉都能適應各種IT基礎設施、硬體需求和資料中心規模。從L6到L12的服務,涵蓋從電源和冷卻基礎設施設計到硬體部署的集合以及到全面系統優化和後續支援的每個階段,確保我們的客戶獲得完全符合其營運要求和績效目標的端到端解決方案。
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報