何謂高密度機架?
高密度機櫃是專為資料中心設計的機櫃,其設計旨在於單一機櫃佔地面積內,提供遠高於傳統伺服器機櫃的運算能力。此類機櫃專為容納高性能伺服器、針對圖形處理單元(GPU)進行優化的系統、儲存陣列以及網路設備而設計,這些設備皆需更高的供電能力、先進的散熱系統以及最佳化的空間利用率。
隨著現代工作負載的複雜性持續增加,例如人工智慧(AI)、機器學習(ML)、高效能運算(HPC)、雲端服務及 邊緣運算,對每平方英尺更高運算密度的需求也大幅增加。高密度機架透過讓企業將更多處理能力整合至更少的機架中,既能滿足此需求,又能減少資料中心的整體佔地面積,同時將效能輸出最大化。
與傳統伺服器機架不同,高密度機架的設計旨在支援遠高於傳統機架的功率密度與熱輸出。這項能力使其成為在性能、效率與可擴展性至關重要的環境中不可或缺的設備。
如今什麼才算高密度?
機櫃功率密度通常以每機櫃千瓦為單位進行測量。傳統企業資料中心每機櫃的功率通常落在 5 至 10 千瓦之間,標準的空氣冷卻系統和傳統配電系統無需進行重大架構調整即可支援此功率水準。
如今,高密度機櫃通常被定義為單機櫃功耗超過 20 千瓦的部署。在人工智慧與 GPU 加速環境中,40 千瓦的密度已日益普遍;先進AI 叢集單機櫃功耗更超過 80 千瓦,而某些專AI 打造的AI 甚至突破 100 千瓦。在這種級別下,基礎設施的需求發生了重大轉變,進而影響電力設計、資料中心冷卻策略以及機櫃結構。
「高密度」的定義隨著運算需求的演變而不斷發展。過去被視為高密度的水準,如今已成為GPU 高密度系統和現代HPC 常態。隨著處理器核心數的增加以及加速器的廣泛採用,機架功率密度持續攀升,重新定義了對資料中心基礎設施的基本期望。
為何機架密度不斷增加
推動機架密度不斷提升的主要驅動力是 GPU 加速技術。現代AI 通常處理的工作負載,仰賴能將大量運算能力集中於單一系統內的平行處理架構。隨著每台伺服器整合的 GPU 數量增加,以及每組機架部署的伺服器數量增加,整體功耗與熱輸出也隨之上升。
AI 訓練進一步加速了這項轉變。大型語言模型與先進分析平台需要以高利用率持續運作的叢集運算節點。為AI HPC 所部署的高效能系統,通常是為了實現持續運作而設計,以最大化運算產出並降低總持有成本。
與許多可能因商業週期或每日不同時段的需求而波動的企業 IT 工作負載不同AI 與研究環境是為了維持持續高利用率而設計的。將這些系統部署於優化的機架級架構中,不僅能提升效能並降低互連延遲,但也同時增加了每機架的耗電量。
高效能運算的工作負載也呈現類似的模式。科學模擬與工程應用需要高度整合且具高吞吐量的環境。與此同時,工作負載整合與空間優化的壓力促使企業在更少的機架中部署更強大的基礎設施,從而實現可擴展的成長,同時無需成比例地擴大資料中心的佔地面積。
高密度機架中的供電考量
隨著機櫃功率密度增加,電力基礎設施也必須相應擴充。高密度機櫃通常需要更高電流的電路以及三相供電配置,以支撐持續的負載狀況。電力規劃必須同時考量峰值需求,以及例如在HPC 環境中常見的持續使用模式。
配電單元在管理高負載方面扮演著核心角色。智慧型配電單元(PDU)可實現機架或插座層級的監控,支援跨迴路的容量規劃與負載平衡。均衡的配電能降低局部過載的風險,並提升運作穩定性。
隨著供電規模的擴大,冗餘規劃的重要性日益提升。N+1 或 2N 冗餘模型有助於確保在元件故障時營運仍能持續運作。此外,還必須評估上游基礎設施(包括不斷電系統與備用發電系統),以支援資料中心整體日益增長的用電需求。
冷卻的挑戰與解決方案
隨著每機架的耗電量增加,資料中心的散熱作業也變得更加複雜。傳統的空氣冷卻方法雖能應對中等密度,但在高功率水準下,僅靠氣流可能無法有效散熱,以致無法防止熱點的產生。
封閉式策略(包括熱通道與冷通道封閉系統)能改善氣流控制,並減少送風與排氣之間的混合。後門式熱交換器可在機架層級進行局部散熱,無需大幅重新設計機房結構即可提升冷卻效率。
隨著密度不斷提升,直接液冷技術的重要性日益凸顯。透過在熱源處將熱量從處理器和加速器導出,液冷方案能降低熱阻並實現更高效的散熱。這些解決方案不僅能支援高密度 GPU 系統的持續運作,同時也能提升資料中心的整體散熱效能。當機架密度接近或超過 50 千瓦時,液冷技術便從可選的增強方案,轉變為核心基礎設施的考量重點。
高密度機架的結構與設計要求
高密度機架必須能承受因伺服器、GPU 加速器及強化型供電與散熱硬體全數安裝而增加的設備重量。必須評估地板承重能力,以確保架高地板系統或地坪基礎能夠支撐集中分布的重量。
隨著網路頻寬增加及供電規模擴大,線纜管理也變得更加複雜。透過結構化的佈線規劃,以及將供電線纜與數據線纜分開佈置,不僅能提升維護便利性,還能減少氣流阻塞。
即使在液冷輔助環境中,氣流管理仍是至關重要的設計因素。適當的設備間距、封板以及內部氣流路徑,有助於防止氣流循環,並確保所有機架單元都能維持穩定的散熱效能。
AI HPC 中的高密度機架
在AI HPC ,高密度機架是現代運算規模的結構與電力骨幹。GPU 高密度系統需要協調的供電、高頻寬互連以及先進的熱管理,才能在持續負載下高效運作。
機架級架構將運算、網路和散熱資源整合於統一的設計框架中。此方法可提升部署的一致性,並在叢集環境中提供可預測的效能。
熱效率與能源效率與高密度資料中心基礎設施的設計息息相關。透過協調機櫃功率密度、冷卻策略及電力架構,企業既能維持高運算效能,又能有效管控營運成本。在此背景下,高密度機櫃不僅是單純的機櫃,更是支撐次世代AI 高效能運算環境的基礎設施。
常見問題
- 在託管資料中心部署高密度機櫃有哪些優勢?
高密度機櫃能透過提升每組機櫃的運算容量,協助企業最大化利用租賃空間。只要託管設施能提供所需的供電與冷卻能力,此舉即可提升空間利用率與系統效能。 - 高密度機架有哪些潛在缺點?
高密度機架需要大量的電力供應及先進的散熱基礎設施。若未經妥善規劃,企業可能會面臨更高的前期成本、更複雜的設計,以及對現有電力與散熱系統造成的潛在負擔。 - 高密度機架如何支援超大規模與超融合環境?
高密度機架使超大規模資料中心能夠有效率地標準化並擴展基礎架構。在超融合環境中,它們將運算、儲存和網路資源整合至緊湊且可擴展的機架級部署中。