跳至內容

什麼是高密度貨架?

高密度機架

高密度機架是專為資料中心設計的機櫃,與傳統伺服器機架相比,它能夠在單一機架空間內支援更強大的運算能力。這些機架經過精心設計,可容納高效能伺服器、圖形處理器最佳化 ( GPU ) 系統、儲存陣列和網路設備,這些設備需要更高的供電能力、更先進的散熱系統和更優化的空間利用率。

隨著現代工作負載的複雜性不斷增加,例如人工智慧( AI )、機器學習(ML)、高效能運算( HPC隨著雲端運算邊緣運算等技術的普及,對更高運算密度(以平方英尺為單位)的需求急劇增長。高密度機架透過使企業能夠將更多處理能力整合到更少的機架中來滿足這一需求,從而在最大限度地提高效能輸出的同時,減少資料中心的整體佔地面積。

與傳統伺服器機架不同,高密度機架經過精心設計,可支援更高的機架功率密度和散熱量。這種特性使其在對效能、效率和可擴展性要求極高的環境中至關重要。

如今,什麼才算高密度?

機架功率密度通常以每機架千瓦數來衡量。傳統的企業級資料中心通常運行在每機架 5 到 10 千瓦的範圍內,這種功率等級可以透過標準的空氣冷卻和常規配電方式來滿足,而無需進行重大的架構調整。

如今,高密度機架通常被定義為每個機架功率超過 20 千瓦的部署。在人工智慧和 GPU 加速環境中,40 千瓦的密度越來越普遍,隨著先進技術的出現,這一趨勢將更加明顯。 AI 訓練用機組每機架功率超過 80 千瓦,以及一些專用機組AI 甚至有些系統功率超過 100 千瓦。在這種功率等級下,基礎設施需求會發生顯著變化,影響電氣設計、資料中心冷卻策略和機架結構。

隨著運算需求的增長,高密度的定義也不斷演變。曾經被認為是高密度的配置,如今已成為GPU密集型系統和現代HPC叢集的標配。隨著處理器核心數量的增加和加速器應用的普及,機架功率密度持續攀升,重新定義了資料中心基礎設施的基本要求。

為什麼貨架密度正在增加

機架密度增加的主要驅動因素是GPU加速。現代AI基礎設施通常處理的工作負載依賴平行處理架構,這種架構將強大的運算能力集中在單一系統中。隨著每台伺服器整合的GPU數量增加,以及每個機架部署的伺服器數量增加,整體功耗和發熱量也會隨之上升。

AI 模型訓練進一步加速了這項轉變。大型語言模型和進階分析平台需要叢集運算節點以高利用率持續運作。高效能係統部署用於AI 和HPC 工作負載通常經過精心設計,以實現持續運行,從而最大限度地提高計算輸出並降低整體擁有成本。 

與許多可能根據業務週期或一天中不同時段需求而波動的企業 IT 工作負載不同, AI 培訓和研究環境旨在持續高利用率運作。在優化的機架級架構中部署這些系統可以提高效能並降低互連延遲,但也會增加每個機架的功耗(千瓦)。

高效能運算工作負載的發展模式類似。科學模擬和工程應用需要高度整合、高吞吐量的環境。同時,工作負載整合和空間優化的壓力促使企業在更少的機架中部署更強大的基礎設施,從而在不成比例擴大資料中心規模的情況下實現可擴展的成長。

高密度機架中的電源輸送注意事項

隨著機架功率密度的增加,電力基礎設施也必須隨之擴展。高密度機架通常需要更高安培數的電路和三相電源配置來支援持續的負載條件。例如,電力規劃必須同時考慮HPC研發環境中常見的尖峰需求和持續使用模式。

電源分配單元在管理高負載方面發揮核心作用。智慧電源分配單元 (PDU) 可實現機架或插座層級的監控,從而支援容量規劃和跨電路的負載平衡。均衡的配電可降低局部過載的風險,並提高運作穩定性。

隨著電力需求的增加,冗餘規劃變得日益重要。 N+1 或 2N 冗餘模型有助於確保在組件發生故障時業務的連續性。此外,還必須評估上游基礎設施,包括不間斷電源和備用發電系統,以支援資料中心更高的整體需求。

冷卻挑戰與解決方案

隨著每機架千瓦數的增加,資料中心冷卻變得顯著複雜。傳統的空氣冷卻方式可以應對中等密度的負載,但在高功率水平下,僅靠氣流可能無法有效散熱,導致局部過熱。

包括冷熱通道隔離在內的各種隔離策略,能夠改善氣流控制並減少送風和排氣的混合。後門熱交換器可在機架層級實現局部散熱,無需進行重大架構改造即可提高冷卻效率。

在高密度環境下,直接液冷的重要性日益凸顯。液冷方案透過在處理器和加速器源頭處將熱量散發出去,降低熱阻,從而實現更有效率的散熱。這些解決方案能夠支援GPU密集型系統的持續運行,同時提升資料中心的整體散熱效能。當機架密度接近或超過50千瓦時,液冷將從可選的增強功能轉變為核心基礎設施的必要組成部分。

高密度貨架的結構和設計要求

高密度機架必須能夠承受因伺服器、 GPU加速器以及增強型電源和散熱硬體滿載而增加的設備重量。必須評估地板的承重能力,以確保架空地板系統或板式基礎能夠支撐集中品質。

隨著網路頻寬的增加和電力分配規模的擴大,線纜管理也變得更加複雜。結構化的佈線以及電源線和數據線的分離可以提高維護便利性並減少氣流阻礙。

即使在液冷散熱環境中,氣流管理仍然是至關重要的設計因素。合理的設備間距、盲板和內部氣流通道有助於防止氣流循環,並維持所有機架單元一致的散熱性能。

高密度機架AI 和HPC 環境

在AI 和HPC 在部署過程中,高密度機架是現代大規模計算系統的結構和電氣骨幹。 GPU密集型系統需要協調的電源供應、高頻寬互連和先進的散熱管理,才能在持續負載下高效運作。

機架級架構將運算、網路和冷卻資源整合到一個統一的設計框架中。這種方法提高了部署的一致性,並支援在叢集環境中實現可預測的效能。

熱效率和能源效率與高密度資料中心基礎設施設計直接相關。透過協調機架功率密度、冷卻策略和電氣架構,企業可以在控制營運成本的同時,維持高運算輸出。在此背景下,高密度機架不僅是機櫃,更是支撐下一代資料中心的基礎架構。 AI 以及高效能運算環境。

常見問題解答

  1. 在託管資料中心部署高密度機架有哪些優點?
    高密度機架能夠透過提高每個機架的運算容量,幫助企業最大限度地利用租賃空間。這可以提升空間利用率和性能,前提是託管機房能夠提供所需的電力和冷卻能力。
  2. 高密度貨架可能有哪些缺點?
    高密度機架需要大量的電力和先進的冷卻基礎設施。如果沒有妥善的規劃,企業可能會面臨更高的前期成本、更複雜的設計以及對現有電力和散熱系統的潛在壓力。
  3. 高密度機架如何支援超大規模和超融合環境?
    高密度機架使超大規模資料中心能夠有效率地標準化和擴展基礎設施。在超融合環境中,它們將運算、儲存和網路資源整合到緊湊、可擴展的機架級部署中。