跳至主要內容

企業級AI 資料中心的必要性

AI ,且將持續成為全球企業的主導技術。這項能改變商業運作模式並協助各行各業做出更佳決策的技術,已引發對可執行AI 訓練或推論 伺服器的空前需求。 雖然訓練階段所需的AI 可能相當可觀,但高階系統(配備多顆 CPU 和 GPU)未必總是最佳選擇。透過在企業資料中心內實施AI ,組織不僅能降低成本,同時也能提升生產力並增強靈活性。

雲端優勢與劣勢

許多組織正將工作負載遷移至公有雲基礎架構,其本質上是由眾多客戶共享的資源。儘管公有雲具備極大的擴展性,但極少數訓練模型需要數千顆GPU同時運作。 採用公共共享雲端基礎架構的優勢在於可調用大量高端(即昂貴)伺服器資源。然而反過來說,當需要大量高端伺服器時,系統未必能即時提供。此外,大型訓練模型的資料進出成本可能相當可觀,尤其當訓練資料需從其他公共共享雲端供應商導入時。

本地部署的AI訓練AI

AI 本地資料AI 考慮並實施AI 存在若干原因。

  • 成本– 雖然採購配備GPU的伺服器初期成本較高,但長期而言,其費用可能低於使用公共共享雲端服務。雲端服務費用隨時間累積可能相對高昂,尤其在資料傳輸方面。此外,購置高端GPU伺服器的成本可能居高不下,無論所有CPU或GPU是否能達到100%的可用時間利用率——而這種情況通常難以實現。
  • 效能表現——提供CPU 方案,涵蓋數量配置與效能等級。基於對AI 理解,CPU數量(1、2、4或8顆)與效能規格至關重要。最新世代CPU核心數介於16至128顆之間,基礎時脈頻率可達4 GHz。 GPU陣容涵蓋舊世代至最新型號,核心數量可達數千。數據中心可依據專案CPU 需求,實施最佳化及多重配置方案。
  • 重新訓練– 雖然有各種方法可以估算訓練特定規模模型所需的成本,以及可用 GPU 的數量,但許多模型仍需持續使用新參數進行重新訓練。為了推論 必須使用更新且更近期資料對模型進行重新訓練,而根據所使用的新資料量,此過程可能耗時與原始訓練時間相當。 在本地資料中心中,系統可重複使用;反之,在公有雲環境中,隨著模型的每次迭代與重新訓練,費用可能會不斷累積。
  • 軟體– 在建立高效能且AI 解決方案時,需考量多種軟體選項。公共共享雲端供應商可能無法提供所有可用元件,這意味著在公共雲端基礎架構中取得的每個執行個體,都可能需要額外的設定與測試。
  • 資料位置與主權——對於許多產業與地區而言,用於AI 資料存放位置可能存在限制與要求。本地資料中心能協助組織遵守這些法規,而使用遠端公有雲資料中心則可能遭到禁止。
  • 安全性——對許多組織而言,資料與結果的安全性至關重要。在本地資料中心中,安全團隊能針對系統或儲存裝置的存取實施更嚴格的安全政策。當需要存取內部流程與資料AI 建立及運用AI AI 本地資料中心部署AI 顯然是最佳選擇。
  • 合規性——當資料受多種法規約束時,相較於尋找符合這些法規的公有雲服務,建立符合規範的本地資料中心可能是更理想的選擇。
三款 Supermicro AI GPU 系統:8U 系統、4U 系統、5U 系統

摘要

要建置一個高效且有效的、AI內部部署資料中心,必須了解最適合企業的工作負載之效能需求。若設計得當,內部部署資料中心不僅能縮短AI 產出時間,還能根據模型類型提供低延遲推論 與決策。 企業可透過低成本的獨特配置,將內部部署資料中心打造為符合自身需求的解決方案。深入了解工作負載、資料量、AI 的微調,以及內部各軟體層面的專業知識,將有助於為組織確定最佳方案。