企業級AI 資料中心的必要性
AI 並將持續成為全球企業的主導技術。這項能改變商業實踐並在各行各業做出更佳決策的技術,催生了前所未有的需求——企業亟需能執行AI 訓練或推論AI 伺服器。 訓練階段所需的AI 成本可能相當可觀,但高端系統(配備多組CPU與GPU)未必總是最佳選擇。透過在企業資料中心內實施AI ,組織不僅能降低成本,同時還能提升生產力與靈活性。
雲端優勢與劣勢
許多組織正將工作負載遷移至公有雲基礎架構,其本質上是由眾多客戶共享的資源。儘管公有雲具備極大的擴展性,但極少數訓練模型需要數千顆GPU同時運作。 採用公共共享雲端基礎架構的優勢在於可調用大量高端(即昂貴)伺服器資源。然而反過來說,當需要大量高端伺服器時,系統未必能即時提供。此外,大型訓練模型的資料進出成本可能相當可觀,尤其當訓練資料需從其他公共共享雲端供應商導入時。
本地部署的AI訓練AI
AI 本地資料AI 考慮並實施AI 存在若干原因。
- 成本– 雖然採購配備GPU的伺服器初期成本較高,但長期而言,其費用可能低於使用公共共享雲端服務。雲端服務費用隨時間累積可能相對高昂,尤其在資料傳輸方面。此外,購置高端GPU伺服器的成本可能居高不下,無論所有CPU或GPU是否能達到100%的可用時間利用率——而這種情況通常難以實現。
- 效能表現——提供CPU 方案,涵蓋數量配置與效能等級。基於對AI 理解,CPU數量(1、2、4或8顆)與效能規格至關重要。最新世代CPU核心數介於16至128顆之間,基礎時脈頻率可達4 GHz。 GPU陣容涵蓋舊世代至最新型號,核心數量可達數千。數據中心可依據專案CPU 需求,實施最佳化及多重配置方案。
- 重新訓練——儘管存在多種方法估算特定規模模型在可用GPU數量下的訓練成本,但許多模型需要持續使用新參數進行重新訓練。為確保推論準確性,模型必須運用更新且更近期的數據重新訓練,此過程所需時間可能與原始訓練相當,具體取決於新增數據的規模。 在本地資料中心,系統可重複使用;而在公有雲環境中,每次模型迭代與重新訓練都將累積額外支出。
- 軟體– 在建立高效能且AI 解決方案時,需考量多種軟體選項。公共共享雲端供應商可能無法提供所有可用元件,這意味著在公共雲端基礎架構中取得的每個執行個體,都可能需要額外的設定與測試。
- 資料位置與主權——對於許多產業與地區而言,用於AI 資料存放位置可能存在限制與要求。本地資料中心能協助組織遵守這些法規,而使用遠端公有雲資料中心則可能遭到禁止。
- 安全性——對許多組織而言,資料與結果的安全性至關重要。在本地資料中心中,安全團隊能針對系統或儲存裝置的存取實施更嚴格的安全政策。當需要存取內部流程與資料AI 建立及運用AI AI 本地資料中心部署AI 顯然是最佳選擇。
- 合規性——當資料受多種法規約束時,相較於尋找符合這些法規的公有雲服務,建立符合規範的本地資料中心可能是更理想的選擇。

摘要
要建置高效能且AI的有效內部部署資料中心,必須理解最適合企業的工作負載效能需求。 當本地資料中心經過妥善設計時,不僅能縮短AI 成果產出時間,更能提供低延遲的推論結果,並根據模型類型調整決策機制。此類資料中心可透過低成本的獨特配置,精準回應企業需求。深入理解工作負載特性、數據規模、AI 的微調需求,以及企業內部對各軟體層級的專業掌握,將有助於為組織抉擇最佳方案。
