跳至主要内容

本地部署人工智能数据中心的必要性

人工智能已成为并将继续成为全球企业的主导技术。这项能够改变商业实践、助力各行业做出更优决策的技术,催生了前所未有的服务器需求——这些服务器需具备执行人工智能训练或推理阶段的能力。 训练阶段所需的人工智能基础设施成本可能相当高昂,但高端系统(配备多核CPU和GPU)未必总是最佳选择。通过在企业数据中心内部署人工智能训练,组织既能降低成本,又能同时提升生产效率和灵活性。

云计算的优势与劣势

许多组织正将工作负载迁移至公有云基础设施,这种基础设施本质上由众多客户共享。尽管公有云具备极强的可扩展性,但极少有训练模型需要数千台GPU并行工作。 使用公共共享云基础设施的优势在于可调用大量高端(即昂贵)服务器资源。但反之,当需要时却未必能立即调用大量高端服务器。此外,大型训练模型的数据输入输出成本可能相当高昂,尤其当训练数据需从其他公共共享云供应商处导入时。

本地部署用于AI训练

在本地数据中心内考虑并实施人工智能存在若干原因。

  • 成本——虽然采购配备GPU的服务器初期投入较高,但长期来看其成本可能低于使用公共共享云。云服务费用随时间推移可能相对较高,尤其是数据传输方面。此外,高端GPU服务器的采购成本较高,无论CPU或GPU是否始终处于满负荷运行状态(这种情况不太可能发生)。
  • 性能——提供多种CPU和GPU组合方案,涵盖数量配置与性能规格。基于对企业级AI需求的理解,CPU数量(1、2、4或8核)与性能至关重要。最新一代CPU核心数范围为16至128核,基础时钟频率接近4 GHz。 GPU产品线涵盖从旧代到最新款的多种型号,核心数量可达数千。数据中心可根据项目对CPU和GPU的具体需求,实现多种最优配置方案。
  • 重新训练——虽然存在多种方法来估算特定规模模型在可用GPU数量下的训练成本,但许多模型需要持续使用新参数进行重新训练。为确保推理准确性,模型必须使用更新且更近期的数据进行重新训练,根据新数据量大小,此过程可能耗时与初始训练相当。 在本地数据中心,系统可重复使用;而在公有云环境中,每次迭代和模型重新训练都会产生累积费用。
  • 软件——在构建高效的人工智能训练方案时,需综合考量多种软件选项。公共共享云服务商可能无法提供全部可用组件,这意味着在公共云基础设施中获取的每个实例都可能需要额外的配置与测试工作。
  • 数据位置与主权——对于许多行业和地区而言,用于人工智能训练的数据存储位置可能存在限制与要求。本地数据中心能帮助企业遵守这些法规,而使用远程的公共云数据中心则可能不受允许。
  • 安全性——对许多组织而言,数据和结果的安全性至关重要。在本地数据中心中,安全团队能够针对系统或存储设备的访问实施更严格的安全策略。当创建和使用需要访问内部流程及数据的人工智能时,在本地数据中心部署人工智能显然是更优选择。
  • 合规性——当数据受各种法规约束时,相较于寻找符合这些法规的公共云,建立符合要求的本地数据中心可能是理想选择。
Supermicro :8U系统、4U系统、5U系统

摘要

要构建高效且专注于人工智能的本地数据中心,必须理解最适合企业的工作负载性能需求。 经过合理设计的本地数据中心,既能缩短AI训练的成果产出时间,又能提供低延迟推理结果,并根据模型类型优化决策。本地数据中心可通过低成本的独特配置满足企业需求。深入理解工作负载特性、数据规模、AI工作流的精细化调整,以及企业内部对各类软件层面的专业能力,将有助于确定最适合组织的解决方案。