本地部署人工智能数据中心的理由
人工智能已成为并将继续成为全球企业的主导技术。这项技术能够改变商业实践,帮助各行各业做出更明智的决策,因此对能够执行人工智能训练或推理阶段的服务器的需求空前高涨。训练阶段所需的人工智能基础设施成本可能相当高昂,但高端系统(配备多个CPU和GPU)并非总是最佳选择。通过在企业数据中心内部署人工智能训练,企业可以降低成本,同时提高生产力和灵活性。
云计算的优势和劣势
许多组织正在将工作负载迁移到公共云基础设施,顾名思义,公共云基础设施是由众多客户共享的。虽然公共云的可扩展性可能非常强大,但很少有训练模型需要数千个 GPU 同时运行。使用公共共享云基础设施的一个好处是,可以获取大量高端(也就是昂贵)服务器。但另一方面,在需要时,可能无法获得大量高端服务器。此外,大型训练模型的数据导入和导出成本可能很高,尤其是在需要从其他公共共享云提供商导入训练数据的情况下。
用于人工智能训练的本地部署
在本地数据中心考虑和实施人工智能有多种原因。
- 成本——虽然购置配备GPU的服务器成本可能较高,但从长远来看,其成本可能低于使用公共共享云。云费用随着时间的推移可能相对较高,尤其是在数据传输方面。此外,购置高端GPU服务器的成本可能很高,无论CPU或GPU是否100%利用可用时间(这种情况不太可能发生)。
- 性能——CPU 和 GPU 的组合多种多样,无论从数量还是性能方面来看都是如此。了解企业级 AI 需求后,CPU 的数量和性能(1、2、4 或 8 个)至关重要。最新一代 CPU 的核心数从 16 到 128 个不等,基础时钟频率接近 4 GHz。GPU 也种类繁多,从老款到最新款,核心数可达数千个。根据项目对 CPU 和 GPU 的具体需求,可以在数据中心部署多种优化配置。
- 重新训练——尽管有多种方法可以估算训练特定规模和可用GPU数量的模型的成本,但许多模型需要使用新的参数不断重新训练。为了保证推理精度,模型必须使用更新、更近期的数据进行重新训练,而重新训练所需的时间可能与初始训练一样长,具体取决于要使用的新数据量。在本地数据中心,系统可以重复使用,而在公有云中,每次迭代和重新训练模型都会增加成本。
- 软件——在构建高效的AI训练解决方案时,需要考虑多种软件选择。公共共享云提供商可能不提供所有组件,因此在公共云基础设施中获取的每个实例都需要额外的设置和测试。
- 数据位置和主权——对于许多行业和地区而言,用于人工智能训练的数据存储位置可能存在限制和要求。企业可以使用本地数据中心来遵守这些法规,而使用远程公共云数据中心则可能不被允许。
- 安全性——对许多组织而言,数据和结果的安全性至关重要。在本地数据中心,安全团队可以实施更严格的系统或存储设备访问安全策略。当创建和使用需要访问内部流程和数据的 AI 时,在本地数据中心部署 AI 显然是最佳选择。
- 合规性——当数据受到各种法规约束时,与寻找符合这些法规的公共云相比,创建一个符合规定的本地数据中心可能是理想的选择。

概括
要部署高效的本地AI数据中心,需要了解最适合企业需求的工作负载的性能要求。设计合理的本地数据中心可以缩短AI训练结果的获取时间,并提供低延迟的推理结果和针对特定模型类型进行优化的决策。本地数据中心可以低成本地进行个性化配置,以满足企业的特定需求。了解工作负载、数据量、AI工作流程的微调以及企业内部对各种软件层的专业知识,将有助于确定最适合企业的方案。
