跳至主要内容

什么是云人工智能?

云端人工智能

人工智能(AI)是指利用云基础设施进行开发、训练、部署和管理的AI工作负载。它结合了可扩展的计算资源、高性能存储、先进的网络和编排系统,以支持跨云环境的数据密集型操作。

与主要面向基于中央处理器 (CPU) 的企业应用而设计的传统云计算模型不同,云 AI 环境针对图形处理器 (GPU) 加速、并行计算和大规模数据传输进行了优化。这些架构支持跨集群基础设施的模型训练、实时推理和连续数据处理

随着人工智能的应用不断扩展,云人工智能作为一个专门的基础设施层,在性能、可扩展性和治理方面进行了优化,使组织能够以架构控制的方式运行日益复杂的模型。

云计算人工智能与传统云计算

虽然两者都运行在基于云的基础设施之上,但云人工智能引入的架构要求与传统的云计算部署截然不同。这些差异最明显地体现在计算加速、存储吞吐量、网络架构和机架密度等方面。


 

传统云

云端人工智能

以 CPU 为中心的工作负载

GPU加速工作负载

标准存储系统

高吞吐量分布式存储系统

中等网络带宽

低延迟、高带宽的网络架构

标准货架密度

高密度计算环境


 

传统的云计算环境通常针对企业应用、虚拟化、事务型数据库和主要依赖 CPU 的 Web 服务进行优化。这些工作负载需要可预测的性能和横向扩展能力,但不需要大规模并行计算或节点间持续的高容量数据传输

云端人工智能基础设施应支持高度并行化的模型训练和推理工作负载。GPU加速成为基础,支持跨多节点集群的张量运算和矩阵计算。存储系统必须提供稳定、高吞吐量的性能,以防止分布式训练期间出现瓶颈。网络架构必须能够以最小的延迟处理跨节点的大量东西向流量,以保持GPU之间的同步。由于GPU功耗、散热限制和高速互连的要求,机架密度也随之增加。

随着人工智能模型规模和复杂性的增长,基础设施必须超越传统的云架构,才能满足云人工智能环境对性能、可扩展性和密度的需求。

云人工智能基础设施的核心组件

云基础设施由紧密集成的多层架构构成,这些层共同支持大规模模型训练、高性能推理和分布式数据处理。每一层都必须针对吞吐量、延迟、可扩展性和密度进行优化,以维持现代人工智能工作负载。

计算层

计算层是云端人工智能环境的底层支撑。GPU 服务器提供张量运算和大规模模型训练所需的并行处理能力。人工智能集群通常每个节点部署多个 GPU,并通过高速互连架构连接,以支持分布式系统间的同步处理。

高核心数的CPU通过处理数据预处理、编排和系统级协调来支持GPU加速。它们管理内存分配和运行控制功能,以维持集群的稳定性。

大容量内存也至关重要。训练工作负载需要大量内存来存储数据集和缓冲中间计算结果,从而避免GPU空闲。内存带宽和容量直接影响多节点环境下的效率。

存储层

存储层必须能够支持训练集群间的高吞吐量和并行访问。对象存储平台管理大型数据集、模型检查点和非结构化训练数据,并可根据需要扩展到PB级。

分布式存储系统支持跨多个节点的并发数据访问,从而降低训练操作期间的延迟。高性能存储层包括: SSD 阵列和非易失性存储技术可加速数据摄取,并最大限度地减少密集处理周期中的瓶颈。分层架构可在保持吞吐量的同时,平衡性能和成本。

网络层

由于分布式训练会产生大量的东西向流量,网络架构至关重要。脊叶式拓扑结构可在节点间提供稳定、低延迟的连接,并支持可扩展的集群扩展。

高速互连实现了服务器间GPU之间的通信,从而在并行计算过程中保持同步。随着集群规模的增长和内部数据交换不再局限于南北向流动,高效的内部流量设计变得日益重要。

管理层

管理层负责协调基础设施资源并维持运行效率。编排平台则负责自动化跨分布式集群的资源配置、扩展和工作负载部署。

遥测系统能够提供GPU利用率、散热状况、网络活动和存储性能等方面的可视信息,从而实现主动优化。资源调度器会动态分配计算和存储容量,以维持均衡的利用率并减少资源争用。

云端人工智能模型训练

云环境中的人工智能模型训练依赖于分布式计算架构,该架构旨在跨多个支持GPU的节点同时处理海量数据集。在GPU云基础设施中,训练工作负载被分配到集群系统中,这些系统持续同步模型权重和梯度,而不是在单个服务器上运行。这种分布式方法缩短了训练时间,同时支持云部署中日益庞大和复杂的人工智能模型。

并行处理是云端人工智能训练的核心。数据并行将数据集分布到多个GPU上,而模型并行则将大型模型分割到多个设备上运行。这些技术依赖于低延迟网络和高吞吐量互连,以维持GPU云基础设施内的同步效率。随着模型规模的增大,通信开销成为架构设计中至关重要的考量因素。

多节点GPU集群需要精心规划机架规模。由于加速器部署集中,功率密度增加,数据本地化变得至关重要,以最大限度地减少存储层和计算层之间不必要的数据传输。高效的训练环境旨在将数据集放置在靠近计算资源的位置,同时保持稳定的吞吐量。

基础设施设计直接决定训练性能。存储带宽、网络延迟或GPU利用率方面的瓶颈都可能显著延长训练周期。云端AI环境必须将计算、存储和网络层紧密集成到AI硬件中,以支持可扩展且高效的模型开发。

云端和边缘环境下的人工智能推理

云环境中的人工智能推理侧重于执行已训练的模型,以实时或近实时地生成预测、分类或决策。与训练工作负载不同,推理优先考虑响应速度、稳定的延迟和高效的资源利用率。云基础设施能够根据需求波动弹性扩展推理服务。

GPU加速对于高吞吐量推理工作负载仍然至关重要,尤其对于大型语言模型、计算机视觉系统和实时分析平台而言。然而,当延迟和吞吐量要求适中时,某些推理任务也可以在基于CPU的系统上运行。基础设施的配置必须根据工作负载特性和服务级别目标而定。

对延迟敏感的应用通常需要更靠近最终用户或数据源的推理能力。混合部署将云端 AI 环境扩展到边缘 AI位置,在保持集中式编排和管理的同时,降低了往返延迟。这种分布式架构支持需要快速决策的应用场景,例如零售环境(如零售智能门店系统) ,同时保持了可扩展性。 

高效的推理环境需要在计算密度、内存分配和网络性能之间取得平衡,以维持可预测的响应时间。随着推理需求的增长,基础设施的弹性以及高效的工作负载调度对于维持服务的连续性和运营效率至关重要。

公有云与私有云人工智能

部署云端人工智能的组织必须确定工作负载最适合公有云环境、私有基础设施还是混合环境。这种区别会影响控制、性能隔离、成本结构和架构灵活性。


 

公有云人工智能

私有云人工智能

提供商管理

企业控制

共享基础设施

专用GPU基础设施

基于订阅的成本模式

混合型或资本型成本模型

快速供应

定制优化环境

共享责任安全模型

企业定义的安全架构


公有云人工智能环境由服务提供商管理,并在共享基础设施上运行。它们无需资本投入即可实现快速部署和弹性扩展。安全遵循责任共担模型,服务提供商负责保护底层基础设施,而客户则负责管理数据、访问控制和工作负载配置。

私有云AI 环境由企业自主控制,并构建于专用 GPU 基础设施之上。企业可以自行定义安全架构、分段策略和合规性控制措施。这种模式支持性能可预测性、硬件定制和治理一致性,但需要更大的资本投入和运营监管。

许多企业采用混合策略,利用公有云资源实现弹性扩展,并利用私有基础设施来处理持续的高密度工作负载。部署决策通常受性能目标、监管要求、安全态势偏好和总体拥有成本等因素的制约。

高密度和冷却方面的考虑

由于GPU的集中部署和高性能互连,云端AI基础设施对电力和散热提出了显著的要求。数据中心的设计和部署必须着重考虑持续的性能、可靠性和长期可扩展性。

GPU功耗

用于人工智能训练和推理的现代GPU比传统的基于CPU的服务器功耗高得多。单个加速器可能消耗数百瓦的功率,而单个机箱内的多GPU配置会显著增加系统总功耗。因此,供电系统必须经过精心设计,才能在高负载下保持稳定运行。

机架功率密度

随着每台服务器GPU数量的增加,机架级功率密度也相应提高。人工智能机架的功率密度通常超过传统企业级机架的密度阈值,因此需要增强型配电单元、更高容量的电路以及精细的负载均衡。基础设施规划必须考虑未来的扩展需求,以避免代价高昂的改造。

热约束

高密度GPU环境会产生集中的热量,如果管理不当,会影响性能和硬件寿命。在高机架密度下,仅靠空气冷却可能不足以满足需求。散热设计必须确保稳定的气流、高效的散热和环境监测,以维持运行稳定性。

直接液冷

直接液冷 (DLC)已成为应对人工智能集群极端热负荷的实用解决方案。与空气冷却相比,DLC 的散热效率更高,因此能够支持更高的机架密度,同时减少对大规模空气流动的依赖。这种方法可以实现更紧凑的部署,并提高散热的可预测性。

能源效率

由于云端人工智能环境持续高利用率,能源效率至关重要。优化的电力分配、高效的冷却系统以及专为高能效设计的硬件有助于降低运营成本并提高可持续性。基础设施架构直接影响大规模环境下的整体能耗。

网络和数据传输挑战

通常,人工智能云计算依赖于紧密耦合的高性能网络架构,其中低效的数据移动会降低 GPU 利用率,延长训练周期,并限制分布式系统的横向扩展性。

  • 将大型数据集从分布式存储传输到 GPU 集群需要持续的高带宽链路,这通常超出了传统企业网络设计的假设,以防止在预处理和训练期间出现输入/输出瓶颈。
  • 东西向通信主导着人工智能环境,梯度交换、参数同步和检查点复制在多 GPU 集群中产生持续的节点间通信。
  • 存储网络必须能够处理跨高性能层的并行读写操作,同时支持多个训练作业同时访问时的稳定吞吐量。
  • 低延迟通信架构对于集体通信操作至关重要,因为微秒级的延迟会在数千个同步周期内累积,从而降低扩展效率。
  • 网络过载率、拓扑设计和拥塞管理策略直接影响集群性能,尤其是在支持快速水平扩展的脊叶式架构中。
  • 远程直接内存访问 (RDMA) 和高速互连协议可降低 CPU 开销,并提高大规模分布式训练环境中 GPU 到 GPU 的通信效率。

云人工智能中的安全与治理

AI 云计算环境必须融入企业级网络安全控制和治理框架,以保护敏感数据、维护模型完整性,并在分布式基础设施中保持合规性。

  • 数据保护要求对静态数据和传输中的数据进行加密,进行安全的密钥管理,并严格控制对数据集的访问,以防止未经授权泄露训练或推理数据。
  • 访问控制机制必须在计算集群、 AI 数据存储系统和编排平台中强制执行基于角色和策略的权限,以限制管理员和用户权限。
  • 模型治理包括版本控制、训练数据集的可审计性、模型变更的可追溯性以及对生产环境中的偏差或意外行为的监控。
  • 合规性要求因行业和地区而异,因此需要设计基础设施来支持数据驻留控制、日志记录、审计跟踪和保留策略。
  • 多租户环境中的隔离需要工作负载分段、网络分区和硬件级资源分配,以防止跨租户干扰或数据泄露。

扩展云端人工智能环境

在云端扩展人工智能需要基础设施来协调计算、存储、网络和电力系统的扩展,以在工作负载需求增加时保持性能一致性。

  • 模块化服务器扩展能够逐步添加支持 GPU 的节点,使组织能够在不中断现有集群运行的情况下扩展计算能力。
  • 机架级集成将计算、网络和存储资源整合到预先验证的配置中,以支持可预测的性能和更高密度的简化部署。
  • 集群增长规划必须考虑互连带宽、交换容量、存储吞吐量和编排限制,以防止节点数量增加时出现瓶颈,尤其是在AI 超级集群等大规模部署中。
  • 电源供应策略必须预见到机架级密度的增加,确保足够的电路容量、冗余的分配路径以及与先进冷却系统的兼容性。

结论

企业级人工智能代表了云计算向支持大规模人工智能工作负载演进的趋势。与主要面向基于 CPU 应用的传统环境不同,云人工智能基础设施围绕 GPU加速、分布式存储系统和低延迟网络架构构建,从而实现大规模并行处理。

高效的企业级人工智能部署需要协调一致的架构,涵盖计算密度、数据传输、电力供应和冷却系统。随着模型规模和复杂性的增长,基础设施决策直接决定着训练效率、推理性能和长期可扩展性。

构建具有高密度集成、优化网络和结构化治理框架的云 AI 环境的组织,更有能力支持持续创新,同时保持运营控制和可预测的增长。


 

常见问题

  1. GPU云基础设施主要用于什么用途?
    GPU 云基础设施用于处理需要大规模并行处理的计算密集型工作负载,包括大型语言模型训练、实时推理、科学建模和高级分析。它支持高密度加速器部署,并优化了网络和存储性能。
  2. 哪些类型的企业应该使用私有云人工智能?
    私有云人工智能通常被受监管行业的企业、对数据驻留要求严格的组织或运行持续高利用率人工智能工作负载的企业所采用。它支持性能可预测性、治理控制和长期基础设施成本优化。
  3. 云端人工智能对敏感数据安全吗?
    云端人工智能若构建于加密存储、安全网络分段、基于身份的访问控制和持续监控之上,便能为敏感数据提供安全保障。安全态势取决于基础设施设计、合规性以及严谨的运维管理。