Ir al contenido principal

Cómo los servidores AMD de Supermicro ofrecen alto rendimiento y baja latencia para soluciones de IA

La IA requiere almacenamiento de baja latencia: Consígalo ahora con los servidores Supermicro basados en CPU AMD EPYC™

Hoy en día se está produciendo un cambio radical en las empresas modernas. Se centra en lo que podría llamarse la "revolución de la IA". Las organizaciones están obteniendo ventajas competitivas y conocimientos clave cuando ponen a trabajar aplicaciones avanzadas basadas en IA o ML. Entre los principales ejemplos de este tipo de cargas de trabajo se encuentran los grandes modelos lingüísticos basados en IA (LLM), que incluyen ChatGPT, LLaMa, etc., junto con los modelos ML basados en enormes conjuntos de datos de entrenamiento, modelos 3D complejos, animación y realidad virtual, simulaciones y otras aplicaciones de uso intensivo de datos y computación.

Detrás del llamativo hardware montado en bastidor que alberga los cerebros impulsados por GPU de cualquier clúster de IA, también debe encontrar sistemas de almacenamiento de alto rendimiento y baja latencia para mantener la productividad del clúster. Estos soportan los canales que alimentan cantidades masivas de datos para entrenar modelos y realizar simulaciones y análisis complejos necesarios para soportar la IA, el ML y cargas de trabajo similares. De hecho, uno de los mayores retos a los que se enfrentan las empresas que desean capitalizar el crecimiento de la IA es encontrar una solución de almacenamiento que no suponga un cuello de botella para sus CPU, GPU o clústeres de bases de datos de alto rendimiento.

El Santo Grial: Alto rendimiento, baja latencia

Todo el mundo se está subiendo al carro de la IA y buscando soporte para las cargas de trabajo correspondientes. Para hacer realidad este sueño no tan descabellado, una arquitectura de servidor optimizada para soportar cargas de trabajo exigentes es absolutamente esencial. AMD ha diseñado sus CPU de servidor EPYC —actualmente en su cuarta generación, dentro de la familia de productos 9004— para obtener el mejor rendimiento del hardware y software de servidor con una única CPU. De hecho, la familia AMD EPYC™ de 4.ª generación ofrece las siguientes ventajas:

  • Liderazgo en socket y rendimiento por núcleo, con hasta 96 núcleos Zen 4 en Core Compute Dies (CCDs) de 5nm
  • Liderazgo en ancho de banda y capacidad de memoria, con 12 canales para hasta 6 TB de memoria DDR5 por zócalo
  • Liderazgo en IO, con hasta 128 carriles de acceso PCIe 5.0 para dispositivos de memoria CXL, SSD, NIC, GPU y más

Diseñados desde cero para ofrecer el máximo rendimiento, eficiencia y sostenibilidad, los servidores basados en AMD EPYC pueden gestionar los equilibrios necesarios para sacar el máximo partido a las CPU, la memoria, las GPU, el almacenamiento y las interfaces de red. De hecho, la arquitectura AMD EPYC prioriza los hilos para que la caché L3 pueda bloquearse y ser utilizada exclusivamente por cargas de trabajo intensivas, de modo que los carriles PCIe no están sujetos a los típicos retrasos de programación de E/S y contención.

Soporte de sistemas de archivos y evitación de cuellos de botella

Lo que ocurre en los modos distribuidos y paralelos es que, para los sistemas de archivos distribuidos, los datos llegan de múltiples fuentes donde deben procesarse a escala a través de diversos protocolos y para diversas aplicaciones. En un sistema de almacenamiento típico, los metadatos se convierten rápidamente en un cuello de botella. De hecho, solo se puede transferir a través del sistema la cantidad de datos que los metadatos soporten. A medida que la cantidad de datos aumenta, la capacidad de gestionar los metadatos debe escalar proporcionalmente. Los servidores AMD de Supermicro son compatibles con el almacenamiento distribuido WEKA: está diseñado para proporcionar dicha escalabilidad proporcional. Esto explica por qué, a pesar de añadir más capacidad de datos y servicios a un sistema o clúster de Supermicro, el rendimiento de E/S continúa sin disminuir. El rendimiento escala linealmente desde ocho (recuento mínimo de nodos para un clúster WEKA) hasta cientos de nodos. Lo hace eliminando cuellos de botella y proporcionando soporte incluso para las cargas de trabajo de IA/ML (y otras similares) más pesadas y exigentes.

Pero optimizar servidores y clústeres es mucho más que proporcionar un almacenamiento escalable, de alto rendimiento y baja latencia. Al diseñar un sistema completo, la atención no puede centrarse exclusivamente en una sola característica o función. Toda la arquitectura debe funcionar en concierto para soportar las cargas de trabajo objetivo. Así, diseñar un sistema para aplicaciones de IA significa crear un entorno en tiempo de ejecución construido desde cero para manejar aplicaciones intensivas en datos de forma rápida y satisfactoria. Esto se beneficia del rendimiento global del servidor para la inferencia y el análisis y de las capacidades generales de E/S. Lo que el servidor hace con los datos mientras maneja una carga de trabajo de IA (o similar) es tan importante como el tráfico de datos que entra y sale de cualquier nodo dado. El soporte de actividades altamente paralelas es esencial, por lo que un elevado número de núcleos para manejar todas las subtareas paralelizadas que implican la ejecución de dichos programas es fundamental.

Otra característica crítica es el número de carriles PCIe 5.0 en los servidores basados en AMD EPYC (hasta 128 para un único socket). Esto permite a los servidores alojar colecciones más grandes de SSD, NIC, GPU e incluso dispositivos CXL de memoria extendida. Todos ellos desempeñan un papel esencial en el manejo de cargas de trabajo exigentes de IA y ML (o similares), incluyendo:

  • Hasta 32 unidades SSD PCIe Gen5 para almacenamiento local de alta velocidad
  • Gran cantidad de interfaces de red de alta velocidad para conectar los servidores a otros nodos, como los de almacenamiento u otros servidores especializados, para ampliar el ámbito y el alcance de los datos.
  • Gran número de GPU para manejar tareas o cargas de trabajo especializadas y específicas

En general, es importante disponer de una gran cantidad de almacenamiento en los nodos del servidor y un alto ancho de banda de red para proporcionar niveles adecuados de ingreso y egreso de datos para cada nodo desde un almacenamiento que puede no residir en el host. Esto es esencialmente lo que respalda la mayoría de las afirmaciones aquí con respecto al alto rendimiento y la baja latencia para los servidores Supermicro AMD EPYC.

Más núcleos significan más "¡Oomph!"

Otro factor crítico para una capacidad de IA optimizada es que un alto número de núcleos por CPU proporciona soporte a nivel de hardware para lo que se denomina un UP (procesador único o uniprocesador). El liderazgo de AMD en el recuento de núcleos (la familia AMD EPYC 9004 soporta de 24 a 96 núcleos, por ejemplo) confiere numerosas capacidades y ventajas necesarias. Lo más importante es que estas CPU proporcionan acceso uniforme a la memoria para todos sus núcleos. Esta característica contribuye al determinismo, reduce los bloqueos y facilita el diseño y la construcción de placas base de servidor para un alto rendimiento. Por diseño, la arquitectura AMD EPYC impulsa el rendimiento de las cargas de trabajo de IA, ofreciendo acceso optimizado a la red, el almacenamiento y la GPU.

Ejemplo práctico: Sistema de almacenamiento petascala Supermicro H13 1U

El Sistema de Almacenamiento Petascale H13 de Supermicro proporciona una excelente ilustración de lo que la arquitectura EPYC puede lograr. Ofrece altas densidades para almacenamiento definido por software, computación en memoria, HPC intensivo en datos, nube privada y pública, y —especialmente— aplicaciones de IA/ML. Sus especificaciones incluyen los siguientes detalles:

  • 16 ranuras EDSFF E3.S NVMe intercambiables en caliente para hasta 480 TB de almacenamiento en un chasis 1U
  • Opción de 4 módulos de expansión de memoria de factor de forma CXL E3.S 2T más 8 dispositivos de almacenamiento E3.S NVMe
  • Un procesador AMD EPYC™ de 4ª generación — hasta 96 núcleos
  • 24 módulos DIMM para hasta 6 TB de memoria DDR5
  • 2 ranuras AIOM PCIe 5.0 compatibles con Open Compute Project (OCP) 3.0 SFF
  • 2 ranuras PCIe 5.0 de media altura con alimentación auxiliar
  • Fuentes de alimentación con eficiencia de nivel de titanio

El sistema Supermicro H13 puede ser una adición invaluable para cualquier centro de datos donde las cargas de trabajo de IA, ML u otras intensivas en computación y datos necesiten acceso a almacenamiento de alto rendimiento y baja latencia (y en grandes cantidades).

Por qué la arquitectura de servidores de AMD y Supermicro es óptima para la IA

NVMe ha transformado por completo el panorama de los servidores y clústeres. Con NVMe como base, es posible una arquitectura completamente rediseñada. Permite que el almacenamiento funcione a escala y velocidad junto con CPU, GPU y NIC de alto rendimiento, especialmente con el factor de forma EDSFF. El diseño de un solo socket permite que las CPU de élite saturen completamente las tarjetas de red y el almacenamiento, y exploten los niveles más altos posibles de paralelismo y capacidades de clúster para HPC, IA y otras soluciones de próxima generación. Equilibrando rendimiento y consumo para apoyar la sostenibilidad, el ancho de banda de la memoria se duplica de la 3ª a la 4ª generación de AMD EPYC, lo que también mejora el soporte para las cargas de trabajo de IA. Al trabajar con una arquitectura de un solo chip, se pueden asignar otros recursos de la CPU (por ejemplo, la caché L3 y el ancho de banda de la memoria) de forma preferente a los hilos de alta demanda para mejorar el rendimiento y reducir la latencia. Se pueden ajustar los hilos para soportar estas cargas de trabajo hasta el nivel de hardware. No hay una forma mejor, más rápida o más eficiente de implementar la IA y el ML que en este tipo de servidores.