Ir al contenido principal

Cómo los servidoresAMD Supermicro ofrecen alto rendimiento y baja latencia para soluciones de IA

La IA requiere almacenamiento de baja latencia: Consígalo ahora con los servidores Supermicro basados en CPU AMD EPYC™.

Hoy en día se está produciendo un cambio radical en las empresas modernas. Se centra en lo que podría llamarse la "revolución de la IA". Las organizaciones están obteniendo ventajas competitivas y conocimientos clave cuando ponen a trabajar aplicaciones avanzadas basadas en IA o ML. Entre los principales ejemplos de este tipo de cargas de trabajo se encuentran los grandes modelos lingüísticos basados en IA (LLM), que incluyen ChatGPT, LLaMa, etc., junto con los modelos ML basados en enormes conjuntos de datos de entrenamiento, modelos 3D complejos, animación y realidad virtual, simulaciones y otras aplicaciones de uso intensivo de datos y computación.

Detrás del llamativo hardware montado en bastidor que alberga los cerebros impulsados por GPU de cualquier clúster de IA, también debe encontrar sistemas de almacenamiento de alto rendimiento y baja latencia para mantener la productividad del clúster. Estos soportan los canales que alimentan cantidades masivas de datos para entrenar modelos y realizar simulaciones y análisis complejos necesarios para soportar la IA, el ML y cargas de trabajo similares. De hecho, uno de los mayores retos a los que se enfrentan las empresas que desean capitalizar el crecimiento de la IA es encontrar una solución de almacenamiento que no suponga un cuello de botella para sus CPU, GPU o clústeres de bases de datos de alto rendimiento.

El Santo Grial: Alto rendimiento, baja latencia

Todo el mundo se está subiendo al carro de la IA y busca el soporte correspondiente para las cargas de trabajo. Para hacer realidad este sueño no tan descabellado, es absolutamente esencial contar con una arquitectura de servidor optimizada para soportar cargas de trabajo exigentes. AMD ha construido sus CPU de servidor EPYC -actualmente en su cuarta generación en la familia de productos 9004- para obtener el mejor rendimiento de hardware y software de servidor con una sola CPU. De hecho, la familia AMD EPYC™ de 4ª generación ofrece las siguientes ventajas:

  • Liderazgo en socket y rendimiento por núcleo, con hasta 96 núcleos Zen 4 en Core Compute Dies (CCDs) de 5nm
  • Liderazgo en ancho de banda y capacidad de memoria, con 12 canales para hasta 6 TB de memoria DDR5 por zócalo
  • Liderazgo en IO, con hasta 128 carriles de acceso PCIe 5.0 para dispositivos de memoria CXL, SSD, NIC, GPU y más

Diseñados desde cero para ofrecer el máximo rendimiento, eficiencia y sostenibilidad, los servidoresEPYC AMD EPYC pueden gestionar los actos de equilibrio necesarios para sacar el máximo partido de las CPU, la memoria, las GPU, el almacenamiento y las interfaces de red. De hecho, la arquitectura AMD EPYC prioriza los subprocesos de modo que la caché L3 puede bloquearse para que las cargas de trabajo intensivas la utilicen en exclusiva, por lo que los carriles PCIe no están sujetos a los típicos retrasos de programación y contención de E/S.

Soporte de sistemas de archivos y evitación de cuellos de botella

Lo que ocurre en los modos distribuidos y paralelos es que, en los sistemas de archivos distribuidos, los datos llegan de múltiples fuentes y es necesario procesarlos a escala a través de varios protocolos y para varias aplicaciones. En un sistema de almacenamiento típico, los metadatos se convierten rápidamente en un cuello de botella. De hecho, sólo se pueden bombear por el sistema tantos datos como admitan los metadatos. A medida que la cantidad de datos escala, la capacidad de manejar metadatos necesita escalar proporcionalmente. Los servidoresAMD Supermicro son compatibles con el almacenamiento distribuido WEKA: Está diseñado para proporcionar ese escalado proporcional. Esto explica por qué, a pesar de añadir más capacidad de datos y servicios a un sistema o clúster Supermicro , el rendimiento de E/S continúa sin disminuir. El rendimiento se escala linealmente desde ocho (número mínimo de nodos para un clúster WEKA) hasta cientos de nodos. Lo hace eliminando los cuellos de botella y proporcionando soporte incluso para las cargas de trabajo de IA/ML (y otras similares) más pesadas y exigentes.

Pero optimizar servidores y clústeres es mucho más que proporcionar un almacenamiento escalable, de alto rendimiento y baja latencia. Al diseñar un sistema completo, la atención no puede centrarse exclusivamente en una sola característica o función. Toda la arquitectura debe funcionar en concierto para soportar las cargas de trabajo objetivo. Así, diseñar un sistema para aplicaciones de IA significa crear un entorno en tiempo de ejecución construido desde cero para manejar aplicaciones intensivas en datos de forma rápida y satisfactoria. Esto se beneficia del rendimiento global del servidor para la inferencia y el análisis y de las capacidades generales de E/S. Lo que el servidor hace con los datos mientras maneja una carga de trabajo de IA (o similar) es tan importante como el tráfico de datos que entra y sale de cualquier nodo dado. El soporte de actividades altamente paralelas es esencial, por lo que un elevado número de núcleos para manejar todas las subtareas paralelizadas que implican la ejecución de dichos programas es fundamental.

Otra característica crítica es el número de carriles PCIe 5.0 en los servidoresEPYC AMD EPYC(hasta 128 para un solo zócalo). Esto permite a los servidores alojar mayores colecciones de SSD, NIC, GPU e incluso dispositivos CXL de memoria extendida. Todos ellos desempeñan un papel esencial en el manejo de las exigentes cargas de trabajo de IA y ML (o similares), entre las que se incluyen:

  • Hasta 32 unidades SSD PCIe Gen5 para almacenamiento local de alta velocidad
  • Gran cantidad de interfaces de red de alta velocidad para conectar los servidores a otros nodos, como los de almacenamiento u otros servidores especializados, para ampliar el ámbito y el alcance de los datos.
  • Gran número de GPU para manejar tareas o cargas de trabajo especializadas y específicas

En general, es importante tener mucho almacenamiento en los nodos del servidor y un gran ancho de banda de red para proporcionar niveles adecuados de entrada y salida de datos para cada uno de dichos nodos desde el almacenamiento que puede no residir en el host. Esto es esencialmente lo que subyace a la mayoría de las afirmaciones realizadas aquí sobre el alto rendimiento y la baja latencia de los servidores Supermicro AMD EPYC .

Más núcleos significan más "¡Oomph!"

Otro factor crítico para una capacidad de IA optimizada es que un elevado recuento de núcleos por CPU proporciona soporte a nivel de hardware para lo que se denomina un UP (uni- o procesador único). El liderazgo de AMDen el recuento de núcleos (la familia AMD EPYC 9004 admite de 24 a 96 núcleos, por ejemplo) confiere numerosas capacidades y ventajas necesarias. Lo más importante es que estas CPU proporcionan un acceso uniforme a la memoria para todos sus núcleos. Esta característica ayuda al determinismo, reduce el bloqueo y facilita el diseño y la construcción de placas base para servidores de alto rendimiento. Por su diseño, la arquitectura AMD EPYC potencia el rendimiento de las cargas de trabajo de IA, ofreciendo un acceso optimizado a la red, el almacenamiento y la GPU.

Un ejemplo: Sistema de almacenamiento a petaescala Supermicro H13 1U

Elsistema de almacenamiento Supermicro H13 Petascale ofrece una excelente ilustración de lo que puede hacer la arquitectura EPYC . Ofrece altas densidades para almacenamiento definido por software, computación en memoria, HPC de uso intensivo de datos, nube privada y pública, y -especialmente- aplicaciones AI/ML. Sus especificaciones incluyen los siguientes detalles:

  • 16 ranuras EDSFF E3.S NVMe intercambiables en caliente para hasta 480 TB de almacenamiento en un chasis 1U
  • Opción de 4 módulos de expansión de memoria de factor de forma CXL E3.S 2T más 8 dispositivos de almacenamiento E3.S NVMe
  • Un procesador AMD EPYC™ de 4ª generación-hasta 96 núcleos
  • 24 módulos DIMM para hasta 6 TB de memoria DDR5
  • 2 ranuras AIOM PCIe 5.0 compatibles con Open Compute Project (OCP) 3.0 SFF
  • 2 ranuras PCIe 5.0 de media altura con alimentación auxiliar
  • Fuentes de alimentación con eficiencia de nivel de titanio

El sistema Supermicro H13 puede ser un complemento inestimable para cualquier centro de datos en el que la IA, el ML u otras cargas de trabajo de cálculo y datos intensivos necesiten un acceso al almacenamiento de alto rendimiento y baja latencia (y mucho).

Por qué la arquitectura de servidores de AMD y Supermicro es óptima para la IA

NVMe ha cambiado totalmente el juego de los servidores y los clústeres. Con NVMe como base, se hace posible una arquitectura completamente renovada. Permite que el almacenamiento trabaje a escala y velocidad junto a CPU, GPU y NIC de alto rendimiento, especialmente con el factor de forma EDSFF. El diseño de un solo zócalo permite que las CPU de mejor calidad saturen por completo las tarjetas de red y el almacenamiento y exploten los niveles más altos posibles de paralelismo y capacidad de agrupación para HPC, IA y otras soluciones de próxima generación. Equilibrando el rendimiento y la potencia para apoyar la sostenibilidad, el ancho de banda de la memoria se duplica de AMD EPYC 3rd Gen a 4th Gen, lo que también soporta mejor las cargas de trabajo de IA. Cuando se trata de una arquitectura de un solo chip, puede asignar otros recursos de la CPU (por ejemplo, caché L3 y ancho de banda de memoria) preferentemente a los subprocesos de alta demanda para mejorar el rendimiento y reducir la latencia. Puede ajustar los subprocesos para soportar dichas cargas de trabajo hasta el nivel de hardware. No hay forma mejor, más rápida o más eficiente de poner a trabajar la IA y el ML que en este tipo de servidores.