Comment les serveurs Supermicro AMD offrent un débit élevé et une faible latence pour les solutions d'IA
Les entreprises modernes sont aujourd'hui en pleine mutation. Elle s'articule autour de ce que l'on pourrait appeler la "révolution de l'IA". Les organisations obtiennent des avantages concurrentiels et des informations clés lorsqu'elles mettent en œuvre des applications avancées basées sur l'IA ou le ML. Parmi les principaux exemples de ces charges de travail, on peut citer les grands modèles de langage (LLM) basés sur l'IA, tels que ChatGPT, LLaMa et bien d'autres, ainsi que les modèles de ML basés sur d'énormes ensembles de données d'entraînement, des modèles 3D complexes, des animations et des réalités virtuelles, des simulations et d'autres applications gourmandes en données et en calculs.
Derrière le matériel flashy monté en rack qui abrite les cerveaux pilotés par GPU de tout cluster d'IA, vous devez également trouver des systèmes de stockage à haut débit et à faible latence pour maintenir la productivité du cluster. Ces systèmes prennent en charge les canaux qui alimentent des quantités massives de données pour former des modèles et effectuer des simulations et des analyses complexes nécessaires pour soutenir l'IA, la ML et les charges de travail similaires. En effet, l'un des plus grands défis auxquels sont confrontées les entreprises qui cherchent à tirer parti de la croissance de l'IA est de trouver une solution de stockage qui n'engorgera pas leurs CPU, GPU ou clusters de bases de données hautes performances.
Le Saint Graal : Haut débit, faible latence
Tout le monde se tourne vers l'IA et recherche un support de charge de travail adapté. Pour concrétiser ce rêve, une architecture de serveur optimisée pour prendre en charge les charges de travail exigeantes est absolument essentielle. AMD a conçu ses CPU de serveur EPYC – actuellement dans leur quatrième génération au sein de la famille de produits 9004 – afin d'obtenir les meilleures performances du matériel et des logiciels de serveur avec un seul CPU. En effet, la 4ème génération de la famille AMD EPYC™ offre les avantages suivants :
- Leadership en matière de performances par socket et par cœur, avec jusqu'à 96 cœurs Zen 4 dans des CCD (Core Compute Dies) de 5 nm.
- Leadership en matière de bande passante et de capacité de mémoire, avec 12 canaux pour jusqu'à 6 To de mémoire DDR5 par socket
- Leadership en matière d'E/S, avec jusqu'à 128 voies d'accès PCIe 5.0 pour les périphériques de mémoire CXL, les SSD, les NIC, les GPU, etc.
Conçus dès le départ pour des performances, une efficacité et une durabilité maximales, les serveurs basés sur AMD EPYC peuvent gérer les équilibres nécessaires pour tirer le meilleur parti des CPU, de la mémoire, des GPU, du stockage et des interfaces réseau. En effet, l'architecture AMD EPYC priorise les threads afin que le cache L3 puisse être réservé exclusivement aux charges de travail intensives, et que les voies PCIe ne soient pas soumises aux retards typiques de planification et de contention des E/S.
Prise en charge des systèmes de fichiers et prévention des goulets d'étranglement
Ce qui se passe en modes distribué et parallèle, c'est que pour les systèmes de fichiers distribués, les données arrivent de multiples sources où elles doivent être traitées à grande échelle à travers divers protocoles et pour diverses applications. Dans un système de stockage typique, les métadonnées deviennent rapidement un goulot d'étranglement. En effet, vous ne pouvez transférer que la quantité de données que les métadonnées peuvent supporter. À mesure que le volume de données augmente, la capacité à gérer les métadonnées doit évoluer proportionnellement. Les serveurs Supermicro AMD prennent en charge le stockage distribué WEKA : il est conçu pour offrir une telle évolutivité proportionnelle. Cela explique pourquoi, même en ajoutant davantage de capacité de données et de services à un système ou un cluster Supermicro, les performances d'E/S restent intactes. Les performances évoluent linéairement de huit (nombre minimal de nœuds pour un cluster WEKA) à des centaines de nœuds. Cela est rendu possible en éliminant les goulots d'étranglement et en prenant en charge les charges de travail d'IA/ML (et autres similaires) les plus lourdes et les plus exigeantes.
Mais l'optimisation des serveurs et des clusters ne se limite pas à la fourniture d'un stockage évolutif, performant et à faible latence. Lors de la conception d'un système complet, l'accent ne peut pas être mis exclusivement sur une seule caractéristique ou fonction. L'ensemble de l'architecture doit fonctionner de concert pour prendre en charge les charges de travail ciblées. Ainsi, la conception d'un système pour les applications d'intelligence artificielle implique la création d'un environnement d'exécution conçu dès le départ pour traiter les applications à forte intensité de données de manière rapide et satisfaisante. Cet environnement bénéficie des performances globales du serveur pour l'inférence et l'analyse, ainsi que des capacités globales d'entrée-sortie. Ce que le serveur fait avec les données lorsqu'il traite une charge de travail d'IA (ou similaire) est aussi important que le trafic de données entrant et sortant d'un nœud donné. La prise en charge d'activités hautement parallèles est essentielle, de sorte qu'un nombre élevé de cœurs pour gérer toutes les sous-tâches parallélisées qui impliquent l'exécution de tels programmes est crucial.
Une autre caractéristique essentielle est le nombre de voies PCIe 5.0 dans les serveurs basés sur AMD EPYC (jusqu'à 128 pour un socket unique). Cela permet aux serveurs d'accueillir de plus grandes collections de SSD, de cartes réseau (NIC), de GPU et même de dispositifs CXL de mémoire étendue. Tous ces éléments jouent un rôle essentiel dans la gestion des charges de travail exigeantes d'IA et de ML (ou similaires), notamment :
- Jusqu'à 32 disques SSD PCIe Gen5 pour un stockage local à grande vitesse
- Un grand nombre d'interfaces réseau à haut débit pour connecter les serveurs à d'autres nœuds, tels que des serveurs de stockage ou d'autres serveurs spécialisés, afin d'étendre la portée des données.
- Grand nombre de GPU pour traiter des tâches ou des charges de travail spécialisées et ciblées
En général, il est important de disposer d'une grande capacité de stockage sur les nœuds de serveur et d'une bande passante réseau élevée afin de garantir des niveaux appropriés d'entrée et de sortie de données pour chaque nœud à partir d'un stockage qui peut ne pas résider sur l'hôte. C'est essentiellement ce qui sous-tend la plupart des affirmations concernant le débit élevé et la faible latence des serveurs Supermicro AMD EPYC.
Plus de cœurs, c'est plus de puissance !
Un autre facteur critique pour une capacité d'IA optimisée est qu'un nombre élevé de cœurs par CPU offre un support matériel pour ce qu'on appelle un UP (processeur unique). Le leadership d'AMD en matière de nombre de cœurs (la famille AMD EPYC 9004 prend en charge de 24 à 96 cœurs, par exemple) confère de nombreuses capacités et avantages nécessaires. Plus important encore, ces CPU offrent un accès mémoire uniforme pour tous leurs cœurs. Cette fonctionnalité contribue au déterminisme, réduit les blocages et facilite la conception et la fabrication de cartes mères de serveurs hautes performances. Par conception, l'architecture AMD EPYC améliore les performances des charges de travail d'IA, offrant un accès optimisé au réseau, au stockage et aux GPU.
Exemple concret : Système de stockage Petascale 1U H13 Supermicro
Le système de stockage Petascale H13 de Supermicro illustre parfaitement les capacités de l'architecture EPYC. Il offre des densités élevées pour le stockage défini par logiciel, le calcul en mémoire, le HPC intensif en données, le cloud privé et public, et—surtout—les applications d'IA/ML. Ses spécifications incluent les détails suivants :
- 16 emplacements EDSFF E3.S NVMe permutables à chaud pour jusqu'à 480 To de stockage dans un châssis 1U
- En option, 4 modules d'extension de mémoire CXL E3.S 2T et 8 périphériques de stockage E3.S NVMe.
- Un processeur AMD EPYC™ de 4ème génération — jusqu'à 96 cœurs
- 24 modules DIMM pour un maximum de 6 To de mémoire DDR5
- 2 emplacements AIOM PCIe 5.0 Open Compute Project (OCP) 3.0 compatibles SFF
- 2 emplacements PCIe 5.0 pleine hauteur et demi-longueur avec alimentation auxiliaire
- Alimentations de niveau Titane
Le système Supermicro peut être un atout inestimable pour tout centre de données où l'IA, le ML ou d'autres charges de travail gourmandes en calcul et en données nécessitent un accès au stockage hautement performant, à faible latence (et en grande quantité).
Pourquoi l'architecture de serveurs AMD et Supermicro est optimale pour l'IA
Le NVMe a totalement transformé le monde des serveurs et des clusters. Avec le NVMe comme fondement, une architecture entièrement repensée devient possible. Il permet au stockage de fonctionner à l'échelle et à la vitesse aux côtés des CPU, GPU et cartes réseau (NIC) hautes performances, en particulier avec le facteur de forme EDSFF. La conception à socket unique permet aux meilleurs CPU de saturer pleinement les cartes réseau et le stockage, et d'exploiter les niveaux les plus élevés possibles de parallélisme et de capacités de clustering pour le HPC, l'IA et d'autres solutions de nouvelle génération. Équilibrant performance et consommation d'énergie pour soutenir la durabilité, la bande passante mémoire double de la 3ème à la 4ème génération d'AMD EPYC, ce qui améliore également la prise en charge des charges de travail d'IA. Lorsqu'il s'agit d'une architecture à puce unique, vous pouvez allouer d'autres ressources CPU (par exemple, le cache L3 et la bande passante mémoire) de manière préférentielle aux threads à forte demande pour améliorer les performances et réduire la latence. Vous pouvez ajuster les threads pour prendre en charge de telles charges de travail jusqu'au niveau matériel. Il n'y a pas de moyen meilleur, plus rapide ou plus efficace de mettre l'IA et le ML au travail que sur de tels serveurs.