Comment Supermicro AMD Les serveurs offrent un débit élevé et une faible latence pour les solutions d'IA
Les entreprises modernes connaissent aujourd'hui une transformation profonde, centrée sur ce que l'on pourrait appeler la « révolution de l'IA ». Les organisations acquièrent des avantages concurrentiels et des connaissances clés en exploitant des applications avancées basées sur l'IA ou l'apprentissage automatique. Parmi les exemples les plus marquants de ces applications figurent les grands modèles de langage (LLM) basés sur l'IA, tels que ChatGPT, LLaMa, etc., ainsi que les modèles d'apprentissage automatique s'appuyant sur d'immenses ensembles de données d'entraînement, les modèles 3D complexes, l'animation et la réalité virtuelle, les simulations et d'autres applications gourmandes en données et en puissance de calcul.
Derrière les serveurs rackables sophistiqués qui abritent le cerveau de tout cluster d'IA, piloté par GPU, se cachent des systèmes de stockage à haut débit et faible latence, indispensables à la productivité du cluster. Ces systèmes prennent en charge les flux de données massifs nécessaires à l'entraînement des modèles et à la réalisation de simulations et d'analyses complexes, indispensables aux charges de travail d'IA, d'apprentissage automatique et autres. En effet, l'un des principaux défis pour les entreprises souhaitant tirer parti de l'essor de l'IA est de trouver une solution de stockage qui ne bride pas leurs processeurs, GPU ou clusters de bases de données hautes performances.
Le Saint Graal : Débit élevé, faible latence
Tout le monde se lance dans l'IA et recherche des solutions adaptées. Pour que ce rêve, loin d'être farfelu, devienne réalité, une architecture serveur optimisée pour supporter des charges de travail exigeantes est absolument indispensable. AMD a construit son EPYC Les processeurs pour serveurs — actuellement dans leur quatrième génération au sein de la famille de produits 9004 — permettent d'obtenir les meilleures performances matérielles et logicielles du serveur avec un seul processeur. En fait, la 4e génération AMD EPYC™ La famille offre les avantages suivants :
- Leader en matière de performances par socket et par cœur, avec jusqu'à 96 cœurs Zen 4 gravés en 5 nm (CCD).
- Leader en matière de bande passante et de capacité de mémoire, avec 12 canaux pour une capacité allant jusqu'à 6 To. DDR5 mémoire par socket
- Leadership en IO, avec jusqu'à 128 voies de PCIe 5.0 accès pour CXL Périphériques de mémoire, SSD, cartes réseau, GPU et plus encore
Conçu dès le départ pour une performance, une efficacité et une durabilité maximales, le AMD EPYC Les serveurs basés sur cette technologie peuvent gérer les équilibres nécessaires pour tirer le meilleur parti des processeurs, de la mémoire, des cartes graphiques, du stockage et des interfaces réseau. En effet, AMD EPYC L'architecture priorise les threads afin que le cache L3 puisse être réservé aux charges de travail intensives pour une utilisation exclusive. PCIe Les voies ne sont pas soumises aux délais typiques de planification et de contention des E/S.
Prise en charge du système de fichiers et prévention des goulots d'étranglement
En modes distribués et parallèles, les données des systèmes de fichiers distribués proviennent de sources multiples et doivent être traitées à grande échelle, via différents protocoles et pour diverses applications. Dans un système de stockage classique, les métadonnées deviennent rapidement un goulot d'étranglement. En effet, le volume de données pouvant transiter par le système est limité par la capacité des métadonnées. Par conséquent, la capacité de gestion des métadonnées doit évoluer proportionnellement à l'augmentation du volume de données. Supermicro AMD Les serveurs prennent en charge le stockage distribué WEKA : son architecture permet une mise à l’échelle proportionnelle. Cela explique pourquoi, malgré l’ajout de capacité de données et de services supplémentaires à un serveur, les performances restent stables. Supermicro Que ce soit au sein d'un système ou d'un cluster, les performances d'E/S restent optimales. Elles évoluent linéairement de huit nœuds (nombre minimal pour un cluster WEKA) à plusieurs centaines. Ce résultat est obtenu grâce à l'élimination des goulots d'étranglement et à la prise en charge des charges de travail d'IA/ML (et autres applications similaires) les plus lourdes et exigeantes.
L'optimisation des serveurs et des clusters ne se limite pas à la fourniture d'un stockage évolutif, performant et à faible latence. Lors de la conception d'un système complet, il est essentiel de ne pas se concentrer exclusivement sur une seule fonctionnalité. L'architecture dans son ensemble doit fonctionner de concert pour prendre en charge les charges de travail ciblées. Ainsi, concevoir un système pour les applications d'IA implique de créer un environnement d'exécution conçu dès le départ pour gérer les applications gourmandes en données de manière rapide et efficace. Ceci bénéficie de performances serveur globales optimales pour l'inférence et l'analyse, ainsi que de capacités d'E/S performantes. Le traitement des données par le serveur lors de l'exécution d'une charge de travail d'IA (ou similaire) est tout aussi important que le trafic de données entrant et sortant de chaque nœud. La prise en charge des activités hautement parallèles est essentielle ; un nombre élevé de cœurs est donc crucial pour gérer toutes les sous-tâches parallélisées nécessaires à l'exécution de ces programmes.
Une autre caractéristique essentielle est le nombre de PCIe 5,0 voies dans AMD EPYC Serveurs basés sur cette architecture (jusqu'à 128 sockets par socket). Cela permet aux serveurs d'accueillir un plus grand nombre de disques SSD, de cartes réseau, de GPU et même de mémoire étendue. CXL Ces dispositifs jouent tous un rôle essentiel dans la gestion des charges de travail exigeantes en IA et en apprentissage automatique (ou technologies similaires), notamment :
- Jusqu'à 32 PCIe SSD de 5e génération pour un stockage local haute vitesse
- Un grand nombre d'interfaces réseau à haut débit permettent de connecter les serveurs à d'autres nœuds, tels que des serveurs de stockage ou d'autres serveurs spécialisés, afin d'étendre la portée et l'étendue des données.
- Un grand nombre de GPU pour la gestion de tâches ou de charges de travail spécialisées et ciblées
En général, il est important de disposer d'une grande capacité de stockage sur les nœuds de serveur et d'une bande passante réseau élevée afin d'assurer des flux de données entrants et sortants appropriés pour chaque nœud, depuis un stockage qui ne réside pas nécessairement sur l'hôte. C'est essentiellement ce qui sous-tend la plupart des affirmations concernant le débit élevé et la faible latence. Supermicro AMD EPYC serveurs.
Plus de cœurs signifient plus de puissance !
Un autre facteur essentiel pour optimiser les capacités d'IA est qu'un nombre élevé de cœurs par processeur offre une prise en charge matérielle de ce que l'on appelle un UP (processeur unique). AMD le leadership de en nombre de noyaux (le AMD EPYC La famille 9004, qui prend en charge de 24 à 96 cœurs par exemple, offre de nombreuses fonctionnalités et avantages essentiels. Plus important encore, ces processeurs garantissent un accès mémoire uniforme à tous leurs cœurs. Cette caractéristique contribue au déterminisme, réduit les blocages et simplifie la conception et la fabrication de cartes mères pour serveurs hautes performances. De par leur conception, AMD EPYC L'architecture améliore les performances des charges de travail d'IA, offrant un accès optimisé au réseau, au stockage et au GPU.
Exemple concret : Supermicro H13 Système de stockage pétaflopique 1U
Le Supermicro Le système de stockage pétascale H13 illustre parfaitement ce que… EPYC Cette architecture offre des performances élevées pour le stockage défini par logiciel, le calcul en mémoire, le calcul haute performance (HPC) intensif en données, le cloud privé et public, et surtout les applications d'IA/ML. Ses spécifications comprennent les détails suivants :
- 16 échangeables à chaud EDSFF E3.S NVMe emplacements pour jusqu'à 480 To de stockage dans un châssis 1U
- Optionnel 4 CXL Modules d'extension de mémoire au format E3.S 2T plus 8 modules E3.S NVMe dispositifs de stockage
- Une 4ème génération AMD EPYC™ processeur — jusqu'à 96 cœurs
- 24 emplacements DIMM pour une capacité allant jusqu'à 6 To DDR5 mémoire
- 2 PCIe Conforme à la norme SFF 5.0 Open Compute Project (OCP) 3.0 AIOM machines à sous
- 2 demi-longueurs pleine hauteur PCIe 5 emplacements avec alimentation auxiliaire
- Alimentations à rendement de niveau titane
Le Supermicro H13 Ce système peut constituer un atout précieux pour tout centre de données où l'IA, le ML ou d'autres charges de travail gourmandes en calcul et en données nécessitent un accès au stockage haute performance et à faible latence (et en grande quantité).
Pourquoi AMD et Supermicro L'architecture serveur est optimale pour l'IA
NVMe a totalement bouleversé le paysage des serveurs et des clusters. NVMe À sa base, une architecture entièrement repensée devient possible. Elle permet au stockage de fonctionner à grande échelle et à grande vitesse aux côtés de processeurs, de cartes graphiques et de cartes réseau hautes performances, notamment avec le EDSFF Le format compact et la conception à socket unique permettent aux processeurs les plus performants d'exploiter pleinement les cartes réseau et le stockage, et de tirer parti des niveaux de parallélisme et de clustering les plus élevés pour le calcul haute performance, l'intelligence artificielle et d'autres solutions de nouvelle génération. L'équilibre entre performances et consommation énergétique, gage de durabilité, est optimisé, et la bande passante mémoire est doublée. AMD EPYC Le passage de la 3e à la 4e génération offre une meilleure prise en charge des charges de travail d'IA. Grâce à l'architecture monopuce, il est possible d'allouer en priorité d'autres ressources du processeur (comme le cache L3 et la bande passante mémoire) aux threads les plus sollicités afin d'améliorer les performances et de réduire la latence. Le paramétrage des threads est possible jusqu'au niveau matériel pour optimiser ces charges de travail. Il n'existe pas de solution plus performante, plus rapide ni plus efficace pour déployer l'IA et le ML sur de tels serveurs.