Aller au contenu principal

Supermicro NVIDIA et ses partenaires proposent des systèmes optimisés pour l'IA, le ML et bien plus encore.

Tirer le meilleur parti de l'accès et du transfert de données avancés pour accroître la productivité

Les entreprises modernes tirent des avantages concurrentiels considérables de l'utilisation d'applications avancées et du traitement des données dans leurs activités. Parmi celles-ci figurent les grands modèles de langage basés sur l'IA tels que ChatGPT, LLaMa, etc., les analyses d'apprentissage automatique fondées sur d'énormes ensembles de données d'entraînement et de données réelles, les modèles et simulations 3D et par éléments finis complexes, ainsi que d'autres applications gourmandes en données et en puissance de calcul.

Toutes ces charges de travail ont au moins un point commun : elles bénéficient grandement d’un accès accéléré au stockage, quel que soit le modèle hiérarchisé utilisé. C’est l’une des principales raisons pour lesquelles de nombreuses entreprises et fournisseurs de services se sont tournés vers les serveurs à GPU pour gérer les ensembles de données volumineux et complexes, ainsi que les charges de travail associées. Ces serveurs sont bien plus performants pour gérer ces charges de travail et peuvent exécuter ces tâches plus rapidement que les serveurs classiques dotés de configurations de stockage plus traditionnelles (par exemple, la RAM locale et le stockage interne). NVMe SSD, avec des niveaux de stockage supplémentaires sur le réseau local ou dans le cloud).

Le secret pour optimiser le débit réside dans la réduction de la latence et l'amélioration de la bande passante de stockage. Ces améliorations se traduisent directement par une productivité et des performances accrues, notamment grâce à des techniques d'E/S et de réseau intelligentes exploitant l'accès direct et distant à la mémoire, comme expliqué ci-après. Un entraînement des modèles et une exécution des tâches plus rapides permettent un déploiement plus rapide des applications d'IA et une mise en œuvre plus efficace, accélérant ainsi le retour sur investissement.

Accès direct à la mémoire et équivalents distants

L'accès direct à la mémoire (DMA) est utilisé pour accélérer les entrées/sorties depuis les débuts de l'informatique. Le DMA consiste en des transferts de données de mémoire à mémoire via un bus (ou une autre interface) entre deux périphériques. Il fonctionne en copiant une plage d'adresses mémoire directement de la mémoire de l'émetteur vers celle du récepteur (ou entre deux périphériques pour les transferts bidirectionnels). Cette fonctionnalité désactive le processeur et accélère le transfert en réduisant le nombre d'opérations de copie (le processeur n'ayant plus besoin de copier les données de l'émetteur dans sa mémoire, puis de les recopier vers celle du récepteur).

En effet, les performances DMA sur un système unique ne sont limitées que par la vitesse du bus (ou autre interface) qui relie les dispositifs d'émission et de réception impliqués dans un transfert de données. PCIe 4.0, soit 16 gigatransferts par seconde (GT/s), avec le double de cette quantité pour PCIe 5.0 (32 GT/s). Les débits de données sont naturellement plus faibles en raison des coûts d'encodage et de compression, mais la bande passante nominale pour ces deux PCIe Les versions offrent respectivement 64 Gbit/s (4.0) et 128 Gbit/s (5.0). C'est rapide !

L'accès direct à distance (RDMA) étend les capacités du DMA au sein d'un même ordinateur pour permettre la communication entre deux périphériques via une connexion réseau. Le RDMA repose généralement sur une interface de programmation (API) dédiée, qui interagit avec des matériels et logiciels réseau spécialisés afin d'offrir un maximum d'avantages similaires à ceux du DMA local, dans les limites des capacités de la technologie réseau sous-jacente.

Les GPU NVIDIA prennent en charge trois technologies de réseau de ce type, classées par ordre décroissant de vitesse et de coût (la plus rapide et la plus chère en premier) :

  • NVIDIA NVLink utilise des interfaces propriétaires et des technologies de commutation ultra-rapides pour accélérer les transferts de données entre les GPU sur un réseau haut débit. Il affiche actuellement les meilleures performances sur les benchmarks MLPerf Training v3.0 standard, toutes technologies confondues. Un seul GPU NVIDIA H100 Tensor Core prend en charge jusqu'à 18 connexions NVLink pour un débit maximal de 900 Gbit/s (7 fois la vitesse effective de...). PCIe 5.0).
  • InfiniBand est une norme de réseau à haut débit supervisée par la InfiniBand L'association professionnelle (IBTA) est largement déployée sur les réseaux à haute performance. Ses débits de données les plus élevés mesurés avoisinent (1,2 Tbps, ~154 GBps) en 2020 .
  • L'Ethernet est une technologie de réseau standard qui se décline en de nombreuses variantes, notamment le TbE (environ 125 Gbit/s), moins répandu, et le 400 GbE (50 Gbit/s), plus courant. Ses avantages résident dans son coût abordable, son déploiement étendu et sa familiarité dans de nombreux centres de données.

Mise en œuvre des GPU NVIDIA dans Supermicro Serveurs

Les technologies NVIDIA RDMA prennent en charge l'accès aux données via GPU sur les trois technologies réseau mentionnées précédemment. Chacune offre un compromis prix-performances différent : un coût plus élevé se traduit par une vitesse accrue et une latence réduite. Les entreprises peuvent choisir le type de connexion sous-jacent le mieux adapté à leur budget et à leurs besoins, sachant que chaque option représente une combinaison spécifique de prix et de performances. Lorsqu'une application d'IA ou de ML (et d'autres applications gourmandes en données et en calcul) s'exécute sur un tel serveur, elle peut exploiter l'architecture hiérarchisée du stockage GPU, dont les niveaux suivants sont disponibles (par ordre décroissant de performances, croissant par taille et capacité) :

  • 1er niveau : La mémoire GPU est le stockage de données le plus rapide, le plus cher et le plus petit (par exemple, le GPU Tensor H100 possède 188 Go de RAM HBM3).
  • Deuxième niveau : SSD locaux sur le PCIe Les bus sont les suivants en termes de vitesse, mais restent coûteux et offrent une capacité de 10 à 100 fois supérieure à celle d'un GPU haut de gamme.
  • 3e niveau : les serveurs de stockage distants sur le réseau local peuvent supporter plus de 1 000 fois la capacité des GPU qui y accèdent.

Les applications d'IA et d'apprentissage automatique nécessitant à la fois une faible latence et une bande passante élevée, le RDMA permet d'étendre les avantages locaux du DMA aux ressources réseau (sous réserve des connexions sous-jacentes). Cette fonctionnalité permet un accès rapide aux données externes via des transferts mémoire à mémoire entre périphériques (GPU d'un côté, périphérique de stockage de l'autre). En collaboration avec NVLink, InfiniBand L'adaptateur distant, via une interface Ethernet haut débit (par exemple, une variante Ethernet), transfère les données de la mémoire d'un système distant vers la mémoire d'un GPU local. NVIDIA Magnum IO fournit une plateforme d'accélération des E/S pour les centres de données, prenant en charge des E/S parallèles et intelligentes afin d'optimiser le stockage, le réseau et les communications multi-nœuds et multi-GPU pour les applications exigeantes.

Dans ses systèmes de serveurs GPU, Supermicro utilise les GPU NVIDIA et leurs méthodes d'accès associées. Celles-ci incluent le DMA local, le RDMA via son API, ainsi qu'un réseau haute performance via plusieurs cartes réseau et commutateurs prenant en charge les trois types de connexion. De plus, Supermicro Les serveurs GPU comprennent également un ou deux ASIC dédiés, appelés unités de traitement de données (DPU), pour prendre en charge les E/S accélérées que peuvent fournir les GPU. Ces unités déchargent les processeurs du serveur des tâches d'E/S supplémentaires. De même, ces serveurs peuvent prendre en charge jusqu'à huit cartes réseau par serveur afin de permettre un accès soutenu et étendu à la bande passante réseau et ainsi optimiser les transferts entre les périphériques. PCIe Les appareils 5.0 et les appareils RDMA. Cela garantit l'absence de goulots d'étranglement, même sur les appareils 5.0. PCIe bus, et contribuer à maximiser le débit et à minimiser la latence.

Les implications en termes de performances sont très positives. Les gains de performance obtenus grâce à l'accélération des E/S NVIDIA varient de 20 % à 30 %, voire jusqu'à deux fois plus pour les charges de travail intensives. Il est également essentiel de concevoir les applications de manière à tirer pleinement parti du stockage afin d'éviter les pertes d'efficacité. Par conséquent, ces applications doivent être configurées pour effectuer des points de contrôle réguliers. Dans le cas contraire, elles devront redémarrer depuis leur point de départ si un nœud tombe en panne ou est bloqué pendant un certain temps. L'utilisation de points de contrôle garantit que la progression ne sera rétablie qu'à l'instantané le plus récent en cas de panne de nœud ou d'autre événement bloquant (ces fonctionnalités peuvent être disponibles auprès d'outils de protection des données locaux et réseau et n'ont généralement pas besoin d'être intégrées spécifiquement à l'application).

Globalement, le principal avantage des serveurs basés sur DPU et GPU pour l'IA, le ML et autres charges de travail exigeantes (modèles 3D ou par éléments finis, simulations, etc.) réside dans la séparation des composants d'infrastructure et des activités applicatives. Ceci permet d'économiser 20 à 30 % des cycles CPU actuellement consacrés à l'accès et à la gestion de l'infrastructure. En déchargeant les fonctions d'E/S sur le matériel, on libère des ressources et on accélère l'accès.