Zum Hauptinhalt springen

Wie Supermicro AMD Server liefern hohen Durchsatz und geringe Latenz für KI Lösungen

KI Erfordert Speicher mit geringer Latenz: Jetzt erhältlich mit Supermicro Server basierend auf AMD EPYC™ CPUs

In modernen Unternehmen findet derzeit ein kompletter Umbruch statt. Im Mittelpunkt steht etwas, das man als „ KI Revolution.“ Organisationen erlangen Wettbewerbsvorteile und wichtige Erkenntnisse, wenn sie fortschrittliche Technologien einsetzen. KI - oder ML-basierte Anwendungen, die ausgeführt werden. Zu den wichtigsten Beispielen für solche Arbeitslasten gehören: KI -basierte große Sprachmodelle (LLMs), zu denen ChatGPT, LLaMa und andere gehören, sowie ML-Modelle, die auf riesigen Trainingsdatensätzen, komplexen 3D-Modellen, Animationen und virtueller Realität, Simulationen und anderen daten- und rechenintensiven Anwendungen basieren.

Hinter der auffälligen, rackmontierten Hardware, die das GPU-gesteuerte Gehirn jedes beliebigen Systems beherbergt KI Um einen produktiven Cluster zu gewährleisten, benötigen Sie außerdem Speichersysteme mit hohem Durchsatz und geringer Latenz. Diese unterstützen die Kanäle, die die riesigen Datenmengen für das Training von Modellen und die Durchführung komplexer Simulationen und Analysen bereitstellen. KI ML und ähnliche Arbeitslasten. Tatsächlich ist eine der größten Herausforderungen für Unternehmen, die vom Wachstum von ML profitieren wollen, die Entwicklung von ML und ähnlichen Anwendungen. KI Sie suchen nach einer Speicherlösung, die ihre leistungsstarken CPUs, GPUs oder Datenbankcluster nicht ausbremst.

Der Heilige Gral: Hoher Durchsatz, geringe Latenz

Alle springen auf den Zug auf KI Der Trend geht weiter, und es wird nach entsprechender Workload-Unterstützung gesucht. Um diesen gar nicht so abwegigen Traum zu verwirklichen, ist eine Serverarchitektur, die für die Unterstützung anspruchsvoller Workloads optimiert ist, absolut unerlässlich. AMD hat es gebaut EPYC Server-CPUs – aktuell in der vierten Generation der Produktfamilie 9004 – erzielen mit einer einzigen CPU die beste Leistung aus Serverhardware und -software. Tatsächlich ist die 4. Generation AMD EPYC™ Familie bietet folgende Vorteile:

  • Marktführerschaft bei Sockel- und Kernleistung mit bis zu 96 Zen 4-Kernen in 5-nm-Core-Compute-Dies (CCDs).
  • Führend in Bezug auf Speicherbandbreite und -kapazität, mit 12 Kanälen für bis zu 6 TB DDR5 Speicher pro Sockel
  • Marktführerschaft im Bereich Informationstechnologie mit bis zu 128 Spuren PCIe 5.0-Zugriff für CXL Speichergeräte, SSDs, Netzwerkkarten, GPUs und mehr

Das Gerät wurde von Grund auf für maximale Leistung, Effizienz und Nachhaltigkeit konzipiert. AMD EPYC -basierte Server können die notwendigen Balanceakte vollziehen, um CPUs, Arbeitsspeicher, GPUs, Speicher und Netzwerkschnittstellen optimal zu nutzen. Tatsächlich AMD EPYC Die Architektur priorisiert Threads, sodass der L3-Cache für intensive Arbeitslasten exklusiv reserviert werden kann. PCIe Lanes unterliegen nicht den üblichen Verzögerungen durch E/A-Planung und Konflikte.

Dateisystemunterstützung und Vermeidung von Engpässen

In verteilten und parallelen Speichersystemen treffen Daten aus verschiedenen Quellen ein und müssen dort in großem Umfang über verschiedene Protokolle und für unterschiedliche Anwendungen verarbeitet werden. In einem typischen Speichersystem werden Metadaten schnell zum Flaschenhals. Tatsächlich kann das System nur so viele Daten verarbeiten, wie die Metadaten zulassen. Mit zunehmender Datenmenge muss auch die Fähigkeit zur Metadatenverarbeitung proportional skalieren. Supermicro AMD Die Server unterstützen WEKA Distributed Storage : Die Architektur ermöglicht eine solche proportionale Skalierung. Das erklärt, warum trotz der Hinzufügung von mehr Datenkapazität und Diensten zu einem Supermicro Unabhängig davon, ob es sich um ein System oder einen Cluster handelt, bleibt die I/O-Leistung unverändert hoch. Die Leistung skaliert linear von acht (Mindestanzahl an Knoten für einen WEKA-Cluster) bis zu Hunderten von Knoten. Dies wird durch die Beseitigung von Engpässen und die Unterstützung selbst der anspruchsvollsten Systeme erreicht. KI /ML (und andere ähnliche) Workloads.

Doch die Optimierung von Servern und Clustern umfasst mehr als nur skalierbaren, leistungsstarken und latenzarmen Speicher. Bei der Systementwicklung darf der Fokus nicht ausschließlich auf einer einzelnen Funktion liegen. Die gesamte Architektur muss reibungslos zusammenarbeiten, um die angestrebten Workloads zu unterstützen. Daher ist die Systementwicklung für KI Anwendungen zu entwickeln bedeutet, eine Laufzeitumgebung zu schaffen, die von Grund auf für die schnelle und zufriedenstellende Verarbeitung datenintensiver Anwendungen ausgelegt ist. Dies profitiert von einer umfassenden Serverleistung für Inferenz und Analysen sowie von hohen E/A-Kapazitäten. Was der Server mit den Daten während der Verarbeitung macht, ist entscheidend. KI Die Arbeitslast (oder eine ähnliche) ist genauso wichtig wie der Datenverkehr zu und von einem Knoten. Die Unterstützung hochgradig paralleler Prozesse ist unerlässlich, daher ist eine hohe Anzahl an Kernen zur Bewältigung aller parallelisierten Teilaufgaben, die die Ausführung solcher Programme beinhalten, entscheidend.

Ein weiteres entscheidendes Merkmal ist die Anzahl der PCIe 5,0 Fahrspuren in AMD EPYC -basierte Server (bis zu 128 pro Sockel). Dadurch können Server größere Sammlungen von SSDs, Netzwerkkarten, GPUs und sogar erweitertem Speicher aufnehmen. CXL Alle diese Geräte spielen eine wesentliche Rolle bei der Bewältigung anspruchsvoller Aufgaben. KI und ML-Workloads (oder ähnliche), einschließlich:

  • Bis zu 32 PCIe Gen5 SSDs für schnellen lokalen Speicher
  • Eine große Anzahl von Hochgeschwindigkeits-Netzwerkschnittstellen verbindet Server mit anderen Knoten, wie z. B. Speichern oder anderen spezialisierten Servern, um den Datenumfang und die Reichweite zu erweitern.
  • Große Anzahl von GPUs zur Bearbeitung spezialisierter, zielgerichteter Aufgaben oder Arbeitslasten

Generell ist es wichtig, über ausreichend Speicherplatz auf den Serverknoten und eine hohe Netzwerkbandbreite zu verfügen, um einen angemessenen Datenaustausch für jeden Knoten zu gewährleisten, auch wenn sich der Datenspeicher nicht auf dem Host befindet. Dies ist im Wesentlichen die Grundlage für die meisten Aussagen zu hohem Durchsatz und geringer Latenz. Supermicro AMD EPYC Server.

Mehr Kerne bedeuten mehr „Power!“

Ein weiterer entscheidender Faktor für die Optimierung KI Die Stärke liegt darin, dass eine hohe Anzahl von Kernen pro CPU die Hardware-Unterstützung für einen sogenannten UP (Uni- oder Einzelprozessor) bietet. AMD Die Führungsrolle von ' bei der Kernanzahl (die AMD EPYC Die Prozessorfamilie 9004 unterstützt beispielsweise 24 bis 96 Kerne und bietet dadurch zahlreiche wichtige Funktionen und Vorteile. Am wichtigsten ist, dass diese CPUs einen einheitlichen Speicherzugriff für alle Kerne ermöglichen. Diese Eigenschaft trägt zur Deterministik bei, reduziert Blockierungen und vereinfacht die Entwicklung und den Bau von Server-Motherboards für hohe Leistung. AMD EPYC Architektur fördert KI Workload-Performance mit optimiertem Netzwerk-, Speicher- und GPU-Zugriff.

Beispiel gefällig? Supermicro H13 1U Petascale-Speichersystem

Der Supermicro H13 Petascale-Speichersystem ist ein hervorragendes Beispiel dafür, was das EPYC Die Architektur kann das leisten. Sie bietet hohe Dichten für softwaredefinierten Speicher, In-Memory-Computing, datenintensive HPC-Anwendungen, private und öffentliche Cloud-Lösungen und – insbesondere – KI /ML-Anwendungen. Die Spezifikationen umfassen folgende Details:

  • 16 Hot-Swap EDSFF E3.S NVMe Steckplätze für bis zu 480 TB Speicher in einem 1U-Gehäuse
  • Optional 4 CXL E3.S 2T-Formfaktor-Speichererweiterungsmodule plus 8 E3.S NVMe Speichermedien
  • Ein 4. Generation AMD EPYC™ Prozessor – bis zu 96 Kerne
  • 24 DIMMs für bis zu 6 TB DDR5 Erinnerung
  • 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF-konform AIOM Spielautomaten
  • 2 volle Höhe, halbe Länge PCIe 5.0 Steckplätze mit Hilfsstromversorgung
  • Netzteile mit Titan-Effizienz

Der Supermicro H13 Das System kann eine unschätzbare Ergänzung für jedes Rechenzentrum sein, in dem KI Für maschinelles Lernen oder andere rechen- und datenintensive Workloads wird ein leistungsstarker Speicherzugriff mit geringer Latenz (und zwar in großen Mengen) benötigt.

Warum AMD Und Supermicro Die Serverarchitektur ist optimal für KI

NVMe hat die Server- und Clusterwelt völlig verändert. NVMe Im Kern wird eine komplett überarbeitete Architektur möglich. Sie ermöglicht es, Speicherlösungen in großem Umfang und mit hoher Geschwindigkeit parallel zu leistungsstarken CPUs, GPUs und Netzwerkkarten zu betreiben, insbesondere mit der EDSFF Formfaktor. Das Single-Socket-Design ermöglicht es leistungsstarken CPUs, Netzwerkkarten und Speicher voll auszulasten und die höchstmöglichen Parallelitäts- und Clustering-Fähigkeiten für HPC zu nutzen. KI und andere Lösungen der nächsten Generation. Um Leistung und Energieverbrauch im Sinne der Nachhaltigkeit in Einklang zu bringen, verdoppelt sich die Speicherbandbreite von AMD EPYC 3. Generation zu 4. Generation, was auch eine bessere Unterstützung bietet KI Bei Single-Chip-Architekturen können Sie andere CPU-Ressourcen (z. B. L3-Cache und Speicherbandbreite) bevorzugt Threads mit hohem Ressourcenbedarf zuweisen, um die Leistung zu verbessern und die Latenz zu reduzieren. Sie können Threads bis auf Hardwareebene optimieren, um solche Arbeitslasten zu unterstützen. Es gibt keine bessere, schnellere oder effizientere Methode, um … KI und ML funktioniert besser auf solchen Servern.