Zum Hauptinhalt springen

Wie Supermicro AMD Server hohen Durchsatz und niedrige Latenz für KI-Lösungen liefern

KI erfordert latenzarmen Speicher: Jetzt verfügbar mit Supermicro Servern basierend auf AMD EPYC™ CPUs

In modernen Unternehmen findet derzeit eine umfassende Umgestaltung statt. Im Mittelpunkt steht das, was man die "KI " nennen könnte. Unternehmen erhalten Wettbewerbsvorteile und wichtige Erkenntnisse, wenn sie fortschrittliche, KI oder ML-basierte Anwendungen einsetzen. Zu den führenden Beispielen für solche Workloads gehören KI große Sprachmodelle (LLMs) wie ChatGPT, LLaMa und andere sowie ML-Modelle, die auf riesigen Trainingsdatensätzen, komplexen 3D-Modellen, Animationen und virtueller Realität, Simulationen und anderen daten- und rechenintensiven Anwendungen basieren.

Hinter der auffälligen Rack-Hardware, die die GPU-gesteuerten Gehirne jedes KI beherbergt, müssen Sie auch Speichersysteme mit hohem Durchsatz und niedriger Latenz finden, um den Cluster produktiv zu halten. Diese unterstützen die Kanäle, über die riesige Datenmengen zum Trainieren von Modellen und zur Durchführung komplexer Simulationen und Analysen eingespeist werden, die zur Unterstützung von KI, ML und ähnlichen Workloads erforderlich sind. Eine der größten Herausforderungen für Unternehmen, die vom Wachstum der KI profitieren wollen, besteht darin, eine Speicherlösung zu finden, die ihre Hochleistungs-CPUs, GPUs oder Datenbankcluster nicht in die Enge treibt.

Der Heilige Gral: Hoher Durchsatz, niedrige Latenzzeit

Alle setzen auf KI und suchen nach entsprechender Workload-Unterstützung. Um diesen nicht ganz so verrückten Traum zu verwirklichen, ist eine Serverarchitektur, die für anspruchsvolle Workloads optimiert ist, absolut unerlässlich. AMD hat seine EPYC Server-CPUs – derzeit in der vierten Generation der Produktfamilie 9004 – entwickelt, um die beste Leistung aus Server-Hardware und -Software mit einer einzigen CPU herauszuholen. Tatsächlich bietet die AMD EPYC™ Familie der 4. Generation folgende Vorteile:

  • Führend bei Sockel- und Pro-Core-Leistung mit bis zu 96 Zen 4 Cores in 5-nm-Core Compute Dies (CCDs)
  • Führend bei Speicherbandbreite und -kapazität, mit 12 Kanälen für bis zu 6 TB DDR5-Speicher pro Sockel
  • Führend im Bereich IO, mit bis zu 128 Lanes für PCIe 5.0-Zugriff für CXL-Speichergeräte, SSDs, NICs, GPUs und mehr

Von Grund auf für maximale Leistung, Effizienz und Nachhaltigkeit konzipiert, können die AMD EPYC-basierten Server die notwendigen Balanceakte meistern, um das Maximum aus CPUs, Arbeitsspeicher, GPUs, Speicher und Netzwerkschnittstellen herauszuholen. Tatsächlich priorisiert die AMD EPYC-Architektur Threads, sodass der L3-Cache für intensive Workloads exklusiv genutzt werden kann und PCIe-Lanes keinen typischen E/A-Planungs- und Konfliktverzögerungen unterliegen.

Dateisystemunterstützung und Vermeidung von Engpässen

In verteilten und parallelen Modi gelangen Daten für verteilte Dateisysteme aus mehreren Quellen, wo sie im großen Maßstab über diverse Protokolle und für unterschiedliche Anwendungen verarbeitet werden müssen. In einem typischen Speichersystem werden Metadaten schnell zu einem Engpass. Tatsächlich kann nur so viel Daten durch das System geleitet werden, wie die Metadaten unterstützen. Mit zunehmender Datenmenge muss die Fähigkeit zur Metadatenverarbeitung proportional skalieren. Supermicro AMD Server unterstützen WEKA Distributed Storage: Es ist so konzipiert, dass es eine solche proportionale Skalierung bietet. Dies erklärt, warum die I/O-Leistung auch bei der Erweiterung eines Supermicro Systems oder Clusters um zusätzliche Datenkapazität und Dienste ungebrochen bleibt. Die Leistung skaliert linear von acht (minimale Knotenanzahl für einen WEKA-Cluster) bis zu Hunderten von Knoten. Dies geschieht durch die Eliminierung von Engpässen und die Unterstützung selbst der anspruchsvollsten und rechenintensivsten KI/ML- (und ähnlicher) Workloads.

Zur Optimierung von Servern und Clustern gehört jedoch mehr als die Bereitstellung eines skalierbaren, leistungsstarken Speichers mit niedriger Latenz. Bei der Entwicklung eines Gesamtsystems darf der Schwerpunkt nicht ausschließlich auf einem einzigen Merkmal oder einer einzigen Funktion liegen. Die gesamte Architektur muss zusammenarbeiten, um die angestrebten Arbeitslasten zu unterstützen. Ein System für KI zu entwerfen bedeutet also, eine Laufzeitumgebung zu schaffen, die von Grund auf so aufgebaut ist, dass datenintensive Anwendungen schnell und zufriedenstellend verarbeitet werden können. Dies profitiert von einer umfassenden Serverleistung für Inferenzen und Analysen sowie von allgemeinen IO-Funktionen. Was der Server mit den Daten macht, während er eine KI (oder ähnliche) Arbeitslast verarbeitet, ist ebenso wichtig wie der Datenverkehr, der in einen bestimmten Knoten ein- und ausgeht. Die Unterstützung hochgradig paralleler Aktivitäten ist von entscheidender Bedeutung, so dass eine hohe Anzahl von Kernen zur Bewältigung aller parallelisierten Teilaufgaben, die mit der Ausführung solcher Programme verbunden sind, von entscheidender Bedeutung ist.

Ein weiteres kritisches Merkmal ist die Anzahl der PCIe 5.0 Lanes in AMD EPYC-basierten Servern (bis zu 128 für einen einzelnen Sockel). Dies ermöglicht es Servern, größere Sammlungen von SSDs, NICs, GPUs und sogar erweiterten Speicher-CXL-Geräten aufzunehmen. All diese spielen eine wesentliche Rolle bei der Bewältigung anspruchsvoller KI- und ML- (oder ähnlicher) Workloads, darunter:

  • Bis zu 32 PCIe Gen5 SSDs für lokalen Hochgeschwindigkeitsspeicher
  • Eine große Anzahl von Hochgeschwindigkeitsnetzschnittstellen zur Verbindung von Servern mit anderen Knoten, wie Speicher- oder anderen spezialisierten Servern, um den Datenumfang und die Reichweite zu erweitern
  • Eine große Anzahl von GPUs für die Bewältigung spezieller, gezielter Aufgaben oder Workloads

Im Allgemeinen ist es wichtig, über viel Speicherplatz auf Serverknoten und eine hohe Netzwerkbandbreite zu verfügen, um für jeden dieser Knoten angemessene Daten-Ingress- und -Egress-Raten von Speichern bereitzustellen, die sich möglicherweise nicht auf dem Host befinden. Dies ist im Wesentlichen die Grundlage der meisten Aussagen hier bezüglich des hohen Durchsatzes und der geringen Latenz für Supermicro AMD EPYC Server.

Mehr Kerne bedeuten mehr "Oomph!"

Ein weiterer kritischer Faktor für optimierte KI-Fähigkeiten ist, dass eine hohe Kernanzahl pro CPU Hardware-Unterstützung für einen sogenannten UP (Uni- oder Einzelprozessor) bietet. AMDs Führungsposition bei der Kernanzahl (die AMD EPYC 9004 Familie unterstützt beispielsweise 24 bis 96 Kerne) verleiht zahlreiche notwendige Fähigkeiten und Vorteile. Am wichtigsten ist, dass solche CPUs einen einheitlichen Speicherzugriff für alle ihre Kerne bieten. Diese Funktion unterstützt die Determinismus, reduziert Blockierungen und erleichtert die Entwicklung und den Bau von Server-Motherboards für hohe Leistung. Konzeptbedingt steigert die AMD EPYC-Architektur die Leistung von KI-Workloads und bietet optimierten Netzwerk-, Speicher- und GPU-Zugriff.

Ein Beispiel hierfür: Supermicro H13 1U Petascale Speichersystem

Das Supermicro H13 Petascale Storage System veranschaulicht hervorragend, wozu die EPYC-Architektur fähig ist. Es bietet hohe Dichten für softwaredefinierten Speicher, In-Memory Computing, datenintensive HPC, private und öffentliche Clouds und – insbesondere – KI/ML-Anwendungen. Seine Spezifikationen umfassen die folgenden Details:

  • 16 Hot-Swap EDSFF E3.S NVMe-Steckplätze für bis zu 480 TB Speicherkapazität in einem 1U-Gehäuse
  • Optional 4 CXL E3.S 2T Formfaktor Speichererweiterungsmodule plus 8 E3.S NVMe Speichergeräte
  • Ein AMD EPYC™ Prozessor der 4. Generation – bis zu 96 Kerne
  • 24 DIMMs für bis zu 6 TB DDR5-Speicher
  • 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF-kompatible AIOM-Steckplätze
  • 2 PCIe 5.0-Steckplätze voller Höhe und halber Länge mit zusätzlicher Stromversorgung
  • Titanium-Level-Effizienz-Netzteile

Das Supermicro H13-System kann eine unschätzbare Ergänzung für jedes Rechenzentrum sein, in dem KI, ML oder andere rechen- und datenintensive Workloads einen hochleistungsfähigen, latenzarmen Speicherzugriff (und davon reichlich) benötigen.

Warum die AMD- und Supermicro-Serverarchitektur optimal für KI ist

NVMe hat das Spiel im Server- und Clusterbereich komplett verändert. Mit NVMe als Basis wird eine komplett überarbeitete Architektur möglich. Dies ermöglicht es dem Speicher, in großem Umfang und mit hoher Geschwindigkeit neben Hochleistungs-CPUs, GPUs und NICs zu arbeiten, insbesondere mit dem EDSFF-Formfaktor. Das Single-Sockel-Design ermöglicht es erstklassigen CPUs, Netzwerkkarten und Speicher vollständig auszulasten und die höchstmöglichen Parallelisierungs- und Clustering-Fähigkeiten für HPC, KI und andere Lösungen der nächsten Generation zu nutzen. Um Leistung und Energieverbrauch im Sinne der Nachhaltigkeit auszubalancieren, verdoppelt sich die Speicherbandbreite von der AMD EPYC 3. Generation zur 4. Generation, was auch KI-Workloads besser unterstützt. Bei der Single-Chip-Architektur können Sie andere CPU-Ressourcen (z. B. L3-Cache und Speicherbandbreite) bevorzugt hochbeanspruchten Threads zuweisen, um die Leistung zu verbessern und die Latenz zu reduzieren. Sie können Threads so abstimmen, dass sie solche Workloads bis auf die Hardware-Ebene unterstützen. Es gibt keine bessere, schnellere oder effizientere Möglichkeit, KI und ML einzusetzen, als auf solchen Servern.