どうやってSupermicro AMD サーバーはAIソリューション向けに高スループットと低遅延を実現します

AIには低遅延ストレージが必要：今すぐ入手Supermicro サーバーはAMD EPYC™ CPU

現代の企業では、現在、全面的な変革が進行中です。これは、いわば「AI革命」と呼ばれるものを中心に展開されています。組織は、高度なAIまたはMLベースのアプリケーションを活用することで、競争優位性と重要な洞察を得ています。こうしたワークロードの代表的な例としては、ChatGPT、LLaMaなどを含むAIベースの大規模言語モデル（LLM）や、膨大なデータに基づくMLモデルなどが挙げられます。トレーニングデータセット、複雑な3Dモデル、アニメーションと仮想現実、シミュレーション、その他データと計算を大量に消費するアプリケーション。

AIクラスターのGPU駆動の中枢部を収容する、華やかなラックマウント型ハードウェアの背後には、クラスターの生産性を維持するために、高スループットかつ低遅延のストレージシステムも必要です。これらは、モデルのトレーニングや、AI、機械学習、および同様のワークロードをサポートするために必要な複雑なシミュレーションや分析を実行するために、膨大な量のデータを供給するチャネルを支えています。実際、AIの成長を活用しようとする企業が直面する最大の課題の1つは、ボトルネックにならないストレージソリューションを見つけることです。ハイパフォーマンス CPU、GPU、またはデータベースクラスタ。

聖杯：高スループット、低遅延

誰もがAIブームに乗ろうとしており、それに対応するワークロードサポートを求めている。この決して突飛ではない夢を実現するには、要求の厳しいワークロードをサポートするように最適化されたサーバーアーキテクチャが絶対に必要だ。 AMD 建設したEPYC サーバーCPU（現在9004製品ファミリーの第4世代）は、単一のCPUでサーバーハードウェアとソフトウェアから最高のパフォーマンスを引き出します。実際、第4世代はAMD EPYC™ ファミリーには以下の利点があります。

ソケット性能およびコアあたりの性能において業界をリードし、5nmコアコンピューティングダイ（CCD）に最大96個のZen 4コアを搭載可能。
リーダーシップメモリー帯域幅と容量、最大6TBの12チャンネルDDR5 メモリーソケットごと
IOにおけるリーダーシップ、最大128レーンPCIe 5.0 アクセスCXL メモリーデバイス、SSD、NIC、GPUなど

最高のパフォーマンス、効率性、持続可能性を目指してゼロから設計されたAMD EPYCベースのサーバーは、CPUを最大限に活用するために必要なバランス調整を管理できます。メモリーGPU、ストレージ、ネットワークインターフェース。実際、 AMD EPYC アーキテクチャはスレッドを優先し、集中的なワークロードが排他的に使用できるようにL3キャッシュをロックインします。 PCIe レーンは、一般的なI/Oスケジューリングや競合による遅延の影響を受けません。

ファイルシステムのサポートとボトルネックの回避

分散モードや並列モードでは、分散ファイルシステムの場合、データは複数のソースから到着し、そのデータはさまざまなプロトコルやアプリケーションで大規模に処理される必要があります。一般的なストレージシステムでは、メタデータがすぐにボトルネックになります。実際、システムに流せるデータ量は、メタデータがサポートできる量に限られます。データ量が増加するにつれて、メタデータを処理する能力も比例して拡張する必要があります。 Supermicro AMD サーバーはWEKA 分散ストレージをサポートしています。これは比例スケーリングを提供するように設計されています。そのため、データ容量とサービスを追加しても、 Supermicro システムでもクラスタでも、I/Oパフォーマンスは衰えることなく維持されます。パフォーマンスは、8ノード（WEKAクラスタの最小ノード数）から数百ノードまで、直線的に拡張されます。これは、ボトルネックを解消し、最も負荷の高いAI/ML（およびその他の類似）ワークロードにも対応することで実現されます。

しかし、サーバーとクラスターの最適化には、スケーラブルな環境を提供する以上のことが必要です。ハイパフォーマンス低遅延ストレージ。システム全体を設計する場合、単一の機能や特性だけに焦点を当てることはできません。アーキテクチャ全体が連携して、ターゲットとするワークロードをサポートする必要があります。したがって、AIアプリケーション向けのシステムを設計するということは、データ集約型アプリケーションを迅速かつ満足のいく形で処理するために、ゼロから構築されたランタイム環境を作成することを意味します。これは、あらゆる面でサーバーのパフォーマンスが向上します。推論分析機能と全体的なI/O機能も重要です。AI（または類似の）ワークロードを処理する際にサーバーがデータをどのように扱うかは、特定のノードへのデータ入出力トラフィックと同様に重要です。高度な並列処理をサポートすることが不可欠であるため、そのようなプログラムの実行に伴うすべての並列サブタスクを処理するためのコア数の多さが極めて重要です。

もう一つの重要な特徴は、 PCIe 5.0車線AMD EPYCベースのサーバー（単一ソケットで最大128）。これにより、サーバーはより多くのSSD、NIC、GPU、さらには拡張されたメモリー CXL デバイス。これらはすべて、要求の厳しいAIやML（または類似の）ワークロードを処理する上で重要な役割を果たします。具体的には以下のとおりです。

最大32 PCIe 高速ローカルストレージ向け第5世代SSD
データ範囲と到達範囲を拡張するために、ストレージやその他の専用サーバーなどの他のノードにサーバーを接続するための多数の高速ネットワークインターフェース。
特殊なタスクやワークロードを処理するための多数のGPU

一般的に、サーバーノードに十分なストレージ容量と高いネットワーク帯域幅を用意し、ホスト上に存在しない可能性のあるストレージから各ノードへの適切なレベルのデータ入出力を提供することが重要です。これが、ここで述べられている高スループットと低レイテンシに関するほとんどの記述の根底にあるものです。 Supermicro AMD EPYC サーバー。

コア数が増えるほど「パワーアップ」！

AI機能を最適化するためのもう一つの重要な要素は、CPUあたりのコア数が多いほど、UP（ユニプロセッサ、またはシングルプロセッサ）と呼ばれるものに対するハードウェアレベルのサポートが提供されることである。 AMDコアカウントにおけるリーダーシップ（ AMD EPYC 9004ファミリーは、例えば24～96コアをサポートしており、数多くの必要な機能と利点を提供します。最も重要なのは、このようなCPUは均一なメモリーすべてのコアへのアクセス。この機能は決定性を高め、ブロッキングを減らし、高性能なサーバーマザーボードの設計と構築を容易にします。設計上、 AMD EPYC このアーキテクチャは、ネットワーク、ストレージ、GPUへのアクセスを最適化することで、AIワークロードのパフォーマンスを向上させます。

具体例を挙げると： Supermicro H13 1Uペタスケールストレージシステム

のSupermicro H13ペタスケールストレージシステムは、 EPYC アーキテクチャは、ソフトウェア定義ストレージの高密度化、メモリーコンピューティング、データ集約型HPC、民間および公共クラウドそして特に、AI/MLアプリケーション向けです。仕様には以下の詳細が含まれます。

16個のホットスワップEDSFF E3.S NVMe 1Uシャーシに最大480TBのストレージに対応するスロットを搭載
オプション4 CXL E3.S 2Tフォームファクターメモリー拡張モジュールと8つのE3.S NVMe ストレージデバイス
第4世代AMD EPYC™ プロセッサ - 最大96コア
最大6TBの24個のDIMM DDR5 メモリー
2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF準拠AIOM スロット
2枚のフルハイトハーフサイズPCIe 補助電源付き5.0スロット
チタンレベルの効率性を誇る電源装置

のSupermicro H13 このシステムは、AI、ML、その他の計算およびデータ集約型のワークロードを必要とするあらゆるデータセンターにとって非常に貴重な追加機能となり得る。ハイパフォーマンス低遅延のストレージアクセス（しかも大容量）。

なぜAMD そしてSupermicro AIに最適なサーバーアーキテクチャ

NVMe サーバーとクラスターのゲームを完全に変えました。 NVMe その基盤となる部分では、完全に再設計されたアーキテクチャが可能になります。これにより、ストレージは大規模かつ高速に動作し、ハイパフォーマンス CPU、GPU、NIC、特にEDSFF フォームファクター。シングルソケット設計により、最高クラスのCPUがネットワークカードとストレージを最大限に活用し、HPC、AI、その他の次世代ソリューション向けに可能な限り最高のレベルの並列処理とクラスタリング機能を利用できます。パフォーマンスと電力のバランスを取り、持続可能性をサポートします。メモリー帯域幅は2倍になりますAMD EPYC 第3世代から第4世代へ移行し、AIワークロードもより適切にサポートしています。シングルチップアーキテクチャを扱う場合、他のCPUリソース（L3キャッシュなど）を割り当てることができます。メモリーパフォーマンスを向上させ、レイテンシを削減するために、帯域幅を優先的に高負荷スレッドに割り当てます。このようなワークロードをサポートするために、スレッドをハードウェアレベルまで調整できます。このようなサーバーを使用すること以上に、AIと機械学習を効率的に活用できる方法はありません。

AIインフラストラクチャ

Data Center Building Block Solutions® (DCBBS)

AI ファクトリー

エッジAI

AIストレージ

業界別AIソリューション

NVIDIAソリューション

AMD ソリューション

インテル ソリューション

Arm AGIソリューションズ

ラックマウントサーバー

デュアルプロセッサー

シングルプロセッサー

マルチプロセッサー

GPUサーバー

8U/10U GPUライン

4U/5U GPUライン

2U GPUライン

1U GPUライン

Twin サーバー

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

ブレード・サーバー

SuperBlade®

MicroBlade®

MicroCloud

ストレージ・サーバー

すべてのストレージシステム

オールフラッシュ NVMe

上部から出し入れする収納

JBOF

ペタスケール Grace ストレージ

エンタープライズ向けに最適化されたストレージ

JBODストレージエンクロージャー

マザーボード

サーバーボード

ワークステーションボード

組み込み／IoTボード

デスクトップ／ゲーミングボード

マザーボードマトリックス

グローバルSKU

筐体

1Uシャーシ

2Uシャーシ

3Uシャーシ

4U / タワーシャーシ

ミドルタワー／ミニタワー

組み込み／IoTシャーシ

移動式ラック／ドライブキット

JBODストレージエンクロージャー

グローバルSKU

SuperRack®

ラック統合サービス

アクセサリー

ケーブルマトリックス

ライザーカードマトリックス

ストレージAOCマトリックス

電源供給マトリックス

ヒートシンクマトリックス

システムファンマトリックス

移動式ラック／ドライブキット

フロントシャーシベゼル

ストレージ、I/O、セキュリティ

エッジAI およびIoTシステム

コンパクトエッジシステム

コンパクトエッジサーバー

ラックマウント型エッジサーバー

組み込みコンポーネント

組み込みマザーボード

組み込みシャーシ

スイッチ

アダプター

SuperWorkstations

液冷式AI開発プラットフォーム

シングルプロセッサ

デュアルプロセッサ

デスクトップ

インテルソリューション

クラウド仮想化

クラウドサービスプロバイダー（CSP）

IoT エッジソリューション