本文へスキップ

Supermicro AMDサーバーがAIソリューション向けに高スループットと低遅延を実現する方法

AIには低遅延ストレージが必要:AMD EPYC™ CPUベースのSupermicroサーバーで今すぐ実現

現代の企業では、完全な変革が進行中です。その中心となっているのが「AI革命」です。先進的なAIやMLベースのアプリケーションを活用することで、企業は競争上の優位性や重要な洞察を得ています。そのようなワークロードの代表的な例として、ChatGPT、LLaMaなどを含むAIベースの大規模言語モデル(LLM)、膨大なトレーニングデータセットに基づくMLモデル、複雑な3Dモデル、アニメーション、バーチャルリアリティ、シミュレーション、その他のデータや計算負荷の高いアプリケーションが挙げられます。

AIクラスタのGPU駆動の頭脳を格納する派手なラックマウントハードウェアの背後には、クラスタの生産性を維持するための高スループット、低レイテンシのストレージシステムも必要です。これらのストレージは、AI、ML、および同様のワークロードをサポートするために必要な、モデルを訓練し、複雑なシミュレーションと分析を実行するために大量のデータを供給するチャネルをサポートします。実際、AIの成長を活用しようとする企業が直面する最大の課題の1つは、高性能CPU、GPU、データベース・クラスタのボトルネックにならないストレージ・ソリューションを見つけることです。

聖杯高スループット、低レイテンシー

誰もがAIの波に乗り、それに対応するワークロードサポートを求めています。この決して夢物語ではない目標を実現するためには、要求の厳しいワークロードをサポートするために最適化されたサーバーアーキテクチャが不可欠です。AMDは、単一CPUでサーバーハードウェアとソフトウェアから最高の性能を引き出すために、EPYCサーバーCPU(現在、9004製品ファミリーで第4世代)を構築しました。実際、第4世代 AMD EPYC™ ファミリーは以下の利点を提供します。

  • 5nmコアコンピュート・ダイ(CCD)に最大96個のZen 4コアを搭載し、ソケット性能とコアあたりの性能をリード
  • 1ソケットあたり最大6TBのDDR5メモリを12チャネル搭載し、メモリ帯域幅と容量で業界をリード
  • CXLメモリデバイス、SSD、NIC、GPUなど、最大128レーンのPCIe 5.0アクセスによるIOのリーダーシップ

最大限の性能、効率、持続可能性を追求してゼロから設計されたAMD EPYCベースのサーバーは、CPU、メモリ、GPU、ストレージ、ネットワークインターフェースから最大限の性能を引き出すために必要なバランス調整を管理できます。実際、AMD EPYCアーキテクチャはスレッドを優先し、L3キャッシュを集中的なワークロードが排他的に使用できるようにロックできるため、PCIeレーンは一般的なI/Oスケジューリングや競合遅延の影響を受けません。

ファイルシステムのサポートとボトルネックの回避

分散モードおよび並列モードでは、分散ファイルシステムの場合、データは複数のソースから到着し、そのデータは様々なプロトコルおよび様々なアプリケーションで大規模に処理される必要があります。典型的なストレージシステムでは、メタデータがすぐにボトルネックとなります。実際、システムを通して転送できるデータ量は、メタデータがサポートする量に限られます。データ量が増加するにつれて、メタデータを処理する能力も比例してスケールする必要があります。Supermicro AMDサーバーはWEKA分散ストレージをサポートしています。これは、このような比例スケーリングを提供するように設計されています。これが、Supermicroシステムまたはクラスターにデータ容量とサービスを追加しても、I/O性能が衰えることなく継続する理由です。性能は、8ノード(WEKAクラスターの最小ノード数)から数百ノードまで直線的にスケールします。これは、ボトルネックを排除し、最も重く要求の厳しいAI/ML(およびその他の類似)ワークロードでさえもサポートすることで実現されます。

しかし、サーバーやクラスタの最適化には、スケーラブルで高性能、低レイテンシーのストレージを提供すること以上の意味があります。システム全体を設計する場合、単一の機能や特徴だけに焦点を当てることはできません。対象とするワークロードをサポートするためには、アーキテクチャ全体が協調して機能する必要があります。したがって、AIアプリケーション用のシステムを設計するということは、データ集約型のアプリケーションを迅速かつ十分に処理できるよう、ゼロから構築されたランタイム環境を構築することを意味します。これには、推論と分析のための全方位的なサーバー性能と全体的なIO機能が役立ちます。AI(または同様の)ワークロードの処理中にサーバーがデータに対して何を行うかは、任意のノードへのデータトラフィックと同様に重要です。高度に並列化されたアクティビティのサポートが不可欠であるため、そのようなプログラムの実行に関わる並列化されたサブタスクのすべてを処理できる高いコア数が重要です。

もう1つの重要な機能は、AMD EPYCベースのサーバーにおけるPCIe 5.0レーンの数(シングルソケットで最大128)です。これにより、サーバーはより多くのSSD、NIC、GPU、さらには拡張メモリCXLデバイスを収容できます。これらはすべて、要求の厳しいAIおよびML(または類似の)ワークロードを処理する上で不可欠な役割を果たします。

  • 最大32台のPCIe Gen5 SSDによる高速ローカルストレージ
  • サーバーをストレージや他の専用サーバーなどの他のノードに接続し、データ範囲や到達範囲を拡張するための多数の高速ネットワーク・インターフェース
  • 特化されたターゲットタスクやワークロードを処理するための大量のGPU

一般的に、サーバーノードに大量のストレージと高いネットワーク帯域幅を持つことは、ホスト上に存在しない可能性のあるストレージから、各ノードへの適切なレベルのデータ入力および出力(ingress/egress)を提供するために重要です。これが、Supermicro AMD EPYCサーバーにおける高スループットと低遅延に関するここでのほとんどの記述の根底にあるものです。

より多くのコアが、より大きな "力 "を意味します。

AI機能の最適化におけるもう1つの重要な要素は、CPUあたりの高いコア数が、UP(ユニプロセッサーまたはシングルプロセッサー)と呼ばれるものに対するハードウェアレベルのサポートを提供することです。AMDのコア数におけるリーダーシップ(例えば、AMD EPYC 9004ファミリーは24から96コアをサポート)は、数多くの必要な機能と利点をもたらします。最も重要なのは、このようなCPUがすべてのコアに均一なメモリアクセスを提供することです。この機能は、決定論性を高め、ブロッキングを減らし、高性能サーバーマザーボードの設計と構築を容易にします。設計上、AMD EPYCアーキテクチャはAIワークロードの性能を向上させ、最適化されたネットワーク、ストレージ、GPUアクセスを提供します。

事例紹介: Supermicro H13 1U ペタスケール・ストレージ・システム

Supermicro H13 Petascale Storage Systemは、EPYCアーキテクチャが実現できることの優れた実例となります。ソフトウェア定義ストレージ、インメモリコンピューティング、データ集約型HPC、プライベートクラウドおよびパブリッククラウド、そして特にAI/MLアプリケーション向けに高密度なソリューションを提供します。その仕様は以下の通りです。

  • ホットスワップEDSFF E3.S NVMeスロット×16、1Uシャーシに最大480TBのストレージを搭載可能
  • オプションのCXL E3.S 2Tフォーム・ファクタ・メモリ拡張モジュール4台とE3.S NVMeストレージ・デバイス8台
  • 1基の第4世代 AMD EPYC™ プロセッサー — 最大96コア
  • 24枚のDIMMで最大6TBのDDR5メモリを搭載可能
  • 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF準拠AIOMスロット
  • 補助電源付きフルハイト・ハーフレングスPCIe 5.0スロット×2
  • チタンレベルの効率電源

Supermicro H13システムは、AI、ML、またはその他の計算およびデータ集約型ワークロードが高性能で低遅延のストレージアクセス(およびその大量のアクセス)を必要とするあらゆるデータセンターにとって非常に貴重な追加となり得ます。

AMDとSupermicroのサーバーアーキテクチャがAIに最適な理由

NVMeは、サーバーとクラスターのあり方を完全に変えました。NVMeを基盤とすることで、完全に再構築されたアーキテクチャが可能になります。これにより、特にEDSFFフォームファクターにおいて、ストレージが高性能CPU、GPU、NICと並行して大規模かつ高速に動作できるようになります。シングルソケット設計により、最高クラスのCPUがネットワークカードとストレージを完全に飽和させ、HPC、AI、およびその他の次世代ソリューション向けに可能な限り最高の並列処理およびクラスタリング機能を活用できます。持続可能性をサポートするために性能と電力のバランスを取りながら、メモリ帯域幅はAMD EPYC第3世代から第4世代で2倍になり、AIワークロードもより良くサポートします。シングルチップアーキテクチャを扱う場合、他のCPUリソース(L3キャッシュやメモリ帯域幅など)を要求の高いスレッドに優先的に割り当てることで、性能を向上させ、遅延を削減できます。ハードウェアレベルまでスレッドを調整して、このようなワークロードをサポートできます。AIとMLをこのようなサーバーで活用するよりも優れた、高速で効率的な方法はありません。