Supermicro NVIDIAはAI、MLなどに最適化されたシステムを提供
現代の企業は、ビジネスや業務において高度なアプリケーションやデータ処理を利用することで、大きな競争優位性を獲得しています。これには、ChatGPT、LLaMaなどのAIベースの大規模言語モデル、膨大なデータセットに基づく機械学習分析などが含まれます。トレーニング また、実データ、複雑な3Dモデルや有限要素モデル、シミュレーション、その他データおよび計算負荷の高いアプリケーションにも対応します。
こうしたワークロードには、少なくとも次の共通点があります。それは、どのような階層型モデルを使用しても、ストレージへのアクセスが高速化されることで大きなメリットが得られるということです。これが、多くの企業やサービスプロバイダーが、大規模で複雑なデータセットや、それらを消費するワークロードを処理するためにGPUベースのサーバーを採用している主な理由の一つです。GPUベースのサーバーは、こうしたワークロードを処理する能力がはるかに高く、従来のストレージ構成(ローカルRAMやGPUなど)を備えたサーバーよりも、こうしたタスクをより迅速に完了できます。 NVMe SSD、LAN またはクラウド)
スループットを向上させる秘訣は、レイテンシの低減とストレージ帯域幅の向上です。これらは、主に直接的およびリモートのI/Oとネットワーク技術を活用した巧妙な技術によって、生産性と機能の向上に直接つながります。メモリー アクセスについては、次述します。より高速なモデルトレーニング また、ジョブの完了により、AIを活用したアプリケーションをより迅速に展開し、作業をより速く完了させることができ、価値実現までの時間を短縮できます。
直接メモリー アクセスおよびリモート相当機能
直接メモリー アクセス(別名DMA)は、コンピューティングの黎明期からI/Oを高速化するために使用されてきました。基本的に、DMAはメモリー-に-メモリー バス(または別のバス)での乗り換えインタフェース あるデバイスから別のデバイスへ、何らかの種類のデータをコピーすることで機能します。メモリー 送信者から直接アドレスを取得メモリー 受信者へメモリー (または双方向転送の場合は2者間)。この機能はCPUをプロセスから外し、コピー操作の数を減らすことで転送を高速化します(CPUが送信者のデータをコピーする必要がなくなります)。メモリー次に、そのデータをコピーします。メモリー 受取人のメモリー)
実際、単一システムでのDMAパフォーマンスはバスの速度(またはその他の)によってのみ制限されますインタフェースデータ転送に関与する送信デバイスと受信デバイスをリンクする。 PCIe 4.0、つまり16ギガ転送/秒(GT/s)で、その2倍のPCIe 5.0 (32 GT/s)。エンコードとパッケージングのオーバーヘッドのため、データレートは当然遅くなりますが、これら2つの定格帯域幅はPCIe バージョンごとの速度は、それぞれ64Gbps(4.0)と128Gbps(5.0)です。これは高速ですね!
リモートDMA(RDMAとも呼ばれる)は、単一のコンピュータ内のDMAの機能を拡張し、ネットワーク接続を介して2つのデバイス間で動作させるものです。RDMAは通常、独自のアプリケーションプログラミングに基づいています。インタフェース (API)は、専用のネットワークハードウェアおよびソフトウェアと連携して、基盤となるネットワーク技術が許容する限り、ローカルDMAと同様の多くの利点を提供します。
NVIDIA GPUは、速度とコストの高い順に(最も速く、最も高価なものから順に)、3種類のネットワーク技術をサポートしています。
- NVIDIA NVLinkは、最高速度の独自インターフェースとスイッチ技術を使用して、高速ネットワーク上のGPU間のデータ転送を高速化します。現在、標準MLPerfにおいて最高のパフォーマンスを発揮しています。トレーニング v3.0 はあらゆるテクノロジーのベンチマークです。単一の NVIDIA H100 Tensor Core GPU は最大 18 の NVLink 接続をサポートし、最大 900 Gbps (実効速度の 7 倍) を実現します。 PCIe 5.0)。
- InfiniBand は、高速ネットワーク規格であり、 InfiniBand 貿易協会(IBTA)は広く実施されており、ハイパフォーマンス ネットワーク。 2020年時点で測定された最高データレートは約1.2 Tbps、約154 GBpsです。
- イーサネット は、あまり使用されていないTbE(約125Gbps)や、より一般的な400GbE(50Gbps)など、多くのバリエーションを持つ標準的なネットワーク技術です。価格が手頃で、広く普及しており、多くのデータセンターで馴染みのある技術であるという利点があります。
NVIDIA GPU を次の用途に活用するSupermicro サーバー
NVIDIA RDMAテクノロジーは、前述の3つのネットワークテクノロジーすべてにおいてGPUベースのデータアクセスをサポートできます。それぞれ価格と性能のトレードオフが異なり、コストが高いほど速度が向上し、レイテンシが低くなります。組織は、予算とニーズに最適な基盤となる接続タイプを選択できます。各オプションは、信頼できる価格と性能の特定の組み合わせを表していることを理解しておく必要があります。このようなサーバー上でさまざまなAIまたはMLベースのアプリケーション(およびその他のデータ集約型および計算集約型アプリケーション)を実行すると、GPUストレージの階層型アーキテクチャを活用できます。利用可能な階層は次のとおりです(性能の高い順、サイズと容量の高い順)。
- 第1層:GPUメモリー 最も高速で、最も高価で、最も容量の小さいデータストアです(例:Tensor H100 GPUは188GBのHBM3 RAMを搭載しています)。
- 第2層: ローカルSSD PCIe バスは次に高速だが、依然として高価であり、ハイエンドGPUの10~100倍の容量を持つ。
- 第3層:LAN上のリモートストレージサーバーは、アクセスするGPUの容量の1,000倍以上の容量をサポートできます。
AIおよびMLアプリケーションは低遅延と高帯域幅の両方を必要とするため、RDMAはDMAのローカルな利点をネットワークリソースに拡張するのに役立ちます(関連する基盤となる接続に依存します)。この機能により、外部データへの高速アクセスが可能になります。メモリー-に-メモリー デバイス間でのデータ転送 (片側に GPU、もう片側にストレージ デバイス)。NVLink と連携して、 InfiniBandあるいは高速イーサネット バリアントでは、リモートアダプタがデータを転送しますメモリー 遠隔システムでメモリー 一部のローカルGPU上で動作します。NVIDIA Magnum IOは、データセンター向けのI/Oアクセラレーションプラットフォームを提供し、並列かつインテリジェントなデータセンターI/Oをサポートすることで、要求の厳しいアプリケーションに必要なストレージ、ネットワーク、マルチノード、マルチGPU通信を最大限に活用します。
GPUサーバーシステムでは、 Supermicro NVIDIA GPUとそのサポートするアクセス方法を使用します。これには、ローカルDMA、API経由のRDMA、さらにハイパフォーマンス 複数のNICと3種類の接続タイプすべてをサポートするスイッチを介したネットワーク接続。さらに、 Supermicro GPUサーバーには、GPUが実現する高速なI/Oをサポートするために、データ処理ユニット(DPU)と呼ばれる専用ASICが1つまたは2つ搭載されています。これらは、サーバーCPUから追加のI/Oオーバーヘッドをオフロードします。同様に、このようなサーバーは、サーバーあたり最大8つのネットワークアダプタをサポートでき、ネットワーク帯域幅への持続的かつ拡張されたアクセスを可能にし、データ転送を最大化します。 PCIe 5.0 デバイスと RDMA デバイス。これにより、 PCIe バス上で、スループットを最大化し、遅延を最小限に抑えるのに役立ちます。
パフォーマンスへの影響は非常に大きい。NVIDIAの高速I/Oを使用することで、パフォーマンスは20~30%程度向上し、負荷の高いワークロードでは最大2倍に達する。また、非効率性を防ぐために、ストレージを活用するようにアプリケーションを設計することも不可欠である。そのため、そのようなアプリケーションは定期的にチェックポイントを作成するように構成する必要がある。そうしないと、ノードがネットワークから切断されたり、一定時間ブロックされたりした場合に、アプリケーションは最初からやり直さなければならない。チェックポイントを使用することで、ノード障害やその他のブロックイベントが発生した場合でも、進行状況は最新のスナップショットまでしか戻らない(実際には、このような機能はローカルおよびネットワークのデータ保護ツールで利用できる場合があり、アプリケーションに明示的に組み込む必要はない)。
総じて、AI、機械学習、その他の高負荷ワークロード(3Dモデルや有限要素モデル、シミュレーションなど)にDPUおよびGPUベースのサーバーを使用する真の利点は、インフラストラクチャコンポーネントとアプリケーションアクティビティを分離できる点にあります。これにより、現在インフラストラクチャへのアクセスと管理に費やされているCPUサイクルの20~30%を削減できます。I/O機能をハードウェアに移行することで、リソースが解放され、アクセス速度が向上します。