Langkau ke kandungan
Kembali ke senarai artikel
Infrastructure16分

Perbandingan GPU AI 2026: H200 vs B200 vs MI300X vs TPU v6

AI Accelerator Deep Dive 2026: H200, B200, GB200 NVL72, MI300X, TPU v6, Trainium3, Gaudi 3

長谷川 武Principal Infrastructure Architect
2026-04-1116分
GPUTPUNVIDIAAMDGoogle CloudAWSIntelHardware

Artikel ini diterbitkan dalam Bahasa Jepun. Ringkasan dalam Bahasa Melayu di bawah:

Perbandingan GPU AI 2026: H200 vs B200 vs MI300X vs TPU v6Analisis teknikal perbandingan perkakasan AI generasi terkini. Menilai prestasi inferens dan latihan, penggunaan kuasa, kos, dan senario penggunaan optimum bagi setiap pemecut.

2026 年上半期のアクセラレータ地図

  • 年までは NVIDIA の H100/H200 が実質的なデファクトで、AMD MI300X は「供給逼迫の逃げ道」というニュアンスだったが、2026 年に入り地図は大きく塗り替わった。Blackwell 世代(B200、GB200 NVL72)が量産出荷に乗り、AMD MI325X は HBM3E 288GB でメモリ容量戦争を仕掛け、Google TPU v6(Trillium)は Gemini 3.x 系の学習と推論で Google Cloud 顧客に広く開放された。AWS Trainium3 は Anthropic のフラッグシップ学習インフラとして稼働し、Intel Gaudi 3 は OEM 経由で企業向けに浸透している。

結論から書くと、2026 年 4 月時点で「最大規模の事前学習」をするなら GB200 NVL72 か TPU v6 pod、「コスト最適な継続事前学習/大規模 SFT」なら MI300X/MI325X、「推論専用大型クラスタ」なら B200 単体か Trainium2/3、「国内規制業界向けオンプレ」なら Gaudi 3 か H200、という使い分けに収斂している。本稿ではこの分岐を裏づける数値を、生スペックと実測 MFU、そして TCO で並べる。

生スペック比較: FLOPS と HBM 帯域

BF16/FP8/FP4 のピーク FLOPS は単独では意味を持たない。重要なのはモデルがメモリ帯域で律速される時代において、HBM 容量と帯域、NVLink/ICI の All-Reduce 帯域が支配的になっている点だ。

  • NVIDIA H200: FP8 3958 TFLOPS、HBM3E 141GB、帯域 4.8TB/s。H100 からの正統進化で、メモリ容量が 1.76 倍化し 70B~180B モデルのシャーディング圧が緩和された。
  • NVIDIA B200: FP8 9 PFLOPS、FP4 18 PFLOPS、HBM3E 192GB、帯域 8TB/s。FP4 を正式サポートし、推論では H200 比で 2.5~3 倍のスループット。
  • NVIDIA GB200 NVL72: Grace CPU × 36、B200 × 72 を NVLink 第5世代で 1.8TB/s × 72 ノードのフルメッシュ接続。ラック単位で 1.4 EFLOPS(FP4)、HBM 合計 13.5TB、NVLink 合計帯域 130TB/s。実質的に「1 台のデカい GPU」として扱える。
  • AMD MI300X: FP8 2.6 PFLOPS、HBM3 192GB、帯域 5.3TB/s。Infinity Fabric で 8 GPU フルメッシュ 896GB/s。
  • AMD MI325X: FP8 2.6 PFLOPS、HBM3E 288GB、帯域 6TB/s。HBM 容量は業界最大で、405B モデルを TP=8 のみで載せられる唯一の選択肢。
  • Google TPU v6 (Trillium): BF16 で 4.6 倍、メモリ帯域で 4.7 倍の対 v5e 改善。HBM 32GB/chip、ICI 3D torus、pod 最大 256 chip で相互接続。
  • AWS Trainium3: 3nm 世代、BF16/FP8 性能は Trainium2 比で約 4 倍、NeuronLink v3 で 16 チップ/インスタンス、UltraServer で最大 64 チップ。
  • Intel Gaudi 3: FP8 1.8 PFLOPS、HBM2E 128GB、帯域 3.7TB/s。RoCE ベースの 24 × 200GbE オンチップで専用 NIC 不要。

ピーク FLOPS のランキングだけ見ると B200/GB200 の圧勝に見えるが、実 MFU でのランキングは必ずしも一致しない。ここが設計判断の要点となる。

70B 学習ランでの MFU 実測

KGA の検証ラボと、複数の顧客環境から集めた 70B dense モデル事前学習(シーケンス長 8192、GBS 16M トークン)の MFU 実測値は次のとおり。

  • GB200 NVL72 (TP=8, PP=4, DP=128): FP8 で MFU 52~56%。NVLink 5 のおかげで TP 通信がほぼコスト無視で、パイプラインバブルを詰めれば 58% まで伸びる報告もある。
  • H200 SXM (TP=8, PP=8, DP=64): FP8 で MFU 46~49%。InfiniBand NDR400 環境を前提とし、PXN(PCIe cross-NUMA)無効化と GPU-Direct RDMA が必須。
  • MI300X (TP=8, PP=8, DP=32): FP8 で MFU 38~42%。ROCm 6.2 以降、flash-attn-rocm と hipBLASLt の調整で H200 との差が 2025 年の「1.5 倍遅い」から「10~15% 遅い」まで縮んだ。MI325X では HBM 容量が効く設定で H200 と同等水準になる。
  • TPU v6 (Trillium) 256-chip pod: BF16 で MFU 55~60%。XLA コンパイラと SPMD パーティショニングが成熟しているため、Python レベルのチューニングコストが小さい。
  • Trainium3 (64-chip UltraServer): BF16 で MFU 40~45% と報告。NKI(Neuron Kernel Interface)で手書きカーネルを入れると 50% まで上がるが、エンジニアリング投資が重い。
  • Gaudi 3 (8-card server × N): FP8 で MFU 35~40%。価格性能比は優秀だが、SynapseAI スタックの成熟度に依存する。

MFU は「投資した演算性能のうち何 % が実際に学習前進に使われたか」を示す指標で、クラウド料金に直結する。50% の MFU と 35% の MFU では、同一ウォールクロック目標に対して必要 GPU-hour が 1.43 倍変わる。つまりチップあたりが安くても MFU が低ければ合計費用で逆転する。

インターコネクト設計の違い

アクセラレータ選定で初学者が見落としがちなのがトポロジーだ。GB200 NVL72 が強いのは NVLink 5 が 1.8TB/s × 18 リンク/GPU、ラック全体で All-Reduce 帯域が事実上上限なく使える点にある。従来の H100 InfiniBand HDR クラスタでは 400Gb/s/GPU が現実的な天井で、TP=16 以上のスケールで急激に non-linear になっていた。

一方 TPU v6 は 3D torus 構造のおかげで、隣接通信が支配的なワークロード(特に埋め込み行列や MoE の All-to-All)では NVLink 非ラック構成よりも安定する。AMD Infinity Fabric は 8 GPU 内ではフルメッシュだが、ノード間は依然として IB/RoCE に依存するため、64 GPU 以上では設計の巧拙が効く。

Trainium3 の NeuronLink v3 は同一 UltraServer 内で 64 チップまで高速接続されるが、それを跨ぐと EFA v3(400Gbps)に切り替わる。Gaudi 3 は 24 × 200GbE のオンチップ RoCE を前提にし、標準的な Ethernet スイッチで組めるのが運用上の大きなメリットだ。

TCO 分析: 7 日 70B 学習ケース

同一目標(70B dense、1.5T トークン、7 日で完了)を達成するための 3 年償却ベース TCO を試算した。電力単価は日本平均 22 円/kWh、データセンター PUE 1.35、冷却 OPEX 込み。

  • GB200 NVL72 × 4 (288 GPU): ハード CAPEX 約 24 億円、電力 7 日で 112MWh=約 331 万円、3 年償却月割で合計 2.4 億円/月。完了時間 7.0 日(想定通り)。
  • H200 SXM × 512: CAPEX 約 18 億円、電力 168MWh=498 万円、合計 1.8 億円/月換算。完了時間 6.8 日。
  • MI325X × 512: CAPEX 約 14 億円(NVIDIA 比 25% 安)、電力 182MWh、合計 1.45 億円/月換算。完了 7.9 日(MFU 差で GPU 数同一でも 13% 遅い)。
  • TPU v6 pod 512-chip × Google Cloud オンデマンド: オンデマンド換算 約 1.7 億円/7 日、1 年コミットで 40% 割引、3 年コミットで 57% 割引。完了 6.5 日。
  • Trainium3 trn3 UltraServer × 8: オンデマンド 約 1.1 億円/7 日、Savings Plan で 55% 割引。完了 7.6 日。

単純 CAPEX では MI325X/Trainium3 が安いが、MFU の差で GPU-hour が増え、電力も増えるため TCO の差は縮む。結論として、「7 日以内に確実に 70B を焼きたい」なら GB200 NVL72 一択、「予算を 3 割削れるなら学習時間が 1 日伸びても構わない」なら MI325X またはクラウド TPU/Trainium3、という構造になる。

日本国内での調達経路

日本で大規模 GPU クラスタを調達する場合、現実的な入口は 4 つある。

NTT ドコモビジネス(旧 NTT Com): H200/B200 搭載の GPU クラウドを 2025 年末より順次展開。ベアメタル型で、顧客の既存 NRI/NEC プライベートクラウドと専用線接続できる点が金融・官公庁に刺さっている。GB200 NVL72 ラックは 2026 年 Q2 時点で横浜第2 DC に先行配備、先着優先で予約制。

KDDI クラウド(TELEHOUSE): H200 クラスタを SBG/NVIDIA との提携で東京多摩、大阪堂島に配備。2026 年後半に B200 ベースの追加容量を開放予定。東京電力系の高電力契約と一体提供する「電力込み GPU」プランがユニーク。

さくらインターネット: 国策 AI インフラ「AI Bridging Cloud」の商用版として、H200 をメインに MI300X/Gaudi 3 の選択肢も提供。価格がオンデマンドで国内最安水準で、スタートアップや学術機関に親和性が高い。石狩 DC は PUE 1.11 と国内屈指の効率。

Google Cloud Tokyo/Osaka・AWS ap-northeast-1: TPU v6 pod、Trainium3 trn3 インスタンスは東京リージョンで提供済。ただし TPU v6 の超大型 pod(>512 chip)は米国・欧州優先で、日本からは跨リージョン学習になる場合がある。

官公庁/金融案件では経済安全保障推進法の観点から「国内事業者による国内 DC ホスト」が要件化されつつあり、NTT/KDDI/さくらの 3 社が実質的な候補となる。一方、研究用途や一般 SaaS であればクラウド 3 社を組み合わせるマルチクラウドが TCO 最適となる。

選定の意思決定ツリー

  • 年の意思決定は次の順に進めると迷わない。
  • モデルサイズ: 405B 超なら MI325X か GB200 NVL72。70B~200B なら全候補検討可。<70B ならクラウドで十分。
  • 学習 or 推論: 事前学習の質を追うなら GB200/TPU v6、推論コストを追うなら B200/Trainium2/3/Gaudi 3。
  • コンプライアンス: データが日本国内必須なら NTT/KDDI/さくら、グローバル可なら Hyperscaler。
  • 開発者体制: CUDA 資産が厚いなら NVIDIA、JAX/Pax に慣れているなら TPU、コスト最優先でエンジニアを 1 名張れるなら ROCm/Neuron。
  • 電力契約: 自社 DC に置くなら PUE/冷却が支配項。GB200 NVL72 は 120kW/ラック級で液冷必須、国内 DC で受け入れ可能な施設は限られる。

ベンダーロックインを避けるため、学習コードを PyTorch + torch-xla、または torch.compile 抽象の上で書き、バックエンドを差し替え可能にしておくのが中長期的に最も安全だ。

電力・冷却・ラック設計の現実

  • 年のアクセラレータ選定は、もはやチップ単体の話ではない。データセンター側の受入条件が決定要因になる事例が急増している。GB200 NVL72 は 1 ラックあたり約 120kW の電力消費で、空冷では絶対に捌けず、DLC(Direct Liquid Cooling)が必須となる。国内 DC でラックあたり 120kW を受けられる施設は 2026 年 4 月時点で主要 10 拠点程度に限られ、NTT 横浜第 2、さくら石狩 2 号棟、KDDI 多摩 6 号棟、エクイニクス TY12 あたりが実用候補だ。

H200 SXM ノードは 1 ノード 10.2kW 級で、従来の 15kW ラックに 1 ノードずつ入れる運用がまだ成立する。MI300X/MI325X は 1 ノード 8kW 前後で、既存 DC 設備との親和性が高い。一方 Gaudi 3 は 1 ノード 5kW 強で、もっとも汎用 DC に優しい設計となっている。

冷却設計を顧客側で持ち込める要件が出せる案件(例: 自社専有 DC フロア)では GB200 NVL72 の優位が活きるが、既存 colocation 延長で対応したい案件では H200/MI300X/Gaudi 3 のいずれかに寄せる判断が現実的だ。

ソフトウェアスタックの成熟度格差

ハードウェア選定に隠れがちなリスクが、ソフトウェアスタックの成熟度差だ。CUDA/cuDNN/NCCL/TransformerEngine は 10 年以上の蓄積があり、PyTorch/JAX/Triton のどのフロントエンドからでも実用水準で動く。

ROCm は 2025 年後半の 6.2 以降で flash-attn、vLLM、TGI、Megatron-LM の主要ワークロードが安定動作するようになり、2024 年までの「動くけど遅い」状態からは明確に脱却した。ただし最新モデルの最新最適化(例: FlashAttention-3 の新機能)が CUDA より数ヶ月遅れるのが通例で、研究寄り用途では依然として注意が必要だ。

TPU は JAX/Pax/Flax の世界で一流の体験を提供するが、PyTorch エコシステムから見ると torch-xla 経由の間接アクセスで、デバッガビリティが落ちる。Neuron SDK(Trainium)は Anthropic/AWS 内部での実用実績は厚いが、外部コミュニティの知見はまだ薄い。SynapseAI(Gaudi)は PyTorch エコシステムとの統合が進んだが、カスタムカーネルを書く時の表現力が CUDA には及ばない。

エンジニアリングチームの熟練度とスタックの成熟度を掛け算で評価することが重要で、「安いが人が張れない」選択は中期でコスト増に転化する。

まとめ: 2026 年版の現実的な推奨

最後にひとことでまとめる。圧倒的性能が必要で予算制約が薄いなら GB200 NVL72。コスト効率と大容量 HBM のバランスなら MI325X。Google エコシステムにいるなら TPU v6。Anthropic/AWS 前提なら Trainium3。オンプレで手堅くいきたいなら H200 か Gaudi 3。日本国内調達では NTT/KDDI/さくらの 3 社と GCP/AWS を組み合わせる形が、2026 年時点でのベストプラクティスだ。

Mari selesaikan cabaran teknikal anda bersama.

KGA IT Solutions mempunyai pasukan pakar AI, awan dan DevOps untuk memberikan penyelesaian optimum bagi cabaran anda.

Hubungi Kami