Skip to content
Bumalik sa listahan ng mga artikulo
AI Infrastructure14分

ローカル LLM のための GPU 選定ガイド 2026: RTX 5090 / 4090 / 3090 / RTX 6000 Ada / MI300X 比較

Local LLM GPU Buying Guide 2026: RTX 5090 vs 4090 vs 3090 vs RTX 6000 Ada vs MI300X

田中 翔太Lead AI Engineer
2026-04-2314分
ローカルLLMGPURTX 5090RTX 4090MI300XvLLMllama.cpp中小企業 AI

Ang artikulong ito ay nasa wikang Hapon. Buod sa Filipino sa ibaba:

Local LLM GPU Buying Guide 2026: RTX 5090 vs 4090 vs 3090 vs RTX 6000 Ada vs MI300Xローカル LLM 用 GPU を VRAM・帯域・FP8/INT4 性能・国内価格目安の4軸で再評価。RTX 5090 の 32GB GDDR7 が 70B Q4 を 1枚で回せるようになり、選定地図が大きく書き換わった。

2026 年春、ローカル LLM 用 GPU の地図が書き換わった

NVIDIA Blackwell 世代 (RTX 5090 / 5080) と AMD Instinct MI300X の本格流通、そして RTX 6000 Ada の値こなれにより、ローカル LLM 向け GPU 選定は 2024 年とは別物になった。本稿では Llama 3 70B / Qwen 3 32B / DeepSeek R2 蒸留版を主要ターゲットに、5枚の現役 GPU を比較する。価格は 2026年4月時点のヨドバシ・パソコン工房・PC Watch 等の公開価格目安である。

VRAM と帯域: 70B Q4 が 1 枚で乗るかの分水嶺

ローカル LLM の体感速度を決めるのは演算性能ではなく、ほぼ VRAM 帯域と容量である。70B Q4_K_M (約 42GB) を完全にオンチップに載せられるかが、トークン/秒の桁を変える。

| GPU | VRAM | メモリ帯域 | FP16 Tensor | 国内価格目安 | |---|---|---|---|---| | RTX 5090 | 32GB GDDR7 | 約 1.79 TB/s | 約 1,676 TFLOPS | ¥450,000〜480,000 | | RTX 4090 | 24GB GDDR6X | 約 1.0 TB/s | 約 660 TFLOPS | ¥320,000 前後 (中古) | | RTX 3090 | 24GB GDDR6X | 約 0.94 TB/s | 約 142 TFLOPS | ¥130,000〜170,000 (中古) | | RTX 6000 Ada | 48GB GDDR6 ECC | 約 0.96 TB/s | 約 728 TFLOPS | ¥1,200,000 前後 | | AMD MI300X | 192GB HBM3 | 約 5.3 TB/s | 約 1,300 TFLOPS | 業務見積 (法人) |

公開情報によれば (2026-04時点) RTX 5090 は 4090 比でメモリ帯域が約 78% 向上しており、Llama 3.1 8B のプロンプト処理で 4,300 → 7,198 tok/s と約 67% 改善が報告されている。70B Q4_K_M は 5090 単体でオフロードなしに収まる初の GeForce となり、中小企業の社内 RAG に大きな選択肢を増やした。

用途別おすすめ: 7B / 13B / 70B / 405B

\`\`\`text - 7B〜13B 開発機 (Phi-4, Qwen 3 14B): RTX 4090 中古 / 5080 16GB - 13B〜32B 本番推論: RTX 5090 32GB or RTX 6000 Ada 48GB - 70B Q4 セルフホスト: RTX 5090 1枚 or 4090 ×2 (NVLink なしテンソル並列) - 70B FP16 / 100B 級: RTX 6000 Ada ×2 or MI300X ×1 - 405B / DeepSeek R2 685B MoE: MI300X ×4〜8 一択 \`\`\`

RTX 4090 中古という現実解

  • が手に入りにくい現状、RTX 4090 中古は依然として最強のコスト効率枠である。Llama 3 70B Q4_K_M でプロンプト処理 約 127 tok/s、生成 約 52 tok/s が公開ベンチで報告されている。24GB の壁により 70B は KV キャッシュを CPU にオフロードする必要があるが、32B クラスまでなら全く支障なく動く。中小企業の PoC 段階では 4090 中古 ×1 が最も合理的な投資である。

RTX 6000 Ada は誰が買うべきか

  • GB ECC、ブロワー型、TDP 300W、4スロット占有なし。RTX 6000 Ada は OEM ワークステーションへの組み込みが容易で、社内サーバー室の 1U / 2U に複数枚積めるのが本質的価値だ。Llama 3 70B FP16 を 1 枚で回せ、ECC により長時間バッチ処理での bit-flip リスクが低い。¥120万円は高いが、24/7 稼働の RAG / 翻訳 / コード補完サーバーとして TCO で見れば 3 年で回収できる。KGA IT が金融・医療系のお客様に提案する標準構成もこのクラスだ。

MI300X が刺さるシーン

MI300X は 192GB HBM3 / 5.3 TB/s という別次元のスペックを持ち、Llama 4 405B や DeepSeek R2 685B MoE といった「H100 ×8 でやっと動く」モデルを 1〜2 枚で扱える。ROCm 6.x 系の vLLM サポートが成熟し、CUDA からの移植難度はかなり下がった。ただし個人購入は実質不可で、Crusoe / TensorWave 経由のレンタル、または法人見積前提となる。

結論: 2026 年の最適解は「目的別」

シングル GPU で 70B を回したいなら RTX 5090、コスト最優先なら 4090 中古、業務サーバーなら RTX 6000 Ada、フロンティアモデルを自社運用するなら MI300X。万能解は存在しないが、対象モデルサイズと稼働率を起点に逆算すれば選択は明確だ。KGA IT では PoC から本番まで、ヒアリングをもとに過不足ないハードウェア構成をご提案している。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ