vLLM 2026 系のなにが変わったか
vLLM は 2026 年に入って Model Runner V2(MRV2)と呼ばれる実行コアの再実装をリリースした。vLLM 公式ブログによれば、MRV2 は API 互換を維持しつつ CPU-GPU 同期点を削減し、投機的デコーディング時に時間あたり出力トークン(TPOT)の改善が報告されている。本稿では公開情報の範囲で、4×RTX 4090(24GB ×4)と 1×H100 80GB という中小企業でも届きうる2構成について、設計と運用の勘所を整理する。架空のベンチ数字は出さず、設定パラメータと根拠を中心に説明する。
4×RTX 4090: コンシューマGPU での実用域
- ×RTX 4090 構成(合計 96GB VRAM)は、Qwen 3 32B や Llama 3.x 70B 級を AWQ / GPTQ / FP8 量子化で動かす現実的なエントリ構成として、SI 案件でも増えている。注意点は PCIe 帯域と NVLink 非対応で、テンソル並列 (TP) を上げすぎると通信律速になることだ。実運用ではパイプライン並列 (PP) と TP の混在を避け、TP=4 + データ並列でバッチサイズを稼ぐのが安定する。
```bash # 4x RTX 4090 で AWQ 量子化 70B を起動する例(パラメータ最小セット) vllm serve Qwen/Qwen3-72B-Instruct-AWQ \ --tensor-parallel-size 4 \ --quantization awq_marlin \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```
`--enable-prefix-caching` は社内チャット用途で同じシステムプロンプトを使い回す場合に効く。プロンプトキャッシュのヒット率が運用 KPI として最も効くため、Grafana ダッシュボードに必ず置きたい指標だ。
1×H100 80GB: 単機の決定版
- ×H100 80GB はサーバルームを持つ中小企業や AI 事業会社の単機構成として強力だ。HBM3 80GB により、AWQ-INT4 で 100B 超のモデルもギリギリ載る。FP8 (e4m3) 推論を活かすには Hopper 専用の最適化パスが必要で、vLLM では `--quantization fp8` および対応モデルチェックポイントが前提となる。
シングル GPU 構成でこそ威力を発揮するのが投機的デコーディングだ。vLLM ドキュメントによれば、EAGLE・MTP・MLP・ドラフトモデル・n-gram など複数の方式が選べる。チャット系のように対話的なレイテンシ要求が強い用途では、ドラフトモデルか EAGLE の併用が現実解となる。Red Hat Developer の公開記事では、ShareGPT データセットでの投機的デコーディングが約 21% のスループット向上と約 20% のレイテンシ削減をもたらしたと報告されている。
```bash # H100 単機で投機的デコーディングを有効化する起動例 vllm serve meta-llama/Llama-3.3-70B-Instruct-FP8 \ --quantization fp8 \ --max-model-len 65536 \ --speculative-config '{"method":"eagle","num_speculative_tokens":4}' \ --enable-prefix-caching \ --kv-cache-dtype fp8_e5m2 ```
チューニングの勘所
スループット最適化はバッチサイズ、KVキャッシュサイズ、最大コンテキスト長の三角形で決まる。`--max-num-seqs` を上げてバッチを増やすほどスループットは伸びるが、待ち行列の頭で1リクエストが詰まると全体の TTFT(最初のトークンまでの時間)が悪化する。SLOG に TTFT P95 と ITL P95(出力トークン間隔)を必ず分けて取り、SLA をどちらに合わせるかを最初に決めることだ。
KV キャッシュの量子化(`--kv-cache-dtype fp8_e5m2` など)は H100 / RTX 4090 いずれでも実用域にあり、ロングコンテキスト用途では効果が大きい。一方、量子化の組み合わせには相性があり、AWQ + FP8 KV キャッシュなど特定組み合わせは出力品質に影響する場合があるため、ローンチ前のオフライン回帰テストは必須だ。
監視・運用:Prometheus + 推論固有メトリクス
vLLM は `/metrics` エンドポイントで Prometheus 形式のメトリクスを公開する。GPU 利用率や VRAM はもちろん、待ち行列長、プロンプトキャッシュヒット率、投機的デコーディングの受理率(acceptance rate)を必ず可視化したい。受理率が低下しているときは、ドラフトモデルとターゲットモデルの分布乖離が起きており、モデル更新時の見逃しに繋がる。
中小企業視点のコスト感
サーバ筐体・電源・ラック空調を含めた TCO で見れば、4×RTX 4090 構成は本体実装で約数百万円、月の電力で数万円規模。社外 API を月数百万円規模で使っている事業であれば、半年から1年で回収するシナリオは十分現実的だ。KGA IT では、PoC 段階では Ollama / LM Studio で要件を固め、本番想定トラフィックが見えた時点で vLLM への移行設計を引く2段構えを推奨している。