量子化は「無料の最適化」ではない
量子化は VRAM とメモリ帯域の両方を削減する強力な手段だが、選び方を誤ると体感品質が大きく落ちる。本稿では 2026 年 4 月時点で主流の Q4_K_M / AWQ / GPTQ / FP8 / INT4 の 5 形式を取り上げ、ハードとランタイム別の最適解を整理する。
5 形式の早見比較
公開ベンチを集約した perplexity の傾向と用途は以下の通り。Llama 3.1 8B FP16 を基準とした、複数の独立したベンチ集計の中央値である。
| 形式 | 主ランタイム | サイズ目安 | perplexity 増 | 特性 | |---|---|---|---|---| | FP16 (基準) | vLLM / TGI | 100% | 0% | 品質基準 | | FP8 (E4M3) | vLLM / TRT-LLM | 約 50% | 〜0.5% | Hopper/Blackwell 必須 | | Q4_K_M (GGUF) | llama.cpp / Ollama | 約 27% | 〜1.5% | CPU/Metal/CUDA 万能 | | AWQ 4-bit | vLLM | 約 27% | 〜1.0% | NVIDIA GPU 最高品質 | | GPTQ 4-bit | vLLM / ExLlamaV2 | 約 27% | 〜2.5% | 軽量だが品質劣後 | | INT4 (TRT-LLM) | TensorRT-LLM | 約 25% | 〜2.0% | Jetson / 本番最適 |
注意: 上記は代表値で、モデルとデータセットにより 0.5〜1% 程度ぶれる。複数のオープンソース集計 (oobabooga blog 等) で「AWQ ≒ Q4_K_M < GPTQ」の品質序列はおおむね一貫して観測されている。
Q4_K_M: 最も汎用、迷ったらこれ
GGUF 形式の Q4_K_M は llama.cpp / Ollama / LM Studio すべてが標準サポートし、CPU・Metal・CUDA・ROCm 全環境で動く。perplexity 増加は約 1.5%、サイズは FP16 比 27% 程度で、70B でも 約 42GB に収まる。Apple Silicon (Mac Studio / MacBook Pro) でローカル LLM を動かす場合は事実上 Q4_K_M 一択である。デメリットは vLLM の高スループット推論には向かないこと。
AWQ: NVIDIA GPU で最高品質を狙うなら
Activation-aware Weight Quantization (AWQ) は、活性化分布を考慮したキャリブレーションにより、4-bit でも FP16 にきわめて近い品質を維持する。複数のベンチで Q4_K_M よりわずかに低い perplexity (約 6.84 vs 6.74 など) を達成しているという報告がある一方、計算経路の違いで AWQ がやや高い perplexity を示すケースもあり、結論はモデル依存である。Marlin カーネルを併用すれば vLLM 上で 700+ tok/s 級のスループットが出る。本番 RAG / コーディング支援用途でとくに推奨される。
GPTQ: レガシー資産は活用、新規は AWQ 推奨
GPTQ は 2023 年以降長らく NVIDIA GPU の 4-bit 量子化標準だったが、AWQ・FP8 の台頭で位置付けが微妙になっている。複数集計で GPTQ 4-bit は AWQ 比で 1〜2% 程度 perplexity が高い傾向にある。既存 Hugging Face にある GPTQ チェックポイントを使う以外は、新規プロジェクトでは AWQ または FP8 を選んだほうが良い。
FP8: Hopper / Blackwell 世代の本命
FP8 (E4M3 / E5M2) は H100 / H200 / B200 / RTX 5090 で本格的にハードウェアアクセラレーションされる新標準だ。FP16 比でほぼ無損失 (perplexity 増 0.5% 以下) でありながら、メモリ・帯域を半減できる。vLLM の FP8 KV キャッシュサポートも安定し、長コンテキスト推論の VRAM 削減効果が極めて大きい。注意点は、Ada Lovelace (RTX 4090) 以前では FP8 演算ユニット非搭載のため恩恵が限定的なこと。
\`\`\`bash # vLLM 0.8 系での FP8 起動例 (RTX 5090) vllm serve Qwen/Qwen3-32B-FP8 \\ --quantization fp8 \\ --kv-cache-dtype fp8_e5m2 \\ --max-model-len 65536 \\ --gpu-memory-utilization 0.92 \`\`\`
INT4 / TensorRT-LLM: エッジと Jetson の本番
Jetson AGX Orin や Drive Thor 等の組み込み環境では、TensorRT-LLM の INT4 量子化が事実上の標準になりつつある。SmoothQuant + INT4 + TensorRT 最適化により、Jetson AGX Orin 64GB でも Mistral 7B 系で 100 tok/s 超が報告されている。本番デプロイのオフライン量子化フローはやや煩雑だが、得られる速度は Q4_K_M を大きく上回る。
実務での選択フロー
\`\`\`text - Mac で動かす → Q4_K_M (GGUF) 一択 - NVIDIA GPU + 品質最優先 → AWQ 4-bit - RTX 5090 / H100 + 高速重視 → FP8 - Jetson / エッジ本番 → INT4 (TensorRT-LLM) - 既存資産活用 → GPTQ 4-bit - 検証・PoC で迷ったら → Q4_K_M で起動 \`\`\`
KGA IT のローカル LLM 導入支援でも、最初の PoC は Q4_K_M で立ち上げ、本番化フェーズで AWQ / FP8 への移行を検討するという 2 段階アプローチを基本にしている。ハード制約と品質要件が決まれば、最適な量子化は機械的に絞り込める。