3 モデルの位置づけ
| モデル | パラメータ | アクティブ | ライセンス | 提供元 | | --- | --- | --- | --- | --- | | DeepSeek V3.2 | 671B (MoE) | 37B | MIT | DeepSeek (中) | | Qwen3-72B-Instruct | 72B (Dense) | 72B | Apache 2.0 | Alibaba (中) | | Llama 4 Maverick | 400B (MoE) | 17B | Llama 4 Community | Meta (米) |
ライセンス面で MIT/Apache 2.0 の DeepSeek/Qwen が最もクリーンで、Llama 4 は商用利用条件と再配布制限を確認する必要がある。
ベンチマーク
| ベンチ | DeepSeek V3.2 | Qwen3-72B | Llama 4 Maverick | | --- | --- | --- | --- | | MMLU-Pro | 76.4 | 75.1 | 78.2 | | GPQA Diamond | 60.1 | 58.4 | 64.3 | | SWE-bench Verified | 49.2 | 46.7 | 52.8 | | MATH-500 | 90.2 | 88.6 | 87.4 | | JMMLU | 73.4 | 71.6 | 68.9 |
英語ベンチでは Llama 4 がやや優勢、日本語では DeepSeek/Qwen が優位、というのが一貫した傾向。
推論コスト試算
H100 80GB ×4 セルフホストで 64k コンテキスト・100 同時接続の前提:
| モデル | tok/s | VRAM 占有 | 月額目安 | | --- | --- | --- | --- | | DeepSeek V3.2 (FP8) | 800-1,100 | 76% | 350-450 万 | | Qwen3-72B (BF16) | 600-800 | 92% | 320-420 万 | | Llama 4 Maverick (FP8) | 1,200-1,600 | 68% | 380-480 万 |
Llama 4 は activation サイズが小さいぶん吞吐量が伸びやすく、純粋なスループット要求では強い。
日本語対応
- DeepSeek: 一般タスクは強い、固有名詞・古語は弱め
- Qwen3: 中国語からの転移で漢字圏知識が深い、敬語の自然さは中
- Llama 4: 標準日本語タスクは平均的、JMMLU で他 2 つに後れを取る
用途別おすすめ
- 日本語 FAQ / 社内ナレッジ → DeepSeek V3.2 or Qwen3-72B
- 英語ドキュメント中心 / SWE タスク → Llama 4 Maverick
- 中国語混在 / 漢字圏多言語 → Qwen3-72B
- ライセンス純度重視 → DeepSeek (MIT) or Qwen3 (Apache 2.0)
- スループット重視(バッチ翻訳、ログ解析) → Llama 4 Maverick
結論
「とりあえず社内 PoC を始めるなら DeepSeek V3.2、日本語タスクで詰まったら Qwen3 と切り替えて評価、英語スループット要件が出てきたら Llama 4 を加える」というプログレッシブな選定が現実的である。3 モデルとも vLLM/SGLang で同じ OpenAI 互換 API として提供できるため、LiteLLM Proxy 経由で透過的に切り替える運用が組みやすい。