Skip to content
記事一覧に戻る
Open Source11 min

オープンウェイト 3 強比較: DeepSeek V3.2 vs Qwen3 vs Llama 4 の選定指針

Open Weight Top 3: DeepSeek V3.2 vs Qwen3 vs Llama 4 Selection Guide

Misaki HayashiAI Research Analyst
2026-04-1611 min
DeepSeekQwen3Llama 4Open SourceComparison

3 モデルの位置づけ

| モデル | パラメータ | アクティブ | ライセンス | 提供元 | | --- | --- | --- | --- | --- | | DeepSeek V3.2 | 671B (MoE) | 37B | MIT | DeepSeek (中) | | Qwen3-72B-Instruct | 72B (Dense) | 72B | Apache 2.0 | Alibaba (中) | | Llama 4 Maverick | 400B (MoE) | 17B | Llama 4 Community | Meta (米) |

ライセンス面で MIT/Apache 2.0 の DeepSeek/Qwen が最もクリーンで、Llama 4 は商用利用条件と再配布制限を確認する必要がある。

ベンチマーク

| ベンチ | DeepSeek V3.2 | Qwen3-72B | Llama 4 Maverick | | --- | --- | --- | --- | | MMLU-Pro | 76.4 | 75.1 | 78.2 | | GPQA Diamond | 60.1 | 58.4 | 64.3 | | SWE-bench Verified | 49.2 | 46.7 | 52.8 | | MATH-500 | 90.2 | 88.6 | 87.4 | | JMMLU | 73.4 | 71.6 | 68.9 |

英語ベンチでは Llama 4 がやや優勢、日本語では DeepSeek/Qwen が優位、というのが一貫した傾向。

推論コスト試算

H100 80GB ×4 セルフホストで 64k コンテキスト・100 同時接続の前提:

| モデル | tok/s | VRAM 占有 | 月額目安 | | --- | --- | --- | --- | | DeepSeek V3.2 (FP8) | 800-1,100 | 76% | 350-450 万 | | Qwen3-72B (BF16) | 600-800 | 92% | 320-420 万 | | Llama 4 Maverick (FP8) | 1,200-1,600 | 68% | 380-480 万 |

Llama 4 は activation サイズが小さいぶん吞吐量が伸びやすく、純粋なスループット要求では強い。

日本語対応

  • DeepSeek: 一般タスクは強い、固有名詞・古語は弱め
  • Qwen3: 中国語からの転移で漢字圏知識が深い、敬語の自然さは中
  • Llama 4: 標準日本語タスクは平均的、JMMLU で他 2 つに後れを取る

用途別おすすめ

  • 日本語 FAQ / 社内ナレッジ → DeepSeek V3.2 or Qwen3-72B
  • 英語ドキュメント中心 / SWE タスク → Llama 4 Maverick
  • 中国語混在 / 漢字圏多言語 → Qwen3-72B
  • ライセンス純度重視 → DeepSeek (MIT) or Qwen3 (Apache 2.0)
  • スループット重視(バッチ翻訳、ログ解析) → Llama 4 Maverick

結論

「とりあえず社内 PoC を始めるなら DeepSeek V3.2、日本語タスクで詰まったら Qwen3 と切り替えて評価、英語スループット要件が出てきたら Llama 4 を加える」というプログレッシブな選定が現実的である。3 モデルとも vLLM/SGLang で同じ OpenAI 互換 API として提供できるため、LiteLLM Proxy 経由で透過的に切り替える運用が組みやすい。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら