Skip to content
Back to articles
AI/AGI14分

オープンソースLLM 2026ランドスケープ: Llama 4、Mistral、Qwen 3、DeepSeek、Phi-4

Open-Source LLM Landscape 2026: Llama 4, Mistral Large 3, Qwen 3, DeepSeek, Phi-4

佐藤 美咲ML Infrastructure Engineer
2026-04-1014分
Open SourceLLMvLLMSGLangTensorRT-LLM

This article is published in Japanese. Summary in English below:

Open-Source LLM Landscape 2026: Llama 4, Mistral Large 3, Qwen 3, DeepSeek, Phi-4The 2026 open-source LLM landscape: Llama 4, Mistral Large 3, Qwen 3, DeepSeek and Phi-4 compared head-to-head, plus vLLM/SGLang/TensorRT-LLM inference tuning and adoption guidance.

2026年OSS LLMの勢力図

  • 年第1四半期、オープンソース LLM の品質はクローズドモデルに迫る段階に到達した。フロンティア級の一部タスクでは依然 Claude Opus 4.7 や GPT-5 が優位だが、多くの実務タスクで OSS は「十分すぎる品質」を提供している。特に社内データを外部に出せない規制領域では、OSS がデフォルト選択肢だ。

主要プレイヤーは5陣営。Meta の Llama 4(405B dense、MoE variant あり)、Mistral の Mistral Large 3(MoE 600B)、Alibaba の Qwen 3(多言語強化)、DeepSeek の DeepSeek-V3.5(推論特化)、Microsoft の Phi-4(14B small model)。それぞれ異なる設計哲学とライセンス戦略を持つ。

Llama 4: 商用利用の主流

Meta の Llama 4 は2026年2月にリリースされ、405B dense 版と 8x70B MoE 版の2系統を提供する。MMLU-Pro で82%、SWE-bench で71%、Humanity's Last Exam で38%と、オープンモデルの新基準を打ち立てた。ライセンスは引き続き Llama Community License で、月間アクティブユーザー7億人超のサービスのみ個別交渉が必要。

推論コストの観点では、8x70B MoE が1トークンあたりのアクティブパラメータが約130B に相当し、405B dense より40%高速。多くの企業導入事例で MoE 版が選ばれており、AWS Bedrock、Azure AI Foundry、GCP Vertex でも標準提供される。

Mistral Large 3: 欧州の切り札

Mistral Large 3 は MoE 600B(アクティブ120B)で、特に多言語タスクとコード生成で強い。ライセンスは Mistral Research License(非商用無料)と Commercial License の二段構成で、商用利用は有料だが値段設定は GPT-4o の約3分の1。

特筆すべきは tool calling の精度で、Berkeley Function Calling Leaderboard で OSS トップを記録している。エンタープライズ向け AI エージェント基盤として採用する企業が欧州を中心に急増しており、Saba(サーバーサイド推論 API)経由でのトラフィックが前年比3倍に伸びた。

Qwen 3: 多言語と長コンテキスト

Alibaba の Qwen 3 は2025年末に公開された235B MoE モデルで、日本語を含むアジア言語での品質が際立つ。長コンテキスト処理も強力で、1M トークンコンテキストに対応する Qwen 3-1M variant が提供されている。

KGA の日本語ベンチマーク(JGLUE 拡張版)では、Qwen 3 が Claude 3.5 Sonnet に0.5ポイント差まで迫り、Llama 4 を2ポイント上回った。中国語データに強く引きずられる bias は残るが、日本語ビジネス文書の要約・分類タスクでは実用上最強クラスだ。

DeepSeek-V3.5: 推論特化の異端児

DeepSeek は引き続き推論タスクに特化した開発を続け、DeepSeek-V3.5 は数学・コーディング・科学的推論で OSS トップ性能を示す。MATH ベンチマークで92%、AIME 2025 で84%と、専門領域では Claude Opus 4.7 に匹敵する。

ライセンスは MIT に近い寛容さで、商用利用も完全無料。訓練コストを圧倒的に抑えた「効率的スケーリング」のアプローチは業界の注目を集めている。ただし中国企業という点から、西側企業の社内利用では審査プロセスが必要になるケースが多い。

Phi-4: 小さくて強いモデルの代表

Microsoft の Phi-4(14B)は small language model の最前線だ。蒸留と高品質合成データを徹底活用し、パラメータ数の10倍規模のモデルに匹敵する推論性能を達成する。MMLU 84.8%、HumanEval 82.6% で、14B とは思えない数値だ。

  • B サイズは単一 GPU での fine-tuning が現実的で、特定ドメインへのカスタマイズが容易。KGA のクライアントでは、製造業の FAQ 応答、小売の商品説明生成、法律事務所の契約書要約など、限定ドメインでの Phi-4 fine-tuned 運用が急増している。

推論スタックの選び方

OSS LLM のデプロイには推論エンジンの選択が重要だ。3大選択肢を比較する。

vLLM は PagedAttention と continuous batching で高スループットを実現する業界標準。対応モデルが最も広く、Llama/Mistral/Qwen/DeepSeek 全てをサポートする。スループット最適化の baseline として最初に検討すべきツール。

SGLang は複雑な control flow を持つエージェントワークロードに最適化されている。RadixAttention でプレフィックスキャッシュの効率が vLLM より30%高く、tool use を多用するシステムでレイテンシ改善が顕著だ。Llama 4 の参照実装としても推奨される。

TensorRT-LLM は NVIDIA GPU 環境で極限性能を求める場合の選択肢。kernel 最適化で vLLM を20〜35%上回るスループットを出せるが、モデル変換とチューニングの工数が大きい。H100/B100 の性能を本当に引き出したい場合のみ採用する。

導入判断のフレームワーク

実務的な選定指針は3点に集約される。第一に「タスクドメイン」。汎用なら Llama 4、多言語なら Qwen 3、推論重視なら DeepSeek、エッジ・小型なら Phi-4、欧州コンプライアンス重視なら Mistral。第二に「ライセンス制約」。完全 OSS 商用利用なら DeepSeek か Qwen、Meta 系エコシステム活用なら Llama 4。第三に「インフラ運用能力」。自社運用なら vLLM、性能最優先なら TensorRT-LLM、エージェント中心なら SGLang。

KGA では2026年上半期時点で、企業向けデフォルト推奨は「Llama 4 8x70B MoE × vLLM × H100 80GBx4」の構成だ。月間1,000万リクエストを処理する実運用クラスタで、Claude 3.5 Sonnet 相当の品質を約 $8,000/月 で実現できる。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ