Skip to content
Volver a la lista de artículos
models11分

Llama 4: Metaのオープンソース革命が加速

Llama 4: Meta's Open Source Revolution Accelerates

鈴木 健一 / Kenichi SuzukiFull-Stack Engineer
2026-04-0211分
LlamaMetaOpen SourceMoEScoutMaverick

Este artículo está publicado en japonés. Resumen en español a continuación:

Llama 4: Meta's Open Source Revolution AcceleratesLlama 4のScout/Maverickモデルが登場。Mixture of Experts (MoE)アーキテクチャの採用と、オープンソースAIコミュニティへのインパクトを分析する。

Llama 4の衝撃: MoEへの転換

MetaがLlama 4で最大の技術的転換を果たした。Llama 3までのdenseモデルアーキテクチャを捨て、Mixture of Experts (MoE)を全面採用したのだ。Llama 4 Scoutは17Bアクティブパラメータ/109B総パラメータ、Llama 4 Maverickは17Bアクティブ/400B総パラメータという構成。推論時には入力に応じて最適なexpertサブセットのみを活性化するため、巨大なモデルでありながら推論コストはdense 17Bモデル相当に抑えられる。

これは実運用上のゲームチェンジャーだ。Llama 3.1 70Bを動かすにはA100 80GBが2枚必要だったが、Llama 4 Maverickは同等以上の品質を1枚で推論できる。KGAの検証では、MMLU-ProでMaverickが86.8%を記録し、Llama 3.1 70Bの82.4%を大幅に上回った。

ScoutとMaverickの使い分け

Scoutは10万トークンのコンテキストウィンドウを持つ軽量高速モデル。推論速度はA100 1枚で秒間45トークン(Q4量子化時)と極めて高速だ。日常的なコード生成、テキスト処理、チャットボットのバックエンドに最適。

MaverickはScoutの上位モデルで、品質重視のタスクに対応する。100万トークンのコンテキストウィンドウを持ち、ロングコンテキスト処理ではGemini 2.0 Flashに匹敵する。ただし推論速度はScoutの60%程度で、コスト効率ではScoutに劣る。

KGAでの実運用比率はScout 70%、Maverick 30%。タスクの複雑度をスコアリングし、閾値以下はScout、以上はMaverickにルーティングしている。

MoEアーキテクチャの技術詳細

Llama 4のMoE実装はGShard方式をベースにしている。各Transformer層にexpert FFN (Feed-Forward Network)が複数配置され、Router networkが入力トークンごとに上位2つのexpertを選択する。Maverickは128のexpertを持ち、各トークンで2つが活性化される。

KGAが注目したのはexpert specializationのパターンだ。学習済みモデルのexpert活性化パターンを分析すると、特定のexpertが特定のドメイン(コード、数学、自然言語等)に特化していることが観察された。これは意図的な設計ではなく、学習過程で自然に獲得された特性だ。

この特性を利用したfine-tuningが可能で、特定ドメインに対応するexpertのみをfine-tuningすることで、他ドメインの性能を劣化させずに特化性能を向上できる。KGAのクライアント向けカスタマイズで、全expert fine-tuningと比較して学習時間を85%削減しつつ同等の品質改善を達成した。

オープンソースエコシステムへの影響

Llama 4のライセンスはLlama 3と同じカスタムライセンスで、月間アクティブユーザー7億人以下のサービスは無料で商用利用可能だ。実質的にほぼ全ての企業が無料で使える。

HuggingFace上のLlama 4派生モデルはリリース1ヶ月で200以上に達した。特にGGUF量子化版、日本語特化fine-tuning版、コーディング特化版の需要が高い。KGAも日本語ビジネス文書に特化したLlama 4 Scout fine-tuning版を社内で運用しており、ビジネスメール生成の品質がベースモデルから23%向上した。

Llama 4 vs 競合オープンモデル

同時期の競合オープンモデルとの比較を記す。Llama 4 Maverick vs Qwen 3 72B: MMLUでMaverick 86.8% vs Qwen 85.2%。ただし日本語・中国語タスクではQwenが優位。Llama 4 Scout vs Gemma 3 27B: 同等サイズでの品質はほぼ互角だが、Scoutの方がコンテキスト長で有利。Llama 4 Maverick vs Mistral Large 2: コーディングタスクではMistralが若干優位、汎用タスクではMaverickが上。

オープンモデルの選択は単純なベンチマークスコアだけでは決まらない。デプロイ環境、対象言語、タスク特性、ライセンス要件を総合的に考慮する必要がある。KGAでは月次でオープンモデルのベンチマークを更新し、クライアントの要件に最適なモデルを推奨している。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ