Skip to content
Bumalik sa listahan ng mga artikulo
AI/AGI10分

オンデバイスSLM 2026:Phi-4・Gemma 3・Llama 3.3 8B量子化で8GB RAMに何が載るか

On-Device SLMs 2026: Phi-4, Gemma 3, Llama 3.3 8B Quantized — What Fits in 8GB RAM

佐藤 健エッジAIエンジニア
2026-04-2310分
SLMオンデバイスPhi-4Gemma 3Llama 3.3量子化

Ang artikulong ito ay nasa wikang Hapon. Buod sa Filipino sa ibaba:

On-Device SLMs 2026: Phi-4, Gemma 3, Llama 3.3 8B Quantized — What Fits in 8GB RAMクラウドに送らず手元で動かすSLM(Small Language Model)が2026年の実務候補になりつつある。Phi-4、Gemma 3、Llama 3.3 8Bを量子化して8GB RAMのノートPCやスマートフォンに載せる際の現実的な選択肢と、性能の天井を整理する。

オンデバイスSLMは「全てをクラウドに投げる」アーキテクチャからの離脱点として注目を集めている。レイテンシ、プライバシー、オフライン動作、そしてコストの4点で上位モデルに勝ち目があるからだ。2026年時点で実用レンジに入った代表格が Microsoft Phi-4(14B/mini 3.8B)、Google Gemma 3(4B/12B/27B)、Meta Llama 3.3 8B 系統である。本稿ではこれらを「8GB RAM の民生機に載る」前提で比較する。

量子化とメモリ消費の基本

FP16(半精度)での重みサイズはおおむね「パラメータ数 × 2 バイト」。8Bモデルなら約16GBで、8GB RAM には載らない。ここで登場するのが量子化である。INT8 で約半分、Q4_K_M(llama.cpp の4bit量子化)で概ね 1/4 まで縮む。8Bモデルの Q4_K_M は約4.5〜5.2GB 程度が目安で、KVキャッシュとOS常駐分を含めて 8GB RAM ギリギリに収まる。Phi-4 mini(3.8B)なら Q4 で 2〜2.5GB 程度となり、余裕がある。

Phi-4(Microsoft)

Microsoft が2024年末に公開した Phi-4 は合成データ重視のトレーニングで、数学・推論ベンチで同クラスを上回る傾向が公式テクニカルレポートで報告されている(未検証の独自ベンチではない)。mini 版(3.8B)はモバイル・組み込みを明確に意識した位置づけで、ライセンスは MIT 系に近い寛容な条件。日本語は「通じる」が、母語話者レベルの自然さはまだ物足りない印象で、翻訳用途や要約用途に寄せるのが無難だ。

Gemma 3(Google)

Gemma 3 は 4B/12B/27B の3サイズ展開で、4B がオンデバイスの主力候補。公式発表ではマルチモーダル対応(画像入力)と 128K コンテキストが特徴とされ、8GB RAM でも Q4 量子化で動作が可能とされている(実測は環境依存)。ライセンスは Gemma Terms of Use で、商用利用に追加条件がある点は事前確認が必須。日本語の自然さは Phi-4 より優位との評価が散見されるが、用途により逆転もある。

Llama 3.3 8B 系統

Meta の Llama 3.3 は 70B が主力だが、派生・ファインチューン版で 8B 級のバリアントが流通している。Llama.cpp・Ollama・LM Studio 等のエコシステムが最も成熟しており、ツール連携・プロンプト資産の再利用性で実務上の優位がある。ライセンスは Llama Community License で、月間アクティブユーザー7億超の企業には別契約が要る。

性能の天井

SLM はいずれも「長文の論理的破綻」「マルチステップのツール呼び出し精度」「専門知識の深さ」で上位モデルに届かない。エージェント的運用をオンデバイスで回すのは2026年時点ではまだ厳しく、用途は要約、下書き、翻訳、分類、RAG のリーダー役などに限定した方がいい。ルーティング(簡単なものはSLM、難しいものはクラウド)構成が現実解である。

選び方の指針

日本語の自然さ重視なら Gemma 3 4B、軽量さと数学/推論なら Phi-4 mini、エコシステム・ツール資産を活かすなら Llama 3.3 8B 派生。いずれも本番投入前には自社タスクでの実測が必須で、公開ベンチマークだけで決めるのは禁物だ。

実行環境の選択

macOS 環境では Apple Silicon の Metal アクセラレーションに最適化された llama.cpp/MLX が事実上の標準。Windows は CUDA が使えるなら llama.cpp か Ollama、CPU のみなら量子化レベルを Q4 より下げる必要がある場合もある。Linux サーバでは vLLM や TGI がスループット重視で強いが、単一クライアントの会話用途なら llama.cpp で十分なことが多い。モバイル(iOS/Android)では MLC LLM や llama.cpp の派生ビルドが選択肢になる。

KVキャッシュとコンテキスト長

忘れがちなのが KVキャッシュのメモリ消費だ。8Bモデルで 8K トークンのコンテキストを保持すると、キャッシュだけで 1〜2GB 程度食う場合があり、RAM の見積もりが狂う。長文要約や RAG で大きなコンテキストを張る用途では、コンテキスト長を現実的な範囲に絞るか、量子化レベルをさらに下げるトレードオフが発生する。

ライセンスとオフライン配布

オンデバイス配布では「アプリにモデルを同梱するか」「初回起動時にダウンロードするか」の設計も重要だ。モデルファイルは数GB級になり、アプリサイズと配信コストに直結する。Phi-4 の MIT 系寛容ライセンスは再配布も含めて最も扱いやすい部類で、Gemma・Llama は条件付きのため、配布形態を含めた法務確認を最初のスプリントに入れることを推奨する。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ