Skip to content
記事一覧に戻る
models13分

Phi-4とSLM革命: 小型モデルが大型を超える瞬間

Phi-4 & the SLM Revolution: When Small Models Outperform Giants

中村 悠太Senior AI Engineer
2026-03-1213分
Phi-4SLMEdge AIMobile AIModel Optimization

Small Language Modelの時代が来た

  • 年、AI業界の主戦場は「いかに大きくするか」から「いかに小さく高性能にするか」にシフトした。その転換点となったのがMicrosoft Phi-4だ。14Bパラメータという控えめなサイズながら、数学的推論ではGPT-4oに匹敵し、コード生成ではLlama 3.1 70Bを一部ベンチマークで上回る。

この逆転現象の鍵は「データ品質」にある。Phi-4はsynthetic dataを大量に活用した学習パイプラインを採用している。教科書品質のテキストをGPT-4で生成し、それをフィルタリング・キュレーションして学習データとする。量より質のアプローチだ。Microsoftの論文によれば、Phi-4の学習データは約9.8Tトークンだが、そのうち40%以上がsynthetic dataで占められている。

ベンチマーク比較: 14B vs 70B

KGAの社内ベンチマークでPhi-4 14BとLlama 3.1 70Bを比較した結果を示す。MMLU: Phi-4 83.6% vs Llama 70B 82.0%。HumanEval(コード生成): Phi-4 82.9% vs Llama 70B 80.5%。GSM8K(数学): Phi-4 92.3% vs Llama 70B 90.7%。GPQA(大学院レベル推論): Phi-4 56.1% vs Llama 70B 48.0%。

驚くべきは、パラメータ数が5分の1であるにもかかわらず、ほぼ全てのベンチマークでPhi-4が上回っている点だ。ただし、長文生成の品質や多言語対応ではLlama 70Bが依然として優位。Phi-4は英語中心の学習データであり、日本語タスクでの性能はLlama 70Bの約85%程度にとどまる。

エッジデプロイの実践

Phi-4の真価はエッジデバイスでの推論にある。14Bモデルをq4_K_M量子化すると約8GBのRAMで動作し、Apple M2搭載MacBook Airで毎秒25トークンの生成速度が出る。これはユーザーの読書速度を上回り、リアルタイム対話に十分だ。

ONNX Runtime Mobileを使えばAndroid/iOSデバイスでもPhi-4の推論が可能だ。Snapdragon 8 Gen 3搭載のAndroidスマートフォンで、q4_0量子化のPhi-4 14Bが毎秒12トークンの速度で動作することをKGAの検証で確認している。レイテンシは初回トークンまで1.8秒、その後はストリーミングで連続生成される。

実装の具体例として、KGAが開発したオフライン対応のフィールドサービス支援アプリがある。修理技術者が現場でマニュアルを参照する際、Phi-4がデバイス上で質問応答を処理する。ネットワーク接続不要で、顧客データが端末外に出ないためプライバシー要件も満たせる。

モバイルAIの設計パターン

モバイルでSLMを活用する際の設計パターンをいくつか共有する。

Hybrid Inference Pattern: 軽量タスク(テキスト分類、短文生成、エンティティ抽出)はオンデバイスのPhi-4で処理し、複雑なタスク(長文分析、マルチステップ推論)はクラウドAPIにフォールバックする。KGAの実装ではタスク複雑度スコアリングモデル(distilBERT、3MB)がルーティングを判定し、約70%のリクエストをオンデバイスで処理できている。

Speculative Decoding: エッジのPhi-4で高速にdraft tokensを生成し、クラウドの大型モデルで検証・修正するアプローチ。レイテンシを50%削減しつつ、大型モデルと同等の出力品質を維持できる。ただしネットワーク接続が前提となる。

Progressive Loading: モデルの全レイヤーを一度にロードせず、最初の数レイヤーで推論を開始し、残りを非同期でロードする。初回応答までの時間を3.2秒から0.8秒に短縮した事例がある。

コスト比較とROI

クラウドAPIとエッジ推論のコスト比較を示す。月間100万リクエスト(平均入力300トークン、出力500トークン)の場合。GPT-4o mini API: 約$750/月。Phi-4 on edge(開発・配布コスト按分): 約$200/月。コスト削減率は約73%だが、エッジ推論にはモデル更新の配信、デバイス互換性テスト、オンデバイスモニタリングの追加コストが発生する。

SLMの限界と使い分け

SLMは万能ではない。Phi-4が苦手とする領域を明確にしておく。128Kコンテキストのような長文入力の処理、マルチターン対話での文脈維持(20ターン以上で品質低下が顕著)、高度なクリエイティブ・ライティング、最新情報を要する質問(学習データのカットオフ問題)。これらのタスクには依然として大型モデルやRAGが必要だ。KGAの推奨は「SLMをデフォルトとし、必要な場合のみ大型モデルにエスカレーション」というアーキテクチャだ。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ