Skip to content
Volver a la lista de artículos
AI/AGI13分

MDS: Model Distillation Systemで大規模モデルをエッジに展開する

MDS: Deploying Large Models to Edge with Model Distillation System

佐藤 美咲ML Infrastructure Engineer
2026-04-0613分
DistillationQuantizationEdge AIGGUFGPTQ

Este artículo está publicado en japonés. Resumen en español a continuación:

MDS: Deploying Large Models to Edge with Model Distillation System70Bパラメータの大規模モデルを7Bに蒸留し、コンシューマーGPUやエッジデバイスで動作させる技術を詳解。GPTQ、AWQ、GGUFの実践比較と、品質を維持する蒸留テクニック。

エッジAIの需要が爆発している

KGAのクライアントの多くが「クラウドAPIに依存せず、自社インフラでLLMを動かしたい」と求めている。理由はコスト、レイテンシ、データプライバシーの3つ。しかし70Bパラメータのモデルをそのまま動かすには高価なGPUが必要で、中小企業には現実的ではない。そこで登場するのがModel Distillation(知識蒸留)だ。

知識蒸留の基本原理

知識蒸留は、大きなTeacherモデルの知識を小さなStudentモデルに転写する技術だ。核心は、Teacherモデルのsoft label(softmax出力の確率分布)をStudentモデルが模倣するように学習させること。hard label(正解ラベル)だけでは失われる「この回答は70%正しいが30%は別の答えの可能性がある」というニュアンスを、soft labelは保持する。

  • 年現在の蒸留手法は大きく3種類ある。Response-based Distillation(Teacherの出力を模倣)、Feature-based Distillation(中間層の表現を模倣)、Relation-based Distillation(データポイント間の関係性を模倣)。LLMの蒸留ではResponse-basedが最も実用的で、実装も比較的シンプルだ。

70B to 7B: 実践的な蒸留パイプライン

KGAで実際に運用している蒸留パイプラインを紹介する。TeacherはHermes 3 70B、StudentはLlama 3.1 8Bベースのカスタムモデルだ。

Step 1: Teacher推論データセットの生成。対象ドメインの入力データ50,000件に対してTeacherモデルで推論を実行し、入力-出力ペアとlogitsを保存する。この段階でデータの多様性が重要で、KGAではactive learningの手法を応用し、Studentモデルが最も不確実な入力を優先的にTeacher推論に回す。

Step 2: 蒸留学習。StudentモデルをTeacherのsoft labelとhard labelの加重平均で学習する。温度パラメータTは通常4-8が適切で、高すぎると学習が不安定になり、低すぎるとsoft labelのメリットが薄れる。KGAの経験則ではT=6が多くのケースで安定した結果を出す。

Step 3: 品質評価と反復改善。蒸留後のStudentモデルをTeacherと同じベンチマークで評価し、品質ギャップが大きい領域を特定。その領域の追加データで再蒸留を行う。通常3-4回の反復でTeacherの90%以上の品質に到達する。

GPTQ vs AWQ vs GGUF: 量子化手法の実践比較

蒸留後のモデルをさらに軽量化するのが量子化だ。主要3手法を実測値で比較する。

GPTQは後処理量子化の代表格で、キャリブレーションデータを使ってweight単位で最適な量子化パラメータを決定する。4bit量子化で元モデルの95%程度の品質を維持でき、GPUでの推論に最適化されている。CUDA kernelが高度に最適化されており、FP16と比較して2-3倍の推論速度向上が得られる。

AWQ(Activation-aware Weight Quantization)はGPTQの発展形で、activationの統計情報を考慮して重要なweightの精度を保持する。KGAの実測では、GPTQより1-2%品質が高く、特にperplexityが低い。ただし量子化プロセスが遅く、70Bモデルの量子化に約6時間かかる(GPTQは2時間)。

GGUFはllama.cpp独自のフォーマットで、CPUでの推論に最適化されている。GPUがなくてもAVX2対応のCPUで実用的な速度が出るのが最大の利点。量子化バリアントが豊富で、Q2_KからQ8_0まで細かく選択可能。混合精度量子化にも対応しており、重要なレイヤーだけ高精度に保つことができる。

KGAの推奨は、GPUデプロイならAWQ(品質優先)またはGPTQ(速度優先)、CPU/エッジデプロイならGGUF Q4_K_Mだ。

エッジデバイスへの展開

蒸留+量子化済みモデルの実際のデプロイ先を紹介する。RTX 3060(12GB VRAM): 7B Q4_K_Mが快適に動作。応答速度は秒間30トークン程度。Apple M2 Pro(16GB RAM): llama.cppでMetal GPU accelerationを利用し、7B Q4_K_Mで秒間25トークン。Jetson Orin NX(16GB): 3B Q4_K_Mが動作。組み込み用途で秒間10トークン。Raspberry Pi 5(8GB): 1.5B Q3_K_Mが辛うじて動作するが、秒間2トークンで実用には厳しい。

実際のクライアント事例として、KGAが手がけた工場の品質管理AIは、蒸留した3Bモデルを各製造ラインのJetson Orin NXにデプロイしている。不良品画像の分類と異常検知をエッジで処理し、クラウドへの通信遅延なしにリアルタイム判定を実現した。

蒸留の落とし穴と品質維持のコツ

蒸留で最も失敗しやすいのは、Teacherモデルの弱点もStudentに転写してしまうことだ。Teacherがハルシネーションしやすいパターンがあれば、Studentも同じ傾向を持つ。対策として、蒸留データセットの品質フィルタリングが不可欠。KGAではTeacherの出力を別のLLMでfact-checkし、正確性スコアが閾値以下のデータを除外している。

もう一つの重要なポイントは、蒸留とfine-tuningの順序だ。KGAの経験では「汎用蒸留→ドメイン特化fine-tuning」の順序が最良の結果を出す。逆順だと、fine-tuningで獲得した特化知識が蒸留プロセスで薄まるリスクがある。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ