Skip to content
Bumalik sa listahan ng mga artikulo
Local LLM13分

エッジで動かすローカル LLM 2026: Jetson Orin AGX / Raspberry Pi 5 / Mac mini で SLM を回す

Edge LLM 2026: Running SLMs on Jetson Orin AGX, Raspberry Pi 5 and Mac mini

鈴木 玲奈Edge AI Engineer
2026-04-2513分
ローカルLLMJetsonRaspberry PiSLMPhi-3llama.cppOllama中小企業 AI

Ang artikulong ito ay nasa wikang Hapon. Buod sa Filipino sa ibaba:

Edge LLM 2026: Running SLMs on Jetson Orin AGX, Raspberry Pi 5 and Mac miniクラウドにデータを出せない現場・産業機器・店舗端末で、エッジ LLM の選択肢が一気に増えた。Jetson Orin AGX 64GB、Raspberry Pi 5、Mac mini M4 で実用的な SLM を動かすための最新事情を整理する。

エッジ LLM が現場に降りてきた

工場のライン、医療機器、店舗の POS、車両搭載端末。クラウドにデータを送れない・送りたくない現場は、2026 年でも依然として多数存在する。ありがたいことに 2024〜2026 年の Phi-3 / Gemma 2 / Llama 3.2 / Qwen 2.5 SLM 系の登場により、3〜8B 級モデルの実用品質が大幅に上がり、エッジで動かす意味が出てきた。本稿では Jetson Orin AGX 64GB、Raspberry Pi 5、Mac mini M4 の 3 プラットフォームを比較する。

Jetson AGX Orin 64GB: エッジの本命

NVIDIA Jetson AGX Orin 64GB Developer Kit は、組み込み AI の現場で事実上の標準になっている。275 TOPS、CUDA + TensorRT-LLM、64GB Unified LPDDR5、最大 60W の TDP で、Mistral 7B / Phi-3 medium / Llama 3.1 8B クラスを快適に動かせる。

公開情報によれば (2026-04時点) Mistral 7B Q4_K_M で llama.cpp 上 300 tok/s 超、TensorRT-LLM の INT4 で gpt-oss-20B が約 40 tok/s、DeepSeek-R1-Distill-Qwen-7B で 180 tok/s 級が報告されている。MAXN モード + クロックロックで GPU 周波数を最大化することが性能を引き出す前提だ。

\`\`\`bash # Jetson AGX Orin の MAXN モード設定例 sudo nvpmodel -m 0 sudo jetson_clocks # llama.cpp + CUDA で起動 ./llama-server -m mistral-7b-q4km.gguf \\ --n-gpu-layers 999 --ctx-size 8192 \\ --port 8080 \`\`\`

定価 ¥35〜45 万円とエッジデバイスとしては高価だが、産業 PC 1 台分の予算で 7B 級ローカル LLM が動く事実は、医療・製造・公共インフラの現場で大きな差別化になる。

Raspberry Pi 5: 「動く」と「使える」の境界

Raspberry Pi 5 8GB に Llama 3.2 1B / Phi-3 Mini を載せる事例が大量に共有されているが、結論から言えば「動くが業務利用は厳しい」レンジである。

\`\`\`text Raspberry Pi 5 8GB / llama.cpp 公開ベンチ - Gemma 3 1B Q4: 7〜10 tok/s 実用的 - Llama 3.2 1B Q4: 6〜8 tok/s 実用的 - Phi-3 Mini 3.8B Q4: 4〜7 tok/s 読み上げ程度 - Llama 3.1 8B Q4: 0.7〜2 tok/s 実用外 \`\`\`

業務に使うのであれば 1〜3B クラスに絞り、用途も「定型文の整形」「テンプレート埋め」「短い分類タスク」に限定すべきだ。逆に IoT センサーの異常文章説明や、店舗向け簡易 FAQ といった用途では、¥1.5 万円のハードで AI が動く事実は強い。教育・ホビー用途では依然として最強のコスパである。

Mac mini M4 (16〜32GB): オフィス常駐 SLM サーバーの新定番

  • 年末発売の Mac mini M4 は、ローカル LLM のエッジ用途で隠れたヒーローになっている。最小構成 16GB ¥94,800、32GB 構成でも ¥150,000 弱で、消費電力は 5〜30W、騒音はほぼ無音だ。

公開ベンチでは Mac mini M4 (10コア GPU / 16GB) で Llama 3.1 8B Q4 が約 18〜25 tok/s、Phi-4 14B Q4 が約 10〜14 tok/s が報告されている。Mistral 7B + Ollama + Open WebUI を社内 NAS の脇に置けば、それだけで店舗・支店レベルの「持ち込みデータ専用 AI アシスタント」が完成する。Apple Business Manager と組み合わせれば MDM も容易だ。KGA IT で支店ごとに AI を配備したいというご要望には、Mac mini ベースの提案を最近多用している。

比較表: 用途と価格帯

\`\`\`text プラットフォーム | 価格目安 | 推奨 SLM | 想定用途 Raspberry Pi 5 8GB | ¥15,000 | Gemma 3 1B / Phi-3 Mini | 教育・IoT Mac mini M4 16GB | ¥95,000 | Llama 3.1 8B / Phi-4 | 店舗・支店常駐 Mac mini M4 Pro 64GB | ¥260,000 | 32B Q4 | 部門 LLM サーバー Jetson Orin Nano 8GB | ¥80,000 | Llama 3.2 3B | ロボット / 組込 Jetson AGX Orin 64GB | ¥420,000 | Phi-3 medium / 7B | 産業 AI / エッジ本番 \`\`\`

エッジ LLM 設計の落とし穴

  • つだけ強調しておきたい。第一に、モデル更新の運用設計を最初に決めること。エッジ機材は数百〜数千台規模になりがちで、モデル差し替えのオペレーションが破綻するとプロジェクトごと止まる。第二に、安全側のフォールバック設計。SLM は Hallucination 率が中型モデルより高めで、定型外入力で派手に外す。ルールベースの後段検証や、不確実性推定からの拒否回答が必須だ。第三に、量子化で品質劣化が顕在化したらすぐ Q5_K_M / FP8 に上げる柔軟性を持つこと。

結論: エッジ LLM は「適材適所」で初めて成立する

Raspberry Pi で 70B を回そうとして挫折する例を毎月のように見る。エッジでの成功の鍵は、モデルサイズと用途を狭く絞り、十分なハードを当てることだ。KGA IT では現場ヒアリングからプロトタイプ、PoC、量産展開、運用監視まで、エッジ LLM 案件の全フェーズをご支援している。クラウド前提では成り立たないユースケースこそ、ローカル / エッジ LLM の独壇場である。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ