Skip to content
Voltar aos artigos
Local LLM13分

Mac で動かすローカル LLM 完全比較 2026: M4 Max 128GB と M4 Ultra (M3 Ultra 256GB) の実力

Running Local LLMs on Mac in 2026: M4 Max 128GB vs M3 Ultra 256GB

佐藤 美咲Senior ML Engineer
2026-04-2413分
ローカルLLMM4 MaxApple SiliconMac Studiollama.cppOllamaMLX量子化

Este artigo está publicado em japonês. Resumo em português abaixo:

Running Local LLMs on Mac in 2026: M4 Max 128GB vs M3 Ultra 256GBApple Silicon の Unified Memory は 128GB / 256GB クラスで本領発揮する。M4 Max MacBook Pro と Mac Studio (M3 Ultra 256GB) で 70B〜200B 級モデルが現実的に動く時代の、最新ベンチと選び方。

なぜいま Mac でローカル LLM なのか

Apple Silicon の Unified Memory アーキテクチャは、CPU と GPU が同一の物理メモリプールを参照するため、巨大モデルを「VRAM 不足」で諦める必要がない。NVIDIA GeForce 系が 24〜32GB で詰まる中、M4 Max は 128GB、M3 Ultra Mac Studio は 256GB の Unified Memory を提供する。2026 年春時点で、これは 70B 級を Q4_K_M で完全オンメモリ実行できる、最も静かでコンパクトな選択肢である。

M4 Max / M4 Pro / M3 Ultra のスペック整理

公開情報によれば (2026-04時点) 各構成のメモリ帯域とコア数は以下の通り。

| チップ | 最大メモリ | メモリ帯域 | GPU コア | TDP 目安 | |---|---|---|---|---| | M4 (MacBook Air) | 32GB | 約 120 GB/s | 10 | 〜20W | | M4 Pro | 48GB | 約 273 GB/s | 16〜20 | 〜35W | | M4 Max | 128GB | 約 546 GB/s | 32〜40 | 〜60W | | M3 Ultra (Mac Studio) | 256GB | 約 819 GB/s | 60〜80 | 〜180W |

注意点として、2026 年 4 月時点の Mac Studio 上位は M3 Ultra のままで、M4 Ultra は未発表の前提で記述する。M4 Max 128GB の 546 GB/s は RTX 4090 の約半分の帯域だが、容量が約 5 倍ある点が決定的に重要だ。

実測トークン/秒: Llama 3.1 8B / 70B Q4_K_M

複数の公開ベンチを集約すると以下のレンジに収まる。

\`\`\`text Llama 3.1 8B Q4_K_M (llama.cpp / MLX) - M4 Pro 48GB: 約 35〜45 tok/s - M4 Max 128GB: 約 50〜60 tok/s - M3 Ultra 256GB: 約 70〜85 tok/s - 参考 RTX 4090: 約 130 tok/s

Llama 3.1 70B Q4_K_M (約 42GB) - M4 Max 128GB: 約 9〜12 tok/s - M3 Ultra 256GB: 約 14〜18 tok/s - 参考 RTX 5090 1枚: 約 22〜28 tok/s \`\`\`

  • tok/s 前後あれば対話 UX として実用的である。M4 Max 128GB は 70B Q4 をロードした後も 80GB 以上の余裕があり、長コンテキスト (32k〜128k) や RAG のドキュメント保持にも対応できる。

MLX か llama.cpp か

Apple Silicon 向けには 2 系統の主要ランタイムがある。

  • \`llama.cpp\` / \`Ollama\`: GGUF フォーマット、Metal バックエンド、Linux/Win との互換性が高い
  • \`mlx-lm\` / \`MLX\`: Apple 純正、PyTorch 風 API、量子化と推論がやや高速な場面あり

ベンチによっては MLX が llama.cpp 比 10〜20% 高速というケースが報告されているが、エコシステムの広さでは GGUF + Ollama が依然優勢である。中小企業の社内導入では Ollama + Open WebUI の組み合わせが運用コストの面で最も無難だ。

Mac Studio M3 Ultra 256GB は誰のためか

  • GB 構成は約 ¥1,500,000 前後と高価だが、Llama 4 405B Q4 (約 220GB) や Qwen 3 235B 級を 1 台で回せる、業務用としては破格の選択肢である。Mac Studio は 240W TDP 級、騒音も最小限で、オフィスのデスクサイドに置ける「個人持ち AGI 級ワークステーション」として唯一無二だ。法人 IT として導入する場合、MDM / FileVault / Apple Business Manager の整備が前提となる点には注意したい。

ボトルネックと割り切り: プロンプト処理速度

Mac の弱点はプロンプト処理 (prefill) の遅さである。NVIDIA GPU 比で 1/3 〜 1/5 程度しか出ず、長い RAG コンテキストを毎回投げる用途では待ち時間が顕在化する。対策としては (1) KV キャッシュの再利用、(2) 文脈の圧縮 / 要約、(3) サマライザを別の小モデルに分離、といったアーキテクチャ工夫が有効である。

結論: Mac は「静音・大容量・省電力」のスイートスポット

電源容量・騒音・設置場所の制約がある中小企業の現場では、M4 Max 128GB MacBook Pro + Ollama という構成が、70B 級ローカル LLM の最短導入ルートである。サーバー室を持たないお客様向けに、KGA IT でも Mac ベースのローカル LLM 構築支援を提供している。NVIDIA GPU との使い分けは、推論スループット要件と稼働モデル数で判断すれば良い。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ