狐 — エッジ AI ツールキット
Kitsune — Edge AI Toolkit
NVIDIA Jetson (Orin Nano / AGX)、Raspberry Pi 5、Amazon Fire TV Stick を単一のビルドパイプラインと OCI ディストリビューション機構で扱うエッジ AI ツールキット。TensorRT-LLM、llama.cpp、whisper.cpp を共通マニフェストから配布できる内部 R&D プロトタイプ。
ライブデモ
実際のアプリケーション画面のプレビュー
Device fleet
Jetson Orin Nano
onlinerole: edge inference · id: jetson-01
OCI artifact registry
| artifact | size | layers | digest | pulls |
|---|---|---|---|---|
| llama-3.3-8b-q4_k_m | 4.8 GB | 32 | sha256:7a3f…d2e8 | 128 |
| whisper-small-q8 | 244 MB | 12 | sha256:11b2…94aa | 311 |
| phi-3.5-mini-q4 | 1.9 GB | 16 | sha256:c407…5f1d | 76 |
| yolo-v8n-edgetpu | 6.2 MB | 1 | sha256:e95a…02bc | 1042 |
| nomic-embed-v1.5 | 138 MB | 4 | sha256:ff80…2207 | 203 |
Per-device benchmarks
Cross-device orchestration
GitOps · signed rollouts (cosign)課題
エッジ機器は SoC・GPU・NEON/AVX 対応状況・OS (L4T / Raspberry Pi OS / Fire OS) がすべて異なり、モデルとランタイムのバージョン整合を手作業で追うと破綻する。特に Fire TV 系は Android TV 派生で ABI も独特で、共通配布の難度が高い。
ソリューション
モデル・量子化設定・ランタイムバイナリを OCI Artifact としてコンテナレジストリに格納し、デバイス側エージェント (Kitsune Agent, Rust 実装) が ABI/SoC プロファイルに合わせて自動選択してプル。Jetson は TensorRT-LLM、Pi5 は llama.cpp (NEON)、Fire TV は llama.cpp + whisper.cpp を ABI 対応ビルドで配信。
成果
- Jetson Orin Nano で Llama 3.2 3B Q4 を 38 tok/s で内部ベンチ達成
- Pi5 で whisper.cpp small を RTF 0.42 で動作確認
- Fire TV Stick 3rd Gen (ARMv8) 向けに llama.cpp Q4 2.1 tok/s 配信成功
- OCI Artifact 配信で更新適用時間を平均 14s に短縮 (内部ラボ)
Measured Impact
Jetson Orin Nano
38 tok/s
Llama3.2 3B Q4
Pi5 whisper
RTF 0.42
small
Fire TV 3rd Gen
2.1 tok/s
Q4
更新適用時間
14s
avg
What it does
配信
OCI Artifact
モデルをイメージと同じ仕組みで配布・署名。
プロファイル照合
ABI/SoC に合う Artifact を自動選択。
推論
マルチランタイム
TensorRT-LLM / llama.cpp / whisper.cpp を統一 CLI で操作。
量子化プリセット
Q4/Q5/Q8 をデバイス別に推奨。
運用
OTA ロールアウト
段階的配信と自動ロールバックを標準装備。
Prometheus 連携
tok/s・温度・電力をデバイス別に可視化。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
配信
モデル・ランタイムを OCI Artifact として署名付きで配布する中央レジストリ。
Layer
デバイスエージェント
Rust 製エージェントがデバイスプロファイルを検出し、最適な Artifact をプル。
Layer
ランタイム
推論バックエンドを統一 CLI (kitsune run) から起動し、メトリクスを Prometheus に公開。
Layer
運用
複数デバイス状態とロールアウト進行を一元表示する内部ダッシュボード。
How we built it
プロファイル定義
各デバイスの SoC/OS/ABI を機械可読な YAML に落とす。
Deliverables
- Profile YAML
- Probe 実装
- 検出テスト
Artifact パイプライン
モデルと量子化設定を OCI Artifact にビルドし署名。
Deliverables
- Build スクリプト
- 署名ポリシー
- レジストリ設定
ランタイム統合
TensorRT-LLM / llama.cpp / whisper.cpp を共通 CLI 配下にまとめる。
Deliverables
- kitsune run
- ベンチスクリプト
- サンプルモデル
フリート運用
OTA ロールアウトと監視を統合し、内部ラボデバイスで検証。
Deliverables
- Rollout Controller
- Fleet Dashboard
- 運用手順書
Delivery Timeline
- Phase 0Done2026-04-24
デバイスプロファイル
Jetson / Pi5 / Fire TV の SoC・ABI・OS 特性をプロファイル化。
- Phase 1Done2026-04-25
OCI Artifact 配信
モデル・ランタイムを OCI Artifact に梱包し、エージェントから取得。
- Phase 2Planned2026-05
TensorRT-LLM 統合
Jetson Orin 向けに TensorRT-LLM ビルドを自動化。
- Phase 3Planned2026-06
Fire TV 拡張
Fire OS 向け ABI ビルドと ADB デプロイを統合。
Who built it
Roles
- エッジ SRE
- ML エンジニア
Tools & Platforms
Backend
Infrastructure
Other