Hokusai — Visión Auto-Supervisada para Edge
Vision Hokusai — Self-supervised Vision Backbone for Edge Inference
Modelos de visión auto-supervisados optimizados para inferencia en edge (Jetson, OpenVINO). Prototipo de I+D para validación interna.
Demo en vivo
Vista previa de la pantalla real de la aplicación
ライブ検査ストリーム
モデル比較 (Teacher / Student 蒸留)
| モデル | 役割 | パラメータ | 遅延 | mAP | 電力 |
|---|---|---|---|---|---|
| Teacher ViT-L/16 | 監督 | 304M | 184ms | 94.2% | 62W |
| Student MobileViTv3 | 現場 | 5.8M | 24ms | 91.7% | 8.7W |
過去15フレームの推論遅延 (ms)
エネルギーゲージ
推論
5.2W
センサ
3.5W
Desafío
Recolectar y etiquetar datasets para cada caso de uso de edge era inviable. Los modelos supervisados no generalizaban bien en dispositivos con pocos recursos.
Solución
Pre-entrenamiento auto-supervisado (estilo DINOv2) seguido de adaptación ligera por few-shot. Cuantización INT8 y exportación para Jetson Orin / OpenVINO. Todo ejecutándose como prototipo de I+D.
Resultados
- Inferencia 22 FPS en Jetson Orin Nano (datos internos)
- Top-5 precisión 89% con 50 muestras etiquetadas (datos internos)
- Tamaño del modelo: 38MB tras cuantización (datos internos)
- Validación en 4 escenarios internos de edge
Measured Impact
教師モデル Linear Probe
81.4%
ImageNet-1k
生徒モデル Linear Probe
76.2%
INT8量子化後
推論レイテンシ
18ms
Jetson Orin Nano
モデルサイズ
6.3MB
INT8
ADE20K mIoU
42.1
セマセグ
What it does
学習パイプライン
マルチクロップ自己教師あり
Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。
iBOT masked patch prediction
入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。
エッジ最適化
INT8 Post-training Quantization
OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。
CoreML Palettization
iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
事前学習層
ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。
Layer
蒸留層
教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。
Layer
エッジ配置層
Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。
How we built it
データ整備と拡張設計
LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。
Deliverables
- 重複除去スクリプト
- マルチクロップ拡張
- データセットカード(Markdown)
教師モデル自己教師あり学習
H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。
Deliverables
- 教師モデル checkpoint
- 学習ログ
- ロス曲線可視化
蒸留と量子化
MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。
Deliverables
- 生徒モデル checkpoint
- 量子化レポート
- 精度劣化分析表
下流評価とSDK
LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。
Deliverables
- 評価レポート
- SDK v0.1(internal)
- ベンチマーク比較表
Delivery Timeline
- Phase 0Done2026-04-23
文献調査とデータパイプライン
DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。
- Phase 1In Progress2026-05-10
教師モデル事前学習
ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。
- Phase 2Planned2026-06-20
MobileViTv3蒸留と量子化
特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。
- Phase 3Planned2026-07-30
下流タスク評価とSDKリリース
LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。
Who built it
Roles
- MLリサーチャ(代表)
- エッジ推論エンジニア(業務委託)
Tools & Platforms
Other
¿Interesado en un proyecto similar?
Te propondremos la mejor solución para tu negocio.
Consultar sobre tu proyecto