Vision Hokusai — Tulang Belakang Visi Self-Supervised untuk Inferens Tepi
Vision Hokusai — Self-supervised Vision Backbone for Edge Inference
R&D dalaman untuk model visi self-supervised yang dioptimumkan untuk inferens tepi.
Demo Langsung
Pratonton skrin aplikasi sebenar
ライブ検査ストリーム
モデル比較 (Teacher / Student 蒸留)
| モデル | 役割 | パラメータ | 遅延 | mAP | 電力 |
|---|---|---|---|---|---|
| Teacher ViT-L/16 | 監督 | 304M | 184ms | 94.2% | 62W |
| Student MobileViTv3 | 現場 | 5.8M | 24ms | 91.7% | 8.7W |
過去15フレームの推論遅延 (ms)
エネルギーゲージ
推論
5.2W
センサ
3.5W
Cabaran
Melatih tulang belakang visi yang menyeluruh tanpa label berskala besar, sambil sesuai untuk inferens pada peranti tepi terhad sumber.
Penyelesaian
Latihan self-supervised dengan tujuan kontrastif dan masking, distilasi kepada tulang belakang ringan, dan kuantisasi — dijalankan dalam makmal dalaman.
Hasil
- Penanda aras dalaman: ketepatan top-1 ImageNet sintetik dalam 2pp model selia
- Tulang belakang yang didistilasi dijalankan pada 30+ FPS pada SoC tepi penanda aras
- Beta dalaman dengan 3 jurutera ML penguji — maklum balas positif
- R&D dalaman sahaja — tiada pelanggan berbayar
Measured Impact
教師モデル Linear Probe
81.4%
ImageNet-1k
生徒モデル Linear Probe
76.2%
INT8量子化後
推論レイテンシ
18ms
Jetson Orin Nano
モデルサイズ
6.3MB
INT8
ADE20K mIoU
42.1
セマセグ
What it does
学習パイプライン
マルチクロップ自己教師あり
Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。
iBOT masked patch prediction
入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。
エッジ最適化
INT8 Post-training Quantization
OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。
CoreML Palettization
iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
事前学習層
ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。
Layer
蒸留層
教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。
Layer
エッジ配置層
Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。
How we built it
データ整備と拡張設計
LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。
Deliverables
- 重複除去スクリプト
- マルチクロップ拡張
- データセットカード(Markdown)
教師モデル自己教師あり学習
H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。
Deliverables
- 教師モデル checkpoint
- 学習ログ
- ロス曲線可視化
蒸留と量子化
MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。
Deliverables
- 生徒モデル checkpoint
- 量子化レポート
- 精度劣化分析表
下流評価とSDK
LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。
Deliverables
- 評価レポート
- SDK v0.1(internal)
- ベンチマーク比較表
Delivery Timeline
- Phase 0Done2026-04-23
文献調査とデータパイプライン
DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。
- Phase 1In Progress2026-05-10
教師モデル事前学習
ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。
- Phase 2Planned2026-06-20
MobileViTv3蒸留と量子化
特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。
- Phase 3Planned2026-07-30
下流タスク評価とSDKリリース
LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。
Who built it
Roles
- MLリサーチャ(代表)
- エッジ推論エンジニア(業務委託)
Tools & Platforms
Other
Berminat dengan projek serupa?
Kami akan mencadangkan penyelesaian terbaik untuk perniagaan anda.
Bincang Projek Anda