Vision Hokusai — Backbone Thị Giác Self-supervised cho Edge Inference
Vision Hokusai — Self-supervised Vision Backbone for Edge Inference
R&D nội bộ cho mô hình thị giác self-supervised tối ưu cho inference biên.
Demo trực tiếp
Xem trước giao diện ứng dụng thực tế
ライブ検査ストリーム
モデル比較 (Teacher / Student 蒸留)
| モデル | 役割 | パラメータ | 遅延 | mAP | 電力 |
|---|---|---|---|---|---|
| Teacher ViT-L/16 | 監督 | 304M | 184ms | 94.2% | 62W |
| Student MobileViTv3 | 現場 | 5.8M | 24ms | 91.7% | 8.7W |
過去15フレームの推論遅延 (ms)
エネルギーゲージ
推論
5.2W
センサ
3.5W
Thách thức
Huấn luyện backbone thị giác đa năng mà không cần label quy mô lớn, đồng thời phù hợp inference trên thiết bị biên hạn chế tài nguyên.
Giải pháp
Huấn luyện self-supervised với mục tiêu contrastive và masking, distillation sang backbone nhẹ và quantization — chạy trong phòng lab nội bộ.
Kết quả
- Benchmark nội bộ: độ chính xác top-1 ImageNet tổng hợp trong khoảng 2pp của model có giám sát
- Backbone đã distill chạy trên 30+ FPS trên SoC biên benchmark
- Beta nội bộ với 3 kỹ sư ML — phản hồi tích cực
- Chỉ R&D nội bộ — không có khách hàng trả phí
Measured Impact
教師モデル Linear Probe
81.4%
ImageNet-1k
生徒モデル Linear Probe
76.2%
INT8量子化後
推論レイテンシ
18ms
Jetson Orin Nano
モデルサイズ
6.3MB
INT8
ADE20K mIoU
42.1
セマセグ
What it does
学習パイプライン
マルチクロップ自己教師あり
Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。
iBOT masked patch prediction
入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。
エッジ最適化
INT8 Post-training Quantization
OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。
CoreML Palettization
iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
事前学習層
ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。
Layer
蒸留層
教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。
Layer
エッジ配置層
Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。
How we built it
データ整備と拡張設計
LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。
Deliverables
- 重複除去スクリプト
- マルチクロップ拡張
- データセットカード(Markdown)
教師モデル自己教師あり学習
H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。
Deliverables
- 教師モデル checkpoint
- 学習ログ
- ロス曲線可視化
蒸留と量子化
MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。
Deliverables
- 生徒モデル checkpoint
- 量子化レポート
- 精度劣化分析表
下流評価とSDK
LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。
Deliverables
- 評価レポート
- SDK v0.1(internal)
- ベンチマーク比較表
Delivery Timeline
- Phase 0Done2026-04-23
文献調査とデータパイプライン
DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。
- Phase 1In Progress2026-05-10
教師モデル事前学習
ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。
- Phase 2Planned2026-06-20
MobileViTv3蒸留と量子化
特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。
- Phase 3Planned2026-07-30
下流タスク評価とSDKリリース
LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。
Who built it
Roles
- MLリサーチャ(代表)
- エッジ推論エンジニア(業務委託)
Tools & Platforms
Other
Bạn quan tâm đến dự án tương tự?
Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.
Trao đổi về dự án