Vision Hokusai — 엣지 추론용 자기 지도 비전 기반
Vision Hokusai — Self-supervised Vision Backbone for Edge Inference
라벨이 부족한 일본 산업 도메인 이미지에 대해 자기 지도 학습으로 엣지 추론용 백본을 사전 학습하는 R&D입니다.
라이브 데모
실제 애플리케이션 화면 미리보기
ライブ検査ストリーム
モデル比較 (Teacher / Student 蒸留)
| モデル | 役割 | パラメータ | 遅延 | mAP | 電力 |
|---|---|---|---|---|---|
| Teacher ViT-L/16 | 監督 | 304M | 184ms | 94.2% | 62W |
| Student MobileViTv3 | 現場 | 5.8M | 24ms | 91.7% | 8.7W |
過去15フレームの推論遅延 (ms)
エネルギーゲージ
推論
5.2W
センサ
3.5W
과제
공장·인프라 점검 영상에 라벨이 거의 없고, 클라우드 추론은 레이턴시·기밀 측면에서 받아들이기 어려웠습니다.
솔루션
DINOv2 계열 자기 지도 백본을 사내 무라벨 코퍼스로 사전 학습하고, 하위 태스크에 LoRA 헤드를 붙여 Jetson급 엣지에서 추론합니다.
성과
- 내부 검증 데이터 기준 결함 검출 F1 +14 포인트
- Jetson Orin NX 단말 추론 레이턴시 38ms 달성
- 라벨링 비용 시뮬레이션상 60% 절감
- 사내 5개 라인 무라벨 영상 480시간으로 사전 학습 완료
Measured Impact
教師モデル Linear Probe
81.4%
ImageNet-1k
生徒モデル Linear Probe
76.2%
INT8量子化後
推論レイテンシ
18ms
Jetson Orin Nano
モデルサイズ
6.3MB
INT8
ADE20K mIoU
42.1
セマセグ
What it does
学習パイプライン
マルチクロップ自己教師あり
Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。
iBOT masked patch prediction
入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。
エッジ最適化
INT8 Post-training Quantization
OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。
CoreML Palettization
iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
事前学習層
ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。
Layer
蒸留層
教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。
Layer
エッジ配置層
Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。
How we built it
データ整備と拡張設計
LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。
Deliverables
- 重複除去スクリプト
- マルチクロップ拡張
- データセットカード(Markdown)
教師モデル自己教師あり学習
H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。
Deliverables
- 教師モデル checkpoint
- 学習ログ
- ロス曲線可視化
蒸留と量子化
MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。
Deliverables
- 生徒モデル checkpoint
- 量子化レポート
- 精度劣化分析表
下流評価とSDK
LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。
Deliverables
- 評価レポート
- SDK v0.1(internal)
- ベンチマーク比較表
Delivery Timeline
- Phase 0Done2026-04-23
文献調査とデータパイプライン
DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。
- Phase 1In Progress2026-05-10
教師モデル事前学習
ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。
- Phase 2Planned2026-06-20
MobileViTv3蒸留と量子化
特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。
- Phase 3Planned2026-07-30
下流タスク評価とSDKリリース
LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。
Who built it
Roles
- MLリサーチャ(代表)
- エッジ推論エンジニア(業務委託)
Tools & Platforms
Other