Vision Hokusai — 边缘推理用自监督视觉基础
Vision Hokusai — Self-supervised Vision Backbone for Edge Inference
针对标签稀缺的日本工业领域图像,使用自监督学习预训练边缘推理用骨干网络的研发原型。
在线演示
实际应用界面预览
ライブ検査ストリーム
モデル比較 (Teacher / Student 蒸留)
| モデル | 役割 | パラメータ | 遅延 | mAP | 電力 |
|---|---|---|---|---|---|
| Teacher ViT-L/16 | 監督 | 304M | 184ms | 94.2% | 62W |
| Student MobileViTv3 | 現場 | 5.8M | 24ms | 91.7% | 8.7W |
過去15フレームの推論遅延 (ms)
エネルギーゲージ
推論
5.2W
センサ
3.5W
挑战
工厂与基础设施巡检视频几乎无标注,云端推理在延迟与机密性上又难以接受。
解决方案
使用公司内部无标签语料预训练 DINOv2 系列自监督骨干,并为下游任务挂载 LoRA 头,在 Jetson 级边缘设备上推理。
成果
- 内部验证数据下缺陷检测 F1 提升 14 个百分点
- 在 Jetson Orin NX 终端上推理延迟达 38ms
- 标注成本仿真预计降低 60%
- 完成对公司 5 条产线 480 小时无标签视频的预训练
Measured Impact
教師モデル Linear Probe
81.4%
ImageNet-1k
生徒モデル Linear Probe
76.2%
INT8量子化後
推論レイテンシ
18ms
Jetson Orin Nano
モデルサイズ
6.3MB
INT8
ADE20K mIoU
42.1
セマセグ
What it does
学習パイプライン
マルチクロップ自己教師あり
Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。
iBOT masked patch prediction
入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。
エッジ最適化
INT8 Post-training Quantization
OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。
CoreML Palettization
iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
事前学習層
ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。
Layer
蒸留層
教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。
Layer
エッジ配置層
Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。
How we built it
データ整備と拡張設計
LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。
Deliverables
- 重複除去スクリプト
- マルチクロップ拡張
- データセットカード(Markdown)
教師モデル自己教師あり学習
H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。
Deliverables
- 教師モデル checkpoint
- 学習ログ
- ロス曲線可視化
蒸留と量子化
MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。
Deliverables
- 生徒モデル checkpoint
- 量子化レポート
- 精度劣化分析表
下流評価とSDK
LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。
Deliverables
- 評価レポート
- SDK v0.1(internal)
- ベンチマーク比較表
Delivery Timeline
- Phase 0Done2026-04-23
文献調査とデータパイプライン
DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。
- Phase 1In Progress2026-05-10
教師モデル事前学習
ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。
- Phase 2Planned2026-06-20
MobileViTv3蒸留と量子化
特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。
- Phase 3Planned2026-07-30
下流タスク評価とSDKリリース
LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。
Who built it
Roles
- MLリサーチャ(代表)
- エッジ推論エンジニア(業務委託)
Tools & Platforms
Other