Skip to content
Back to Portfolio
AI / Machine LearningResearch

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

An edge-focused vision backbone learned via DINOv3-style self-supervision, distilled into MobileViTv3, and pushed through INT8 quantization on OpenVINO/CoreML. Targets near-zero-shot transfer to classification, detection, and segmentation. Internal R&D.

2026 Ongoing (internal R&D) 2026-04
#自己教師あり学習#エッジAI#蒸留#量子化#R&D

Live Demo

Preview the actual application interface

DEMO
app.vision.jp/dashboard
推論速度
42 fps
Jetson Orin Nano
消費電力
8.7 W
-86% vs GPU
遅延
24 ms
フレーム平均
検出精度
91.7%
[email protected]

ライブ検査ストリーム

録画中
scratch 94pit 81
F-0421
NG
金属表面 #A122 検出
scratch94%
crack 97
F-0422
NG
溶接継手 #B071 検出
crack97%
F-0423
OK
鋳造面 #C330 検出
bubble 88bubble 76scratch 69
F-0424
NG
塗装面 #D183 検出
bubble88%

モデル比較 (Teacher / Student 蒸留)

モデル役割パラメータ遅延mAP電力
Teacher ViT-L/16監督304M184ms94.2%62W
Student MobileViTv3現場5.8M24ms91.7%8.7W

過去15フレームの推論遅延 (ms)

エネルギーゲージ

8.7W目標 10W 以下

推論

5.2W

センサ

3.5W

Challenge

To dodge cloud-inference latency and privacy constraints, we needed sub-20ms inference on phones, Jetson Orin Nano, and Intel NUC. MobileNet/EfficientNet families plateau on downstream accuracy, and we wanted to avoid licensing constraints tied to large supervised ImageNet pre-training.

Solution

ViT-Base/14 served as the teacher under DINOv3 multi-crop + iBOT objectives. Knowledge transferred to MobileViTv3-XS via feature-alignment distillation (FitNet + Attention Transfer), then OpenVINO POT and CoreML INT8 quantization kept accuracy loss within 1%. Evaluation unified across LVIS, ADE20K, and iNaturalist.

Results

  • MobileViTv3-XS + INT8 hits 18 ms/frame on Jetson Orin Nano
  • ImageNet-1k Linear Probe at 76.2% (teacher ViT-Base reached 81.4%)
  • ADE20K semantic segmentation mIoU of 42.1
  • Model size 6.3 MB — 74% smaller than the 24.8 MB FP32 baseline
Key Metrics

Measured Impact

教師モデル Linear Probe

81.4%

ImageNet-1k

生徒モデル Linear Probe

76.2%

INT8量子化後

推論レイテンシ

18ms

Jetson Orin Nano

モデルサイズ

6.3MB

INT8

ADE20K mIoU

42.1

セマセグ

Features

What it does

学習パイプライン

マルチクロップ自己教師あり

Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。

iBOT masked patch prediction

入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。

エッジ最適化

INT8 Post-training Quantization

OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。

CoreML Palettization

iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

事前学習層

ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。

ViT-Base/14DINOv3 headiBOT masked patchKoLeo regularizerEMA teacher
L2

Layer

蒸留層

教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。

MobileViTv3-XS studentFitNet feature lossAttention TransferCosineLR scheduler
L3

Layer

エッジ配置層

Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。

OpenVINO IRCoreML mlpackageONNX Runtime ExecutionProviderINT8 calibration
Development Process

How we built it

Step 1

データ整備と拡張設計

LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。

Deliverables

  • 重複除去スクリプト
  • マルチクロップ拡張
  • データセットカード(Markdown)
Step 2

教師モデル自己教師あり学習

H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。

Deliverables

  • 教師モデル checkpoint
  • 学習ログ
  • ロス曲線可視化
Step 3

蒸留と量子化

MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。

Deliverables

  • 生徒モデル checkpoint
  • 量子化レポート
  • 精度劣化分析表
Step 4

下流評価とSDK

LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。

Deliverables

  • 評価レポート
  • SDK v0.1(internal)
  • ベンチマーク比較表
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-23

    文献調査とデータパイプライン

    DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。

  • Phase 1In Progress2026-05-10

    教師モデル事前学習

    ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。

  • Phase 2Planned2026-06-20

    MobileViTv3蒸留と量子化

    特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。

  • Phase 3Planned2026-07-30

    下流タスク評価とSDKリリース

    LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。

Team

Who built it

2engineers

Roles

  • MLリサーチャ(代表)
  • エッジ推論エンジニア(業務委託)
Tech Stack

Tools & Platforms

Other

PyTorch 2.4timm 1.0DINOv3MobileViTv3OpenVINO 2024.4CoreML Tools 8ONNX Runtime 1.20Weights & BiasesHydra
Build with KGA

Considering a similar project?

We will propose the best solution for your business needs.

Discuss Your Project