Skip to content
制作実績一覧
AI / 機械学習Research

Vision Hokusai — エッジ推論向け自己教師ありビジョン基盤

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

DINOv3系の自己教師あり学習で視覚表現を獲得し、MobileViTv3に蒸留してOpenVINO/CoreMLのINT8量子化まで落とし込む、エッジ推論特化のビジョン基盤モデル。画像分類・検出・セグメンテーションの下流タスクに対してゼロショットに近い転移性能を目指す社内R&D。

2026 進行中 (社内R&D) 2026-04
#自己教師あり学習#エッジAI#蒸留#量子化#R&D

ライブデモ

実際のアプリケーション画面のプレビュー

DEMO
app.vision.jp/dashboard
推論速度
42 fps
Jetson Orin Nano
消費電力
8.7 W
-86% vs GPU
遅延
24 ms
フレーム平均
検出精度
91.7%
[email protected]

ライブ検査ストリーム

録画中
scratch 94pit 81
F-0421
NG
金属表面 #A122 検出
scratch94%
crack 97
F-0422
NG
溶接継手 #B071 検出
crack97%
F-0423
OK
鋳造面 #C330 検出
bubble 88bubble 76scratch 69
F-0424
NG
塗装面 #D183 検出
bubble88%

モデル比較 (Teacher / Student 蒸留)

モデル役割パラメータ遅延mAP電力
Teacher ViT-L/16監督304M184ms94.2%62W
Student MobileViTv3現場5.8M24ms91.7%8.7W

過去15フレームの推論遅延 (ms)

エネルギーゲージ

8.7W目標 10W 以下

推論

5.2W

センサ

3.5W

課題

クラウド推論のレイテンシとプライバシー制約を回避するため、スマートフォンやJetson Orin Nano、Intel NUC上で20ms以下の推論を実現する必要があった。既存のMobileNet/EfficientNet系は下流タスクの精度が頭打ちで、大規模教師ありImageNet学習に依存するライセンス制約も避けたい。

ソリューション

ViT-Base/14を教師モデルにDINOv3のマルチクロップ+iBOT目的関数で自己教師あり事前学習を実施。MobileViTv3-XSに特徴整合蒸留(FitNet+Attention Transfer)で知識移行し、OpenVINO POT(Post-training Optimization Tool)とCoreML INT8量子化で精度損失1%以内に抑えた。評価はLVIS、ADE20K、iNaturalistの3ベンチマークで統一。

成果

  • MobileViTv3-XS + INT8量子化でJetson Orin Nano上18ms/フレーム達成
  • ImageNet-1k Linear Probe 76.2% (教師ViT-Baseは81.4%)
  • ADE20K セマンティックセグメンテーション mIoU 42.1
  • モデルサイズ 6.3MB(FP32 24.8MB比 74%削減)
Key Metrics

Measured Impact

教師モデル Linear Probe

81.4%

ImageNet-1k

生徒モデル Linear Probe

76.2%

INT8量子化後

推論レイテンシ

18ms

Jetson Orin Nano

モデルサイズ

6.3MB

INT8

ADE20K mIoU

42.1

セマセグ

Features

What it does

学習パイプライン

マルチクロップ自己教師あり

Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。

iBOT masked patch prediction

入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。

エッジ最適化

INT8 Post-training Quantization

OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。

CoreML Palettization

iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

事前学習層

ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。

ViT-Base/14DINOv3 headiBOT masked patchKoLeo regularizerEMA teacher
L2

Layer

蒸留層

教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。

MobileViTv3-XS studentFitNet feature lossAttention TransferCosineLR scheduler
L3

Layer

エッジ配置層

Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。

OpenVINO IRCoreML mlpackageONNX Runtime ExecutionProviderINT8 calibration
Development Process

How we built it

Step 1

データ整備と拡張設計

LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。

Deliverables

  • 重複除去スクリプト
  • マルチクロップ拡張
  • データセットカード(Markdown)
Step 2

教師モデル自己教師あり学習

H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。

Deliverables

  • 教師モデル checkpoint
  • 学習ログ
  • ロス曲線可視化
Step 3

蒸留と量子化

MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。

Deliverables

  • 生徒モデル checkpoint
  • 量子化レポート
  • 精度劣化分析表
Step 4

下流評価とSDK

LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。

Deliverables

  • 評価レポート
  • SDK v0.1(internal)
  • ベンチマーク比較表
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-23

    文献調査とデータパイプライン

    DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。

  • Phase 1In Progress2026-05-10

    教師モデル事前学習

    ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。

  • Phase 2Planned2026-06-20

    MobileViTv3蒸留と量子化

    特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。

  • Phase 3Planned2026-07-30

    下流タスク評価とSDKリリース

    LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。

Team

Who built it

2engineers

Roles

  • MLリサーチャ(代表)
  • エッジ推論エンジニア(業務委託)
技術スタック

Tools & Platforms

Other

PyTorch 2.4timm 1.0DINOv3MobileViTv3OpenVINO 2024.4CoreML Tools 8ONNX Runtime 1.20Weights & BiasesHydra
Build with KGA

同様のプロジェクトをお考えですか?

お客様のビジネスに最適なソリューションをご提案いたします。

プロジェクトを相談する