Skip to content
Listahan ng Mga Proyekto
Internal na R&DResearch

Vision Hokusai — Self-supervised Vision Backbone para sa Edge Inference

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

Internal na R&D para sa self-supervised vision model na optimized para sa edge inference.

2026 6 na buwang internal R&D 2026-04
#自己教師あり学習#エッジAI#蒸留#量子化#R&D

Live Demo

Preview ng aktwal na screen ng application

DEMO
app.vision.jp/dashboard
推論速度
42 fps
Jetson Orin Nano
消費電力
8.7 W
-86% vs GPU
遅延
24 ms
フレーム平均
検出精度
91.7%
[email protected]

ライブ検査ストリーム

録画中
scratch 94pit 81
F-0421
NG
金属表面 #A122 検出
scratch94%
crack 97
F-0422
NG
溶接継手 #B071 検出
crack97%
F-0423
OK
鋳造面 #C330 検出
bubble 88bubble 76scratch 69
F-0424
NG
塗装面 #D183 検出
bubble88%

モデル比較 (Teacher / Student 蒸留)

モデル役割パラメータ遅延mAP電力
Teacher ViT-L/16監督304M184ms94.2%62W
Student MobileViTv3現場5.8M24ms91.7%8.7W

過去15フレームの推論遅延 (ms)

エネルギーゲージ

8.7W目標 10W 以下

推論

5.2W

センサ

3.5W

Hamon

Sanayin ang general-purpose vision backbone nang walang malalaking labels, habang angkop sa inference sa resource-constrained edge devices.

Solusyon

Self-supervised training na may contrastive at masking objectives, distillation sa lightweight backbone, at quantization — pinapatakbo sa internal lab.

Mga Resulta

  • Internal benchmark: synthetic ImageNet top-1 accuracy sa loob ng 2pp ng supervised model
  • Distilled backbone tumakbo sa 30+ FPS sa benchmark edge SoC
  • Internal beta sa 3 ML engineer testers — positive feedback
  • Internal R&D lang — walang paying client
Key Metrics

Measured Impact

教師モデル Linear Probe

81.4%

ImageNet-1k

生徒モデル Linear Probe

76.2%

INT8量子化後

推論レイテンシ

18ms

Jetson Orin Nano

モデルサイズ

6.3MB

INT8

ADE20K mIoU

42.1

セマセグ

Features

What it does

学習パイプライン

マルチクロップ自己教師あり

Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。

iBOT masked patch prediction

入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。

エッジ最適化

INT8 Post-training Quantization

OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。

CoreML Palettization

iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

事前学習層

ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。

ViT-Base/14DINOv3 headiBOT masked patchKoLeo regularizerEMA teacher
L2

Layer

蒸留層

教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。

MobileViTv3-XS studentFitNet feature lossAttention TransferCosineLR scheduler
L3

Layer

エッジ配置層

Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。

OpenVINO IRCoreML mlpackageONNX Runtime ExecutionProviderINT8 calibration
Development Process

How we built it

Step 1

データ整備と拡張設計

LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。

Deliverables

  • 重複除去スクリプト
  • マルチクロップ拡張
  • データセットカード(Markdown)
Step 2

教師モデル自己教師あり学習

H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。

Deliverables

  • 教師モデル checkpoint
  • 学習ログ
  • ロス曲線可視化
Step 3

蒸留と量子化

MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。

Deliverables

  • 生徒モデル checkpoint
  • 量子化レポート
  • 精度劣化分析表
Step 4

下流評価とSDK

LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。

Deliverables

  • 評価レポート
  • SDK v0.1(internal)
  • ベンチマーク比較表
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-23

    文献調査とデータパイプライン

    DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。

  • Phase 1In Progress2026-05-10

    教師モデル事前学習

    ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。

  • Phase 2Planned2026-06-20

    MobileViTv3蒸留と量子化

    特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。

  • Phase 3Planned2026-07-30

    下流タスク評価とSDKリリース

    LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。

Team

Who built it

2engineers

Roles

  • MLリサーチャ(代表)
  • エッジ推論エンジニア(業務委託)
Tech Stack

Tools & Platforms

Other

PyTorch 2.4timm 1.0DINOv3MobileViTv3OpenVINO 2024.4CoreML Tools 8ONNX Runtime 1.20Weights & BiasesHydra
Build with KGA

Interesado ka ba sa katulad na proyekto?

Mag-aalok kami ng pinakamahusay na solusyon para sa iyong negosyo.

Pag-usapan ang Iyong Proyekto