Skip to content
Senarai Portfolio
R&D dalamanResearch

Vision Hokusai — Tulang Belakang Visi Self-Supervised untuk Inferens Tepi

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

R&D dalaman untuk model visi self-supervised yang dioptimumkan untuk inferens tepi.

2026 R&D dalaman 6 bulan 2026-04
#自己教師あり学習#エッジAI#蒸留#量子化#R&D

Demo Langsung

Pratonton skrin aplikasi sebenar

DEMO
app.vision.jp/dashboard
推論速度
42 fps
Jetson Orin Nano
消費電力
8.7 W
-86% vs GPU
遅延
24 ms
フレーム平均
検出精度
91.7%
[email protected]

ライブ検査ストリーム

録画中
scratch 94pit 81
F-0421
NG
金属表面 #A122 検出
scratch94%
crack 97
F-0422
NG
溶接継手 #B071 検出
crack97%
F-0423
OK
鋳造面 #C330 検出
bubble 88bubble 76scratch 69
F-0424
NG
塗装面 #D183 検出
bubble88%

モデル比較 (Teacher / Student 蒸留)

モデル役割パラメータ遅延mAP電力
Teacher ViT-L/16監督304M184ms94.2%62W
Student MobileViTv3現場5.8M24ms91.7%8.7W

過去15フレームの推論遅延 (ms)

エネルギーゲージ

8.7W目標 10W 以下

推論

5.2W

センサ

3.5W

Cabaran

Melatih tulang belakang visi yang menyeluruh tanpa label berskala besar, sambil sesuai untuk inferens pada peranti tepi terhad sumber.

Penyelesaian

Latihan self-supervised dengan tujuan kontrastif dan masking, distilasi kepada tulang belakang ringan, dan kuantisasi — dijalankan dalam makmal dalaman.

Hasil

  • Penanda aras dalaman: ketepatan top-1 ImageNet sintetik dalam 2pp model selia
  • Tulang belakang yang didistilasi dijalankan pada 30+ FPS pada SoC tepi penanda aras
  • Beta dalaman dengan 3 jurutera ML penguji — maklum balas positif
  • R&D dalaman sahaja — tiada pelanggan berbayar
Key Metrics

Measured Impact

教師モデル Linear Probe

81.4%

ImageNet-1k

生徒モデル Linear Probe

76.2%

INT8量子化後

推論レイテンシ

18ms

Jetson Orin Nano

モデルサイズ

6.3MB

INT8

ADE20K mIoU

42.1

セマセグ

Features

What it does

学習パイプライン

マルチクロップ自己教師あり

Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。

iBOT masked patch prediction

入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。

エッジ最適化

INT8 Post-training Quantization

OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。

CoreML Palettization

iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

事前学習層

ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。

ViT-Base/14DINOv3 headiBOT masked patchKoLeo regularizerEMA teacher
L2

Layer

蒸留層

教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。

MobileViTv3-XS studentFitNet feature lossAttention TransferCosineLR scheduler
L3

Layer

エッジ配置層

Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。

OpenVINO IRCoreML mlpackageONNX Runtime ExecutionProviderINT8 calibration
Development Process

How we built it

Step 1

データ整備と拡張設計

LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。

Deliverables

  • 重複除去スクリプト
  • マルチクロップ拡張
  • データセットカード(Markdown)
Step 2

教師モデル自己教師あり学習

H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。

Deliverables

  • 教師モデル checkpoint
  • 学習ログ
  • ロス曲線可視化
Step 3

蒸留と量子化

MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。

Deliverables

  • 生徒モデル checkpoint
  • 量子化レポート
  • 精度劣化分析表
Step 4

下流評価とSDK

LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。

Deliverables

  • 評価レポート
  • SDK v0.1(internal)
  • ベンチマーク比較表
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-23

    文献調査とデータパイプライン

    DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。

  • Phase 1In Progress2026-05-10

    教師モデル事前学習

    ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。

  • Phase 2Planned2026-06-20

    MobileViTv3蒸留と量子化

    特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。

  • Phase 3Planned2026-07-30

    下流タスク評価とSDKリリース

    LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。

Team

Who built it

2engineers

Roles

  • MLリサーチャ(代表)
  • エッジ推論エンジニア(業務委託)
Teknologi

Tools & Platforms

Other

PyTorch 2.4timm 1.0DINOv3MobileViTv3OpenVINO 2024.4CoreML Tools 8ONNX Runtime 1.20Weights & BiasesHydra
Build with KGA

Berminat dengan projek serupa?

Kami akan mencadangkan penyelesaian terbaik untuk perniagaan anda.

Bincang Projek Anda