Skip to content
返回项目列表
AI / 机器学习Research

Vision Hokusai — 边缘推理用自监督视觉基础

Vision Hokusai — Self-supervised Vision Backbone for Edge Inference

针对标签稀缺的日本工业领域图像,使用自监督学习预训练边缘推理用骨干网络的研发原型。

2026 内部研发中 2026-04
#自己教師あり学習#エッジAI#蒸留#量子化#R&D

在线演示

实际应用界面预览

DEMO
app.vision.jp/dashboard
推論速度
42 fps
Jetson Orin Nano
消費電力
8.7 W
-86% vs GPU
遅延
24 ms
フレーム平均
検出精度
91.7%
[email protected]

ライブ検査ストリーム

録画中
scratch 94pit 81
F-0421
NG
金属表面 #A122 検出
scratch94%
crack 97
F-0422
NG
溶接継手 #B071 検出
crack97%
F-0423
OK
鋳造面 #C330 検出
bubble 88bubble 76scratch 69
F-0424
NG
塗装面 #D183 検出
bubble88%

モデル比較 (Teacher / Student 蒸留)

モデル役割パラメータ遅延mAP電力
Teacher ViT-L/16監督304M184ms94.2%62W
Student MobileViTv3現場5.8M24ms91.7%8.7W

過去15フレームの推論遅延 (ms)

エネルギーゲージ

8.7W目標 10W 以下

推論

5.2W

センサ

3.5W

挑战

工厂与基础设施巡检视频几乎无标注,云端推理在延迟与机密性上又难以接受。

解决方案

使用公司内部无标签语料预训练 DINOv2 系列自监督骨干,并为下游任务挂载 LoRA 头,在 Jetson 级边缘设备上推理。

成果

  • 内部验证数据下缺陷检测 F1 提升 14 个百分点
  • 在 Jetson Orin NX 终端上推理延迟达 38ms
  • 标注成本仿真预计降低 60%
  • 完成对公司 5 条产线 480 小时无标签视频的预训练
Key Metrics

Measured Impact

教師モデル Linear Probe

81.4%

ImageNet-1k

生徒モデル Linear Probe

76.2%

INT8量子化後

推論レイテンシ

18ms

Jetson Orin Nano

モデルサイズ

6.3MB

INT8

ADE20K mIoU

42.1

セマセグ

Features

What it does

学習パイプライン

マルチクロップ自己教師あり

Global 2枚 + Local 8枚のクロップをDINOv3式に教師・生徒に入力し、クラス非依存の表現を学習。

iBOT masked patch prediction

入力パッチの30%をマスクし、教師の出力と一致するよう生徒が予測することで局所表現を強化。

エッジ最適化

INT8 Post-training Quantization

OpenVINO POTで代表データ512枚をキャリブレーションに使い、精度損失1%以内でINT8化。

CoreML Palettization

iOS向けに4-bit重みパレット化を適用し、モデルサイズをさらに50%削減する実験を実施。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

事前学習層

ラベルなし画像3.2億枚に対しマルチクロップ+マスク予測で視覚表現を獲得する教師モデル層。

ViT-Base/14DINOv3 headiBOT masked patchKoLeo regularizerEMA teacher
L2

Layer

蒸留層

教師のトークン表現と注意マップを生徒モデルに転送し、1/20のパラメータで近い性能を目指す。

MobileViTv3-XS studentFitNet feature lossAttention TransferCosineLR scheduler
L3

Layer

エッジ配置層

Jetson/Intel/Apple各ハードウェア向けにINT8量子化済みモデルをパッケージし、Python/Swift SDKで配布。

OpenVINO IRCoreML mlpackageONNX Runtime ExecutionProviderINT8 calibration
Development Process

How we built it

Step 1

データ整備と拡張設計

LAION-2B/COYO-700Mから重複除去済み3.2億枚を抽出、NSFW/PIIフィルタを通し学習データ化。

Deliverables

  • 重複除去スクリプト
  • マルチクロップ拡張
  • データセットカード(Markdown)
Step 2

教師モデル自己教師あり学習

H100×4でViT-Base/14を300エポック学習、W&Bでロス・GPUメモリ・スループットを追跡。

Deliverables

  • 教師モデル checkpoint
  • 学習ログ
  • ロス曲線可視化
Step 3

蒸留と量子化

MobileViTv3-XSに蒸留後、OpenVINO POTとCoreML Palettizationで INT8化し精度損失を計測。

Deliverables

  • 生徒モデル checkpoint
  • 量子化レポート
  • 精度劣化分析表
Step 4

下流評価とSDK

LVIS/ADE20K/iNaturalistで線形プローブ・Fine-tuning評価、Python/Swift SDKを内部配布。

Deliverables

  • 評価レポート
  • SDK v0.1(internal)
  • ベンチマーク比較表
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-23

    文献調査とデータパイプライン

    DINOv3/MAE/iBOT論文比較、LAION-2B/COYO-700Mサブセット整備、マルチクロップ拡張実装。

  • Phase 1In Progress2026-05-10

    教師モデル事前学習

    ViT-Base/14をH100×4で300エポック、iBOT+KoLeoロス混合で学習中。

  • Phase 2Planned2026-06-20

    MobileViTv3蒸留と量子化

    特徴整合蒸留とINT8量子化(OpenVINO POT、CoreML Palettization)。

  • Phase 3Planned2026-07-30

    下流タスク評価とSDKリリース

    LVIS/ADE20K/iNaturalistで線形プローブ評価、社内SDKとしてPyPI公開。

Team

Who built it

2engineers

Roles

  • MLリサーチャ(代表)
  • エッジ推論エンジニア(業務委託)
技术栈

Tools & Platforms

Other

PyTorch 2.4timm 1.0DINOv3MobileViTv3OpenVINO 2024.4CoreML Tools 8ONNX Runtime 1.20Weights & BiasesHydra
Build with KGA

正在考虑类似的项目?

我们将为您的业务需求提供最优解决方案。

咨询您的项目