Skip to content
制作実績一覧
AI / 機械学習In Development

Mirai Multimodal — マルチモーダルRAG基盤

Mirai Multimodal — Multimodal RAG Platform

PDF・音声・動画を統一ベクトル空間でインデックスし、横断検索+生成応答を返すマルチモーダルRAGパイプライン。PDFはTrOCRで図表内テキスト抽出、音声はWhisper-v3転写、動画はフレーム+音声を同時埋め込みし、pgvectorとLanceDBを併用しNVIDIA NIMで推論。

2026 進行中 (社内R&D) 2026-04
#マルチモーダル#RAG#ベクトル検索#OCR#R&D

ライブデモ

実際のアプリケーション画面のプレビュー

DEMO
app.mirai.jp/dashboard
マルチモーダル
27ドキュメント · 4時間音声 · 2.3GB動画を横断検索384ms 応答

検索パイプライン

クエリ埋め込み

8ms

ベクトル検索 (HNSW)

14ms

再ランク (ColBERT)

22ms

LLM統合

340ms

経営会議議事録_2026Q1.pdf

p.14
94.0%

半導体規制については、輸出管理令の改正案が3月に施行される見込み。対象品目は先端ノード向け装置が中心となる。

戦略レポート_地政学.pdf

p.8
88.0%

各国の規制動向を踏まえ、サプライチェーンの二重化を推奨。国内調達比率を現行32%から48%まで引き上げる計画。

法務メモ_輸出管理.pdf

p.2
81.0%

該当品目の判定はECCNコードと仕向地の組合せにより決定される。社内事前審査フローの徹底が必要。

課題

社内ドキュメントがPDF(60%)、会議録音(25%)、動画(15%)に分散しており、既存のテキストのみRAGではPDF内の図表や動画内の字幕・ホワイトボードを検索対象にできなかった。また、CLIPだけでは日本語テキスト検索精度が低く実務に耐えなかった。

ソリューション

PDFはTrOCR + LayoutLMv3で図表内テキストとレイアウトを抽出、音声はWhisper-large-v3、動画はPySceneDetectでシーン分割しBLIP-2で各フレームをキャプション化。全コンテンツをbge-m3(日本語対応)で埋め込み、メタデータをpgvectorに、ベクトルをLanceDBにハイブリッド格納。生成はNVIDIA NIMのLlama 3.3 70Bを使用。

成果

  • PDF図表抽出精度 F1 0.88(TrOCR単体 0.71比)
  • 日本語Top-5検索再現率 0.91(CLIP baseline 0.64)
  • ハイブリッド構成でクエリレイテンシ p95 420ms
  • 社内5部署、インデックス済みドキュメント 18万件超
Key Metrics

Measured Impact

PDF抽出 F1

0.88

TrOCR単体 0.71

日本語Top-5再現率

0.91

CLIP 0.64

クエリレイテンシ

420ms

p95

インデックス件数

18万+

社内

Features

What it does

マルチモーダル取り込み

PDF図表+レイアウト抽出

TrOCR+LayoutLMv3で表・図中テキストを構造化し、検索対象に含める。

動画シーン+音声統合

PySceneDetectでシーン分割後、フレームキャプションと音声転写を同一ドキュメントとして結合。

検索と応答

ハイブリッドベクトルストア

pgvectorとLanceDBを用途で使い分け、メタデータフィルタ+近似近傍を両立。

Citation付き応答

応答文中の各主張に元ドキュメント(ページ/タイムコード)へのリンクを自動付与。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

取り込み層

PDF・音声・動画を各モダリティ特化モデルで前処理し、テキスト・キャプション・レイアウト情報を生成する層。

TrOCRLayoutLMv3Whisper-large-v3BLIP-2PySceneDetect
L2

Layer

埋め込み・蓄積層

bge-m3で統一埋め込みを生成し、メタデータはpgvector、ベクトルはLanceDB、元ファイルはMinIOに格納。

bge-m3 (多言語)pgvector (metadata)LanceDB (vectors)MinIO (blobs)
L3

Layer

検索・生成層

HyDE+RRFで上位候補を選出し、NIM上のLlama 3.3 70Bが根拠リンク付き応答を生成する。

HyDE再ランキングReciprocal Rank FusionNVIDIA NIM Llama 3.3 70BCitationレンダラ
L4

Layer

API層

社内アプリ向けRESTとSSE API、OTelで検索・生成・トークン使用量をトレースする。

FastAPISSEストリーミングOpenTelemetryJWT+RBAC
Development Process

How we built it

Step 1

モダリティ別抽出評価

社内サンプル500件でPDF/音声/動画の抽出精度を個別に測定、モデル選定の根拠を記録。

Deliverables

  • モデル比較表
  • 抽出評価レポート
  • 前処理パイプライン v0.1
Step 2

ハイブリッドストア設計

pgvector(metadata)+LanceDB(vectors)のクエリ戦略を設計、バルクインデックスをテスト。

Deliverables

  • スキーマ設計書
  • インデックススクリプト
  • 性能ベンチ
Step 3

NIM統合と根拠リンク生成

Llama 3.3 70B NIMに接続し、応答内に Citation リンクを埋め込むテンプレート実装。

Deliverables

  • NIM接続モジュール
  • Citationテンプレ
  • 品質評価レポート
Step 4

社内ベータと可観測性

OTelで全リクエストをトレース、ユーザフィードバックに基づきクエリ書き換え層を追加。

Deliverables

  • OTelダッシュボード
  • フィードバック集計
  • クエリ書き換え v0.1
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-25

    モダリティ別前処理プロトタイプ

    PDF/音声/動画の抽出精度を個別評価、bge-m3の日本語検索ベンチ測定。

  • Phase 1In Progress2026-05-30

    統合インデックス構築

    pgvector+LanceDBのハイブリッドストア設計、18万件バルクインデックス。

  • Phase 2Planned2026-07-15

    NVIDIA NIM統合と応答品質

    Llama 3.3 70B NIMを社内VPCにデプロイ、Citation・根拠リンクを応答に含める。

  • Phase 3Planned2026-09-01

    社内横断ベータ

    5部署で社内ベータ運用、フィードバックに基づくクエリ書き換え層を追加。

Team

Who built it

3engineers

Roles

  • マルチモーダルMLエンジニア(代表)
  • 検索基盤エンジニア(業務委託)
  • 評価担当(業務委託)
技術スタック

Tools & Platforms

Backend

FastAPI

Data

pgvector

Other

TrOCRLayoutLMv3Whisper-large-v3BLIP-2PySceneDetectbge-m3LanceDBNVIDIA NIM (Llama 3.3 70B)
Build with KGA

同様のプロジェクトをお考えですか?

お客様のビジネスに最適なソリューションをご提案いたします。

プロジェクトを相談する