Mirai Multimodal — マルチモーダルRAG基盤
Mirai Multimodal — Multimodal RAG Platform
PDF・音声・動画を統一ベクトル空間でインデックスし、横断検索+生成応答を返すマルチモーダルRAGパイプライン。PDFはTrOCRで図表内テキスト抽出、音声はWhisper-v3転写、動画はフレーム+音声を同時埋め込みし、pgvectorとLanceDBを併用しNVIDIA NIMで推論。
ライブデモ
実際のアプリケーション画面のプレビュー
検索パイプライン
クエリ埋め込み
8ms
ベクトル検索 (HNSW)
14ms
再ランク (ColBERT)
22ms
LLM統合
340ms
経営会議議事録_2026Q1.pdf
p.14半導体規制については、輸出管理令の改正案が3月に施行される見込み。対象品目は先端ノード向け装置が中心となる。
戦略レポート_地政学.pdf
p.8各国の規制動向を踏まえ、サプライチェーンの二重化を推奨。国内調達比率を現行32%から48%まで引き上げる計画。
法務メモ_輸出管理.pdf
p.2該当品目の判定はECCNコードと仕向地の組合せにより決定される。社内事前審査フローの徹底が必要。
課題
社内ドキュメントがPDF(60%)、会議録音(25%)、動画(15%)に分散しており、既存のテキストのみRAGではPDF内の図表や動画内の字幕・ホワイトボードを検索対象にできなかった。また、CLIPだけでは日本語テキスト検索精度が低く実務に耐えなかった。
ソリューション
PDFはTrOCR + LayoutLMv3で図表内テキストとレイアウトを抽出、音声はWhisper-large-v3、動画はPySceneDetectでシーン分割しBLIP-2で各フレームをキャプション化。全コンテンツをbge-m3(日本語対応)で埋め込み、メタデータをpgvectorに、ベクトルをLanceDBにハイブリッド格納。生成はNVIDIA NIMのLlama 3.3 70Bを使用。
成果
- PDF図表抽出精度 F1 0.88(TrOCR単体 0.71比)
- 日本語Top-5検索再現率 0.91(CLIP baseline 0.64)
- ハイブリッド構成でクエリレイテンシ p95 420ms
- 社内5部署、インデックス済みドキュメント 18万件超
Measured Impact
PDF抽出 F1
0.88
TrOCR単体 0.71
日本語Top-5再現率
0.91
CLIP 0.64
クエリレイテンシ
420ms
p95
インデックス件数
18万+
社内
What it does
マルチモーダル取り込み
PDF図表+レイアウト抽出
TrOCR+LayoutLMv3で表・図中テキストを構造化し、検索対象に含める。
動画シーン+音声統合
PySceneDetectでシーン分割後、フレームキャプションと音声転写を同一ドキュメントとして結合。
検索と応答
ハイブリッドベクトルストア
pgvectorとLanceDBを用途で使い分け、メタデータフィルタ+近似近傍を両立。
Citation付き応答
応答文中の各主張に元ドキュメント(ページ/タイムコード)へのリンクを自動付与。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
取り込み層
PDF・音声・動画を各モダリティ特化モデルで前処理し、テキスト・キャプション・レイアウト情報を生成する層。
Layer
埋め込み・蓄積層
bge-m3で統一埋め込みを生成し、メタデータはpgvector、ベクトルはLanceDB、元ファイルはMinIOに格納。
Layer
検索・生成層
HyDE+RRFで上位候補を選出し、NIM上のLlama 3.3 70Bが根拠リンク付き応答を生成する。
Layer
API層
社内アプリ向けRESTとSSE API、OTelで検索・生成・トークン使用量をトレースする。
How we built it
モダリティ別抽出評価
社内サンプル500件でPDF/音声/動画の抽出精度を個別に測定、モデル選定の根拠を記録。
Deliverables
- モデル比較表
- 抽出評価レポート
- 前処理パイプライン v0.1
ハイブリッドストア設計
pgvector(metadata)+LanceDB(vectors)のクエリ戦略を設計、バルクインデックスをテスト。
Deliverables
- スキーマ設計書
- インデックススクリプト
- 性能ベンチ
NIM統合と根拠リンク生成
Llama 3.3 70B NIMに接続し、応答内に Citation リンクを埋め込むテンプレート実装。
Deliverables
- NIM接続モジュール
- Citationテンプレ
- 品質評価レポート
社内ベータと可観測性
OTelで全リクエストをトレース、ユーザフィードバックに基づきクエリ書き換え層を追加。
Deliverables
- OTelダッシュボード
- フィードバック集計
- クエリ書き換え v0.1
Delivery Timeline
- Phase 0Done2026-04-25
モダリティ別前処理プロトタイプ
PDF/音声/動画の抽出精度を個別評価、bge-m3の日本語検索ベンチ測定。
- Phase 1In Progress2026-05-30
統合インデックス構築
pgvector+LanceDBのハイブリッドストア設計、18万件バルクインデックス。
- Phase 2Planned2026-07-15
NVIDIA NIM統合と応答品質
Llama 3.3 70B NIMを社内VPCにデプロイ、Citation・根拠リンクを応答に含める。
- Phase 3Planned2026-09-01
社内横断ベータ
5部署で社内ベータ運用、フィードバックに基づくクエリ書き換え層を追加。
Who built it
Roles
- マルチモーダルMLエンジニア(代表)
- 検索基盤エンジニア(業務委託)
- 評価担当(業務委託)
Tools & Platforms
Backend
Data
Other