Mirai Multimodal — Nền Tảng RAG Đa Phương Thức
Mirai Multimodal — Multimodal RAG Platform
R&D nội bộ cho RAG bao quát PDF, audio và video.
Demo trực tiếp
Xem trước giao diện ứng dụng thực tế
検索パイプライン
クエリ埋め込み
8ms
ベクトル検索 (HNSW)
14ms
再ランク (ColBERT)
22ms
LLM統合
340ms
経営会議議事録_2026Q1.pdf
p.14半導体規制については、輸出管理令の改正案が3月に施行される見込み。対象品目は先端ノード向け装置が中心となる。
戦略レポート_地政学.pdf
p.8各国の規制動向を踏まえ、サプライチェーンの二重化を推奨。国内調達比率を現行32%から48%まで引き上げる計画。
法務メモ_輸出管理.pdf
p.2該当品目の判定はECCNコードと仕向地の組合せにより決定される。社内事前審査フローの徹底が必要。
Thách thức
Xây dựng RAG bao quát đa modality (text, PDF, audio, video) mà không có lớp ad-hoc và với độ trễ retrieval hợp lý.
Giải pháp
Pipeline ingestion đa phương thức với embedding thống nhất, retrieval lai và LLM synthesizer — chạy trên corpora xác thực nội bộ.
Kết quả
- Bao phủ 4 modality (text, PDF, audio, video) được xác thực trong thí điểm nội bộ
- Độ trễ retrieval trung vị ~600ms trên corpus 10k tài sản hỗn hợp
- Beta nội bộ với 4 nhà nghiên cứu — phản hồi tích cực
- Chỉ R&D nội bộ — không có khách hàng trả phí
Measured Impact
PDF抽出 F1
0.88
TrOCR単体 0.71
日本語Top-5再現率
0.91
CLIP 0.64
クエリレイテンシ
420ms
p95
インデックス件数
18万+
社内
What it does
マルチモーダル取り込み
PDF図表+レイアウト抽出
TrOCR+LayoutLMv3で表・図中テキストを構造化し、検索対象に含める。
動画シーン+音声統合
PySceneDetectでシーン分割後、フレームキャプションと音声転写を同一ドキュメントとして結合。
検索と応答
ハイブリッドベクトルストア
pgvectorとLanceDBを用途で使い分け、メタデータフィルタ+近似近傍を両立。
Citation付き応答
応答文中の各主張に元ドキュメント(ページ/タイムコード)へのリンクを自動付与。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
取り込み層
PDF・音声・動画を各モダリティ特化モデルで前処理し、テキスト・キャプション・レイアウト情報を生成する層。
Layer
埋め込み・蓄積層
bge-m3で統一埋め込みを生成し、メタデータはpgvector、ベクトルはLanceDB、元ファイルはMinIOに格納。
Layer
検索・生成層
HyDE+RRFで上位候補を選出し、NIM上のLlama 3.3 70Bが根拠リンク付き応答を生成する。
Layer
API層
社内アプリ向けRESTとSSE API、OTelで検索・生成・トークン使用量をトレースする。
How we built it
モダリティ別抽出評価
社内サンプル500件でPDF/音声/動画の抽出精度を個別に測定、モデル選定の根拠を記録。
Deliverables
- モデル比較表
- 抽出評価レポート
- 前処理パイプライン v0.1
ハイブリッドストア設計
pgvector(metadata)+LanceDB(vectors)のクエリ戦略を設計、バルクインデックスをテスト。
Deliverables
- スキーマ設計書
- インデックススクリプト
- 性能ベンチ
NIM統合と根拠リンク生成
Llama 3.3 70B NIMに接続し、応答内に Citation リンクを埋め込むテンプレート実装。
Deliverables
- NIM接続モジュール
- Citationテンプレ
- 品質評価レポート
社内ベータと可観測性
OTelで全リクエストをトレース、ユーザフィードバックに基づきクエリ書き換え層を追加。
Deliverables
- OTelダッシュボード
- フィードバック集計
- クエリ書き換え v0.1
Delivery Timeline
- Phase 0Done2026-04-25
モダリティ別前処理プロトタイプ
PDF/音声/動画の抽出精度を個別評価、bge-m3の日本語検索ベンチ測定。
- Phase 1In Progress2026-05-30
統合インデックス構築
pgvector+LanceDBのハイブリッドストア設計、18万件バルクインデックス。
- Phase 2Planned2026-07-15
NVIDIA NIM統合と応答品質
Llama 3.3 70B NIMを社内VPCにデプロイ、Citation・根拠リンクを応答に含める。
- Phase 3Planned2026-09-01
社内横断ベータ
5部署で社内ベータ運用、フィードバックに基づくクエリ書き換え層を追加。
Who built it
Roles
- マルチモーダルMLエンジニア(代表)
- 検索基盤エンジニア(業務委託)
- 評価担当(業務委託)
Tools & Platforms
Backend
Data
Other
Bạn quan tâm đến dự án tương tự?
Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.
Trao đổi về dự án