Skip to content
Danh sách dự án
R&D nội bộIn Development

Mirai Multimodal — Nền Tảng RAG Đa Phương Thức

Mirai Multimodal — Multimodal RAG Platform

R&D nội bộ cho RAG bao quát PDF, audio và video.

2026 R&D nội bộ 6 tháng 2026-04
#マルチモーダル#RAG#ベクトル検索#OCR#R&D

Demo trực tiếp

Xem trước giao diện ứng dụng thực tế

DEMO
app.mirai.jp/dashboard
マルチモーダル
27ドキュメント · 4時間音声 · 2.3GB動画を横断検索384ms 応答

検索パイプライン

クエリ埋め込み

8ms

ベクトル検索 (HNSW)

14ms

再ランク (ColBERT)

22ms

LLM統合

340ms

経営会議議事録_2026Q1.pdf

p.14
94.0%

半導体規制については、輸出管理令の改正案が3月に施行される見込み。対象品目は先端ノード向け装置が中心となる。

戦略レポート_地政学.pdf

p.8
88.0%

各国の規制動向を踏まえ、サプライチェーンの二重化を推奨。国内調達比率を現行32%から48%まで引き上げる計画。

法務メモ_輸出管理.pdf

p.2
81.0%

該当品目の判定はECCNコードと仕向地の組合せにより決定される。社内事前審査フローの徹底が必要。

Thách thức

Xây dựng RAG bao quát đa modality (text, PDF, audio, video) mà không có lớp ad-hoc và với độ trễ retrieval hợp lý.

Giải pháp

Pipeline ingestion đa phương thức với embedding thống nhất, retrieval lai và LLM synthesizer — chạy trên corpora xác thực nội bộ.

Kết quả

  • Bao phủ 4 modality (text, PDF, audio, video) được xác thực trong thí điểm nội bộ
  • Độ trễ retrieval trung vị ~600ms trên corpus 10k tài sản hỗn hợp
  • Beta nội bộ với 4 nhà nghiên cứu — phản hồi tích cực
  • Chỉ R&D nội bộ — không có khách hàng trả phí
Key Metrics

Measured Impact

PDF抽出 F1

0.88

TrOCR単体 0.71

日本語Top-5再現率

0.91

CLIP 0.64

クエリレイテンシ

420ms

p95

インデックス件数

18万+

社内

Features

What it does

マルチモーダル取り込み

PDF図表+レイアウト抽出

TrOCR+LayoutLMv3で表・図中テキストを構造化し、検索対象に含める。

動画シーン+音声統合

PySceneDetectでシーン分割後、フレームキャプションと音声転写を同一ドキュメントとして結合。

検索と応答

ハイブリッドベクトルストア

pgvectorとLanceDBを用途で使い分け、メタデータフィルタ+近似近傍を両立。

Citation付き応答

応答文中の各主張に元ドキュメント(ページ/タイムコード)へのリンクを自動付与。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

取り込み層

PDF・音声・動画を各モダリティ特化モデルで前処理し、テキスト・キャプション・レイアウト情報を生成する層。

TrOCRLayoutLMv3Whisper-large-v3BLIP-2PySceneDetect
L2

Layer

埋め込み・蓄積層

bge-m3で統一埋め込みを生成し、メタデータはpgvector、ベクトルはLanceDB、元ファイルはMinIOに格納。

bge-m3 (多言語)pgvector (metadata)LanceDB (vectors)MinIO (blobs)
L3

Layer

検索・生成層

HyDE+RRFで上位候補を選出し、NIM上のLlama 3.3 70Bが根拠リンク付き応答を生成する。

HyDE再ランキングReciprocal Rank FusionNVIDIA NIM Llama 3.3 70BCitationレンダラ
L4

Layer

API層

社内アプリ向けRESTとSSE API、OTelで検索・生成・トークン使用量をトレースする。

FastAPISSEストリーミングOpenTelemetryJWT+RBAC
Development Process

How we built it

Step 1

モダリティ別抽出評価

社内サンプル500件でPDF/音声/動画の抽出精度を個別に測定、モデル選定の根拠を記録。

Deliverables

  • モデル比較表
  • 抽出評価レポート
  • 前処理パイプライン v0.1
Step 2

ハイブリッドストア設計

pgvector(metadata)+LanceDB(vectors)のクエリ戦略を設計、バルクインデックスをテスト。

Deliverables

  • スキーマ設計書
  • インデックススクリプト
  • 性能ベンチ
Step 3

NIM統合と根拠リンク生成

Llama 3.3 70B NIMに接続し、応答内に Citation リンクを埋め込むテンプレート実装。

Deliverables

  • NIM接続モジュール
  • Citationテンプレ
  • 品質評価レポート
Step 4

社内ベータと可観測性

OTelで全リクエストをトレース、ユーザフィードバックに基づきクエリ書き換え層を追加。

Deliverables

  • OTelダッシュボード
  • フィードバック集計
  • クエリ書き換え v0.1
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-25

    モダリティ別前処理プロトタイプ

    PDF/音声/動画の抽出精度を個別評価、bge-m3の日本語検索ベンチ測定。

  • Phase 1In Progress2026-05-30

    統合インデックス構築

    pgvector+LanceDBのハイブリッドストア設計、18万件バルクインデックス。

  • Phase 2Planned2026-07-15

    NVIDIA NIM統合と応答品質

    Llama 3.3 70B NIMを社内VPCにデプロイ、Citation・根拠リンクを応答に含める。

  • Phase 3Planned2026-09-01

    社内横断ベータ

    5部署で社内ベータ運用、フィードバックに基づくクエリ書き換え層を追加。

Team

Who built it

3engineers

Roles

  • マルチモーダルMLエンジニア(代表)
  • 検索基盤エンジニア(業務委託)
  • 評価担当(業務委託)
Công nghệ sử dụng

Tools & Platforms

Backend

FastAPI

Data

pgvector

Other

TrOCRLayoutLMv3Whisper-large-v3BLIP-2PySceneDetectbge-m3LanceDBNVIDIA NIM (Llama 3.3 70B)
Build with KGA

Bạn quan tâm đến dự án tương tự?

Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.

Trao đổi về dự án