Koe Kaibou — Phân Loại Người Nói + Dịch Thời Gian Thực
Koe Kaibou — Real-time JA Speech Diarization and Translation
R&D nội bộ cho phân loại người nói tiếng Nhật thời gian thực và dịch streaming.
Demo trực tiếp
Xem trước giao diện ứng dụng thực tế
リアルタイム話者分離
本日の議題は次四半期の半導体出荷計画についてです。
Today's agenda is the semiconductor shipment plan for next quarter.
了解です。現在の在庫水準を共有してもよろしいですか?
Understood. May I share the current inventory levels?
お願いします。特に28nmノードの状況を詳しく。
Please go ahead. Especially the status of the 28nm node in detail.
補足すると、アジア圏の需要は前期比18%増です。
To add, demand in Asia is up 18% quarter-over-quarter.
生産ラインはフル稼働ですが、リードタイムは6週間です。
Production lines are at full capacity, but lead time is six weeks.
わかりました。優先出荷リストを再調整しましょう。
Understood. Let's readjust the priority shipping list.
発話時間シェア
RTF (Real-Time Factor)
RTF 0.20 平均 (低いほど高速)
パイプライン構成
Thách thức
Tách người nói và dịch luồng audio tiếng Nhật thời gian thực với độ trễ thấp và độ chính xác cao mà không có dữ liệu khách hàng thật.
Giải pháp
Pipeline ASR + diarization + dịch streaming với cửa sổ trượt, mô hình embedding người nói và alignment — kiểm thử trên audio tổng hợp trong xác thực nội bộ.
Kết quả
- Benchmark nội bộ: độ trễ end-to-end p95 <1.5s trên audio test
- Độ chính xác diarization ~88% trên bộ test tổng hợp 2-4 người nói
- Beta nội bộ với 3 người kiểm thử — usability đánh giá 4.2/5
- Chỉ R&D nội bộ — không có khách hàng trả phí hay audio thật
Measured Impact
E2Eレイテンシ
1.4s
p95
DER
12.8%
baseline 19.4%
JA→EN BLEU
34.2
FLORES-200
同時話者数
10
RTX 4090×1
What it does
リアルタイム処理
200msチャンクストリーミング
WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。
話者境界で区切る翻訳
話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。
プライバシー
オンプレ完結デプロイ
すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。
音声の揮発保持
音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
音声取り込み層
ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。
Layer
認識・分離層
ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。
Layer
翻訳配信層
vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。
How we built it
データ収集と合意
CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。
Deliverables
- データセット v0.1
- ラベリングガイド
- 同意書テンプレ
ダイアライゼーションLoRA
pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。
Deliverables
- LoRAアダプタ
- DER評価レポート
- 学習ノートブック
vLLM 0.7配信最適化
NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。
Deliverables
- vLLM configファイル
- レイテンシ計測レポート
- 負荷試験スクリプト
クローズドβ運用
社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。
Deliverables
- フィードバック集計
- 再学習済みLoRA v0.2
- 運用ダッシュボード
Delivery Timeline
- Phase 0Done2026-04-24
要件定義とベースライン測定
既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。
- Phase 1In Progress2026-05-25
LoRA fine-tuning と量子化
pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。
- Phase 2Planned2026-07-05
vLLM 0.7統合と翻訳品質評価
NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。
- Phase 3Planned2026-08-20
社内クローズドβとフィードバック反映
社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。
Who built it
Roles
- 音声MLエンジニア(代表)
- 翻訳評価担当(業務委託)
Tools & Platforms
Backend
Data
Infrastructure
Other
Bạn quan tâm đến dự án tương tự?
Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.
Trao đổi về dự án