Koe Kaibou — Real-time Speech Diarization + Translation
Koe Kaibou — Real-time JA Speech Diarization and Translation
Internal na R&D para sa real-time Japanese speech diarization at streaming translation.
Live Demo
Preview ng aktwal na screen ng application
リアルタイム話者分離
本日の議題は次四半期の半導体出荷計画についてです。
Today's agenda is the semiconductor shipment plan for next quarter.
了解です。現在の在庫水準を共有してもよろしいですか?
Understood. May I share the current inventory levels?
お願いします。特に28nmノードの状況を詳しく。
Please go ahead. Especially the status of the 28nm node in detail.
補足すると、アジア圏の需要は前期比18%増です。
To add, demand in Asia is up 18% quarter-over-quarter.
生産ラインはフル稼働ですが、リードタイムは6週間です。
Production lines are at full capacity, but lead time is six weeks.
わかりました。優先出荷リストを再調整しましょう。
Understood. Let's readjust the priority shipping list.
発話時間シェア
RTF (Real-Time Factor)
RTF 0.20 平均 (低いほど高速)
パイプライン構成
Hamon
Hatiin ang mga speakers at isalin ang real-time Japanese audio streams nang may low latency at high accuracy nang walang tunay na customer data.
Solusyon
Streaming ASR + diarization + translation pipeline na may sliding windows, speaker embedding model, at alignment — sinubok sa synthetic audio sa internal validation.
Mga Resulta
- Internal benchmark: end-to-end p95 latency <1.5s sa test audio
- Speaker diarization accuracy ~88% sa 2-4 speaker synthetic test sets
- Internal beta sa 3 testers — usability rated 4.2/5
- Internal R&D lang — walang paying client o tunay na audio
Measured Impact
E2Eレイテンシ
1.4s
p95
DER
12.8%
baseline 19.4%
JA→EN BLEU
34.2
FLORES-200
同時話者数
10
RTX 4090×1
What it does
リアルタイム処理
200msチャンクストリーミング
WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。
話者境界で区切る翻訳
話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。
プライバシー
オンプレ完結デプロイ
すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。
音声の揮発保持
音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
音声取り込み層
ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。
Layer
認識・分離層
ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。
Layer
翻訳配信層
vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。
How we built it
データ収集と合意
CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。
Deliverables
- データセット v0.1
- ラベリングガイド
- 同意書テンプレ
ダイアライゼーションLoRA
pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。
Deliverables
- LoRAアダプタ
- DER評価レポート
- 学習ノートブック
vLLM 0.7配信最適化
NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。
Deliverables
- vLLM configファイル
- レイテンシ計測レポート
- 負荷試験スクリプト
クローズドβ運用
社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。
Deliverables
- フィードバック集計
- 再学習済みLoRA v0.2
- 運用ダッシュボード
Delivery Timeline
- Phase 0Done2026-04-24
要件定義とベースライン測定
既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。
- Phase 1In Progress2026-05-25
LoRA fine-tuning と量子化
pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。
- Phase 2Planned2026-07-05
vLLM 0.7統合と翻訳品質評価
NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。
- Phase 3Planned2026-08-20
社内クローズドβとフィードバック反映
社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。
Who built it
Roles
- 音声MLエンジニア(代表)
- 翻訳評価担当(業務委託)
Tools & Platforms
Backend
Data
Infrastructure
Other
Interesado ka ba sa katulad na proyekto?
Mag-aalok kami ng pinakamahusay na solusyon para sa iyong negosyo.
Pag-usapan ang Iyong Proyekto