Koe Kaibou — 일본어 음성 실시간 화자 분리·번역
Koe Kaibou — Real-time JA Speech Diarization and Translation
회의·취재 영상에서 일본어 다중 화자를 실시간으로 분리하고 영문 자막을 동기 생성하는 R&D 프로토타입입니다.
라이브 데모
실제 애플리케이션 화면 미리보기
リアルタイム話者分離
本日の議題は次四半期の半導体出荷計画についてです。
Today's agenda is the semiconductor shipment plan for next quarter.
了解です。現在の在庫水準を共有してもよろしいですか?
Understood. May I share the current inventory levels?
お願いします。特に28nmノードの状況を詳しく。
Please go ahead. Especially the status of the 28nm node in detail.
補足すると、アジア圏の需要は前期比18%増です。
To add, demand in Asia is up 18% quarter-over-quarter.
生産ラインはフル稼働ですが、リードタイムは6週間です。
Production lines are at full capacity, but lead time is six weeks.
わかりました。優先出荷リストを再調整しましょう。
Understood. Let's readjust the priority shipping list.
発話時間シェア
RTF (Real-Time Factor)
RTF 0.20 平均 (低いほど高速)
パイプライン構成
과제
일본어 회의는 말겹침과 백채널이 많아 기존 화자 분리는 정확도가 무너지고, 번역 자막은 1~2초 지연됩니다.
솔루션
WhisperX와 pyannote 기반 스트리밍 화자 분리에 일본어 fine-tune을 더하고, 번역 측은 NLLB-distill로 전송 지연을 압축했습니다.
성과
- 내부 검증 데이터 기준 화자 분리 DER 21% → 11%
- 엔드 투 엔드 자막 지연 3.4s → 0.9s
- 베타 사용자 6팀에서 회의록 정정 시간 절반 감소
- GPU 1장으로 동시 4세션 처리 부하 테스트 통과
Measured Impact
E2Eレイテンシ
1.4s
p95
DER
12.8%
baseline 19.4%
JA→EN BLEU
34.2
FLORES-200
同時話者数
10
RTX 4090×1
What it does
リアルタイム処理
200msチャンクストリーミング
WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。
話者境界で区切る翻訳
話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。
プライバシー
オンプレ完結デプロイ
すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。
音声の揮発保持
音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
音声取り込み層
ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。
Layer
認識・分離層
ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。
Layer
翻訳配信層
vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。
How we built it
データ収集と合意
CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。
Deliverables
- データセット v0.1
- ラベリングガイド
- 同意書テンプレ
ダイアライゼーションLoRA
pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。
Deliverables
- LoRAアダプタ
- DER評価レポート
- 学習ノートブック
vLLM 0.7配信最適化
NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。
Deliverables
- vLLM configファイル
- レイテンシ計測レポート
- 負荷試験スクリプト
クローズドβ運用
社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。
Deliverables
- フィードバック集計
- 再学習済みLoRA v0.2
- 運用ダッシュボード
Delivery Timeline
- Phase 0Done2026-04-24
要件定義とベースライン測定
既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。
- Phase 1In Progress2026-05-25
LoRA fine-tuning と量子化
pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。
- Phase 2Planned2026-07-05
vLLM 0.7統合と翻訳品質評価
NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。
- Phase 3Planned2026-08-20
社内クローズドβとフィードバック反映
社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。
Who built it
Roles
- 音声MLエンジニア(代表)
- 翻訳評価担当(業務委託)
Tools & Platforms
Backend
Data
Infrastructure
Other