Skip to content
返回项目列表
AI / 机器学习Beta

Koe Kaibou — 日语语音实时说话人分离与翻译

Koe Kaibou — Real-time JA Speech Diarization and Translation

在会议与采访视频中实时分离日语多说话人并同步生成英文字幕的研发原型。

2026 封闭 Beta 测试 2026-04
#音声認識#話者分離#機械翻訳#リアルタイム#LoRA

在线演示

实际应用界面预览

DEMO
app.koe.jp/dashboard
WER
8.1%
日本語
DER
7.8%
話者誤差
TTFT
780 ms
初音遅延
セッション
42:18
録音長

リアルタイム話者分離

話者A話者B話者C
16kHz · PCM
A
話者A00:00:12

本日の議題は次四半期の半導体出荷計画についてです。

Today's agenda is the semiconductor shipment plan for next quarter.

B
話者B00:00:18

了解です。現在の在庫水準を共有してもよろしいですか?

Understood. May I share the current inventory levels?

A
話者A00:00:24

お願いします。特に28nmノードの状況を詳しく。

Please go ahead. Especially the status of the 28nm node in detail.

C
話者C00:00:33

補足すると、アジア圏の需要は前期比18%増です。

To add, demand in Asia is up 18% quarter-over-quarter.

B
話者B00:00:41

生産ラインはフル稼働ですが、リードタイムは6週間です。

Production lines are at full capacity, but lead time is six weeks.

A
話者A00:00:49

わかりました。優先出荷リストを再調整しましょう。

Understood. Let's readjust the priority shipping list.

発話時間シェア

話者A48%
話者B34%
話者C18%

RTF (Real-Time Factor)

RTF 0.20 平均 (低いほど高速)

パイプライン構成

VADwebrtcvad-silero12ms
ASRwhisper-large-v3-ja540ms
Diar.pyannote 3.1180ms
MTnllb-distilled48ms

挑战

日语会议中重叠说话与回声反馈频繁,既有说话人分离精度受损,翻译字幕延迟 1~2 秒。

解决方案

在 WhisperX 与 pyannote 流式说话人分离上叠加日语 fine-tune,翻译侧采用 NLLB-distill 压缩传输延迟。

成果

  • 内部验证数据下说话人分离 DER 由 21% 降至 11%
  • 端到端字幕延迟由 3.4s 降至 0.9s
  • Beta 用户的 6 个团队会议记录修正时间减半
  • 单 GPU 通过同时 4 会话并发压力测试
Key Metrics

Measured Impact

E2Eレイテンシ

1.4s

p95

DER

12.8%

baseline 19.4%

JA→EN BLEU

34.2

FLORES-200

同時話者数

10

RTX 4090×1

Features

What it does

リアルタイム処理

200msチャンクストリーミング

WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。

話者境界で区切る翻訳

話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。

プライバシー

オンプレ完結デプロイ

すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。

音声の揮発保持

音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

音声取り込み層

ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。

WebRTC (aiortc)VAD (Silero v5)Opus decoderリングバッファ
L2

Layer

認識・分離層

ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。

pyannote.audio 3.3 + LoRAwhisper.cpp INT8話者境界整合器Redis Streams
L3

Layer

翻訳配信層

vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。

NLLB-200 3.3BvLLM 0.7 PagedAttentionFastAPI SSEPrometheus metrics
Development Process

How we built it

Step 1

データ収集と合意

CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。

Deliverables

  • データセット v0.1
  • ラベリングガイド
  • 同意書テンプレ
Step 2

ダイアライゼーションLoRA

pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。

Deliverables

  • LoRAアダプタ
  • DER評価レポート
  • 学習ノートブック
Step 3

vLLM 0.7配信最適化

NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。

Deliverables

  • vLLM configファイル
  • レイテンシ計測レポート
  • 負荷試験スクリプト
Step 4

クローズドβ運用

社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。

Deliverables

  • フィードバック集計
  • 再学習済みLoRA v0.2
  • 運用ダッシュボード
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-24

    要件定義とベースライン測定

    既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。

  • Phase 1In Progress2026-05-25

    LoRA fine-tuning と量子化

    pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。

  • Phase 2Planned2026-07-05

    vLLM 0.7統合と翻訳品質評価

    NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。

  • Phase 3Planned2026-08-20

    社内クローズドβとフィードバック反映

    社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。

Team

Who built it

2engineers

Roles

  • 音声MLエンジニア(代表)
  • 翻訳評価担当(業務委託)
技术栈

Tools & Platforms

Backend

vLLM 0.7FastAPI

Data

Redis Streams

Infrastructure

Prometheus

Other

pyannote.audio 3.3PEFT 0.13 (LoRA)whisper.cppNLLB-200 3.3BWebRTC (aiortc)
Build with KGA

正在考虑类似的项目?

我们将为您的业务需求提供最优解决方案。

咨询您的项目