Skip to content
Lista de proyectos
IA / HablaBeta

Koe Kaibou — Diarización y Traducción JA→EN en Tiempo Real

Koe Kaibou — Real-time JA Speech Diarization and Translation

Diarización de habla en tiempo real combinada con traducción JA→EN usando Whisper-Large con adaptadores LoRA. Prototipo de I+D en validación interna.

2026 Prototipo de I+D 2026-04
#音声認識#話者分離#機械翻訳#リアルタイム#LoRA

Demo en vivo

Vista previa de la pantalla real de la aplicación

DEMO
app.koe.jp/dashboard
WER
8.1%
日本語
DER
7.8%
話者誤差
TTFT
780 ms
初音遅延
セッション
42:18
録音長

リアルタイム話者分離

話者A話者B話者C
16kHz · PCM
A
話者A00:00:12

本日の議題は次四半期の半導体出荷計画についてです。

Today's agenda is the semiconductor shipment plan for next quarter.

B
話者B00:00:18

了解です。現在の在庫水準を共有してもよろしいですか?

Understood. May I share the current inventory levels?

A
話者A00:00:24

お願いします。特に28nmノードの状況を詳しく。

Please go ahead. Especially the status of the 28nm node in detail.

C
話者C00:00:33

補足すると、アジア圏の需要は前期比18%増です。

To add, demand in Asia is up 18% quarter-over-quarter.

B
話者B00:00:41

生産ラインはフル稼働ですが、リードタイムは6週間です。

Production lines are at full capacity, but lead time is six weeks.

A
話者A00:00:49

わかりました。優先出荷リストを再調整しましょう。

Understood. Let's readjust the priority shipping list.

発話時間シェア

話者A48%
話者B34%
話者C18%

RTF (Real-Time Factor)

RTF 0.20 平均 (低いほど高速)

パイプライン構成

VADwebrtcvad-silero12ms
ASRwhisper-large-v3-ja540ms
Diar.pyannote 3.1180ms
MTnllb-distilled48ms

Desafío

Las reuniones bilingües requerían transcripción con identificación de hablante y traducción simultánea, pero las soluciones off-the-shelf perdían contexto y cometían errores graves en terminología técnica JA.

Solución

Pipeline streaming con Whisper-Large + diarización basada en embeddings de speaker, y adaptador LoRA fine-tuned para terminología técnica JA→EN. Latencia baja en GPU única. Operado como I+D interno.

Resultados

  • Latencia de transcripción: 1.4s end-to-end (datos internos)
  • WER en habla JA técnica: 8.7% (datos internos)
  • Diarización DER del 11% en reuniones de 6 hablantes (datos internos)
  • BLEU JA→EN: +6 puntos sobre baseline (datos internos)
Key Metrics

Measured Impact

E2Eレイテンシ

1.4s

p95

DER

12.8%

baseline 19.4%

JA→EN BLEU

34.2

FLORES-200

同時話者数

10

RTX 4090×1

Features

What it does

リアルタイム処理

200msチャンクストリーミング

WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。

話者境界で区切る翻訳

話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。

プライバシー

オンプレ完結デプロイ

すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。

音声の揮発保持

音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

音声取り込み層

ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。

WebRTC (aiortc)VAD (Silero v5)Opus decoderリングバッファ
L2

Layer

認識・分離層

ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。

pyannote.audio 3.3 + LoRAwhisper.cpp INT8話者境界整合器Redis Streams
L3

Layer

翻訳配信層

vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。

NLLB-200 3.3BvLLM 0.7 PagedAttentionFastAPI SSEPrometheus metrics
Development Process

How we built it

Step 1

データ収集と合意

CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。

Deliverables

  • データセット v0.1
  • ラベリングガイド
  • 同意書テンプレ
Step 2

ダイアライゼーションLoRA

pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。

Deliverables

  • LoRAアダプタ
  • DER評価レポート
  • 学習ノートブック
Step 3

vLLM 0.7配信最適化

NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。

Deliverables

  • vLLM configファイル
  • レイテンシ計測レポート
  • 負荷試験スクリプト
Step 4

クローズドβ運用

社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。

Deliverables

  • フィードバック集計
  • 再学習済みLoRA v0.2
  • 運用ダッシュボード
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-24

    要件定義とベースライン測定

    既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。

  • Phase 1In Progress2026-05-25

    LoRA fine-tuning と量子化

    pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。

  • Phase 2Planned2026-07-05

    vLLM 0.7統合と翻訳品質評価

    NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。

  • Phase 3Planned2026-08-20

    社内クローズドβとフィードバック反映

    社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。

Team

Who built it

2engineers

Roles

  • 音声MLエンジニア(代表)
  • 翻訳評価担当(業務委託)
Tecnologías

Tools & Platforms

Backend

vLLM 0.7FastAPI

Data

Redis Streams

Infrastructure

Prometheus

Other

pyannote.audio 3.3PEFT 0.13 (LoRA)whisper.cppNLLB-200 3.3BWebRTC (aiortc)
Build with KGA

¿Interesado en un proyecto similar?

Te propondremos la mejor solución para tu negocio.

Consultar sobre tu proyecto