Skip to content
포트폴리오 목록
AI / 머신러닝Beta

Koe Kaibou — 일본어 음성 실시간 화자 분리·번역

Koe Kaibou — Real-time JA Speech Diarization and Translation

회의·취재 영상에서 일본어 다중 화자를 실시간으로 분리하고 영문 자막을 동기 생성하는 R&D 프로토타입입니다.

2026 클로즈드 베타 진행 중 2026-04
#音声認識#話者分離#機械翻訳#リアルタイム#LoRA

라이브 데모

실제 애플리케이션 화면 미리보기

DEMO
app.koe.jp/dashboard
WER
8.1%
日本語
DER
7.8%
話者誤差
TTFT
780 ms
初音遅延
セッション
42:18
録音長

リアルタイム話者分離

話者A話者B話者C
16kHz · PCM
A
話者A00:00:12

本日の議題は次四半期の半導体出荷計画についてです。

Today's agenda is the semiconductor shipment plan for next quarter.

B
話者B00:00:18

了解です。現在の在庫水準を共有してもよろしいですか?

Understood. May I share the current inventory levels?

A
話者A00:00:24

お願いします。特に28nmノードの状況を詳しく。

Please go ahead. Especially the status of the 28nm node in detail.

C
話者C00:00:33

補足すると、アジア圏の需要は前期比18%増です。

To add, demand in Asia is up 18% quarter-over-quarter.

B
話者B00:00:41

生産ラインはフル稼働ですが、リードタイムは6週間です。

Production lines are at full capacity, but lead time is six weeks.

A
話者A00:00:49

わかりました。優先出荷リストを再調整しましょう。

Understood. Let's readjust the priority shipping list.

発話時間シェア

話者A48%
話者B34%
話者C18%

RTF (Real-Time Factor)

RTF 0.20 平均 (低いほど高速)

パイプライン構成

VADwebrtcvad-silero12ms
ASRwhisper-large-v3-ja540ms
Diar.pyannote 3.1180ms
MTnllb-distilled48ms

과제

일본어 회의는 말겹침과 백채널이 많아 기존 화자 분리는 정확도가 무너지고, 번역 자막은 1~2초 지연됩니다.

솔루션

WhisperX와 pyannote 기반 스트리밍 화자 분리에 일본어 fine-tune을 더하고, 번역 측은 NLLB-distill로 전송 지연을 압축했습니다.

성과

  • 내부 검증 데이터 기준 화자 분리 DER 21% → 11%
  • 엔드 투 엔드 자막 지연 3.4s → 0.9s
  • 베타 사용자 6팀에서 회의록 정정 시간 절반 감소
  • GPU 1장으로 동시 4세션 처리 부하 테스트 통과
Key Metrics

Measured Impact

E2Eレイテンシ

1.4s

p95

DER

12.8%

baseline 19.4%

JA→EN BLEU

34.2

FLORES-200

同時話者数

10

RTX 4090×1

Features

What it does

リアルタイム処理

200msチャンクストリーミング

WebRTCから200msチャンクで受信し、VAD→ダイアライゼーション→ASR→翻訳を並列パイプラインで処理。

話者境界で区切る翻訳

話者切替を翻訳単位の区切りに使うことで、文脈混在を防ぎBLEUを+5.5改善。

プライバシー

オンプレ完結デプロイ

すべての推論をVPC内のRTX 4090で実行、音声・テキストを外部に送信しない構成。

音声の揮発保持

音声はRAMディスク上のリングバッファにのみ保持し、会議終了時に完全消去。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

音声取り込み層

ブラウザからWebRTCで音声を受け、Silero VADで無音区間を除去してから後段に200msチャンク単位で流す。

WebRTC (aiortc)VAD (Silero v5)Opus decoderリングバッファ
L2

Layer

認識・分離層

ダイアライゼーションと文字起こしを並列実行し、話者境界で文字起こしを区切ってRedis Streamsに投入。

pyannote.audio 3.3 + LoRAwhisper.cpp INT8話者境界整合器Redis Streams
L3

Layer

翻訳配信層

vLLM 0.7の連続バッチングでNLLB-200を8並列実行し、FastAPIのSSEで翻訳結果をブラウザに配信。

NLLB-200 3.3BvLLM 0.7 PagedAttentionFastAPI SSEPrometheus metrics
Development Process

How we built it

Step 1

データ収集と合意

CALLHOME-JAに加え、社内会議を合意書付きで60時間収録、ラベリングガイドを整備。

Deliverables

  • データセット v0.1
  • ラベリングガイド
  • 同意書テンプレ
Step 2

ダイアライゼーションLoRA

pyannote-community-1にLoRA(rank=16)を適用しDERを19.4%→12.8%に改善。

Deliverables

  • LoRAアダプタ
  • DER評価レポート
  • 学習ノートブック
Step 3

vLLM 0.7配信最適化

NLLB-200をvLLM 0.7でPagedAttention+連続バッチングで配信、p95レイテンシを計測。

Deliverables

  • vLLM configファイル
  • レイテンシ計測レポート
  • 負荷試験スクリプト
Step 4

クローズドβ運用

社内3部署でβ運用、誤訳・誤分離ログを収集しLoRA再学習に反映。

Deliverables

  • フィードバック集計
  • 再学習済みLoRA v0.2
  • 運用ダッシュボード
Roadmap

Delivery Timeline

  • Phase 0Done2026-04-24

    要件定義とベースライン測定

    既存SaaS(Otter/Zoom)のレイテンシとDER測定、pyannote/whisperの素の性能ベンチ。

  • Phase 1In Progress2026-05-25

    LoRA fine-tuning と量子化

    pyannote-community-1にLoRA適用、whisper-large-v3をwhisper.cppでINT8化。

  • Phase 2Planned2026-07-05

    vLLM 0.7統合と翻訳品質評価

    NLLB-200をvLLM 0.7で配信、FLORES-200とJPO特許対訳で BLEU/COMET評価。

  • Phase 3Planned2026-08-20

    社内クローズドβとフィードバック反映

    社内3部署+業務委託パートナーでβ運用、誤訳ログからPrompt/LoRA改善。

Team

Who built it

2engineers

Roles

  • 音声MLエンジニア(代表)
  • 翻訳評価担当(業務委託)
기술 스택

Tools & Platforms

Backend

vLLM 0.7FastAPI

Data

Redis Streams

Infrastructure

Prometheus

Other

pyannote.audio 3.3PEFT 0.13 (LoRA)whisper.cppNLLB-200 3.3BWebRTC (aiortc)
Build with KGA

유사한 프로젝트를 고려 중이신가요?

고객의 비즈니스에 최적의 솔루션을 제안해 드립니다.

프로젝트 상담하기