2.5 Pro の特徴
- 2M トークンコンテキスト(実用域は 1.2M 程度)
- 動画ネイティブ理解(最大 3 時間相当)
- 音声入出力(リアルタイム会話 API)
- コード生成(HumanEval+ 88.4)
動画理解
社内 R&D で 90 分の社内研修動画を投入し、章立て・要点・確認問題生成を一括で実行できた。フレームレート 1fps での扱いになるため、細かいテロップ動きの追跡は弱い。
音声入出力
リアルタイム音声 API は WebRTC 経由で 200-300ms のラウンドトリップ。日本語イントネーションは自然、ただし業務用語(業界ジャーゴン)は誤認識頻発、社内辞書のプロンプト注入が必要。
コード生成
Python / TS / Go の主要言語で安定した出力。Claude / GPT-4o と並ぶレベル。長コンテキストを活かしてリポジトリ全文を投入したコードベース改修タスクで強み。
長文処理
- 2M トークン投入時の Recall 約 0.85(社内 R&D, 業務 FAQ 特定タスク)。Claude Opus 4.5 の 0.91 に次ぐ品質。
ユースケース適性
- 適合: 動画教材の要約、リポジトリ全文解析、リアルタイム音声 BOT
- 不適合: 専門業界用語の高精度音声認識(要 fine-tune)
コスト
公称 input $1.25 / output $5.00 (per 1M)。Claude Opus 4.5 の 1/12、GPT-4o の 1/4。長文 + 動画用途では圧倒的にコスト優位。
まとめ
Gemini 2.5 Pro は「動画・音声・長文」の 3 軸で他モデルと差別化されており、教育・コンテンツ系・音声 BOT 系で第一選択肢になる。社内 R&D では Opus / Sonnet の補完として、特定モダリティ案件で採用するパターンが定着している。