Skip to content
記事一覧に戻る
Models12 min

Gemini 2.5 Pro マルチモーダル: 動画・音声・コード・長文の総合評価

Gemini 2.5 Pro Multimodal: Video, Audio, Code, Long Context Eval

Misaki HayashiAI Research Analyst
2026-04-2512 min
Gemini 2.5 ProMultimodalVideoAudioLong Context

2.5 Pro の特徴

  • 2M トークンコンテキスト(実用域は 1.2M 程度)
  • 動画ネイティブ理解(最大 3 時間相当)
  • 音声入出力(リアルタイム会話 API)
  • コード生成(HumanEval+ 88.4)

動画理解

社内 R&D で 90 分の社内研修動画を投入し、章立て・要点・確認問題生成を一括で実行できた。フレームレート 1fps での扱いになるため、細かいテロップ動きの追跡は弱い。

音声入出力

リアルタイム音声 API は WebRTC 経由で 200-300ms のラウンドトリップ。日本語イントネーションは自然、ただし業務用語(業界ジャーゴン)は誤認識頻発、社内辞書のプロンプト注入が必要。

コード生成

Python / TS / Go の主要言語で安定した出力。Claude / GPT-4o と並ぶレベル。長コンテキストを活かしてリポジトリ全文を投入したコードベース改修タスクで強み。

長文処理

  • 2M トークン投入時の Recall 約 0.85(社内 R&D, 業務 FAQ 特定タスク)。Claude Opus 4.5 の 0.91 に次ぐ品質。

ユースケース適性

  • 適合: 動画教材の要約、リポジトリ全文解析、リアルタイム音声 BOT
  • 不適合: 専門業界用語の高精度音声認識(要 fine-tune)

コスト

公称 input $1.25 / output $5.00 (per 1M)。Claude Opus 4.5 の 1/12、GPT-4o の 1/4。長文 + 動画用途では圧倒的にコスト優位。

まとめ

Gemini 2.5 Pro は「動画・音声・長文」の 3 軸で他モデルと差別化されており、教育・コンテンツ系・音声 BOT 系で第一選択肢になる。社内 R&D では Opus / Sonnet の補完として、特定モダリティ案件で採用するパターンが定着している。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら