公開情報によれば、GPT-5 CodexはOpenAIがGPT-5ファミリーの一部として提供する開発者向け特化モデルで、コード生成・マルチファイル編集・ターミナル操作を含むエージェント動作に最適化されている。本稿では性能、IDE統合、運用上の注意点を整理する。
ベンチマークから始める。SWE-bench VerifiedではGPT-5 Codexの公表スコアが高水準にあるが、Anthropic系モデルとの差は数ポイント以内で、一方が常に優位という状況ではない。LiveCodeBenchやAiderの編集系評価では、差し替え型の編集(diff出力)の正確性が世代を通じて顕著に改善している。具体的には、`search/replace`ブロックの整合性エラーが前世代より減り、長い編集チェーンでの`apply失敗率`が下がっている、という第三者ベンチが複数確認できる。
マルチファイル編集は今世代の主戦場だ。Codexは内部で「計画→候補編集→検証」のループを回しやすく、リンターやテストランナーへのツール呼び出しを含むワークフローで成功率が伸びる設計になっている。ただしここで注意すべきは、「モデル単体性能」と「エージェントハーネス性能」が混同されやすい点だ。CursorやWindsurfで体感が良いのは、モデルに加えてretrieval、diff適用、コンテキスト圧縮のエンジニアリングが効いているためで、モデル差分を過大評価してはならない。
IDE統合について。Cursorは公開情報によればCodexを主要モデルの一つとして提供し、タブ補完・Composer・Agentの各レイヤーで使い分ける構成を採る。Windsurf(旧Codeium)はCascadeの文脈管理が厚く、リポジトリ規模の変更で強みが出る。いずれもサブスクリプション側で使用量上限がかかるため、無制限に回せる前提で設計すると破綻する。
運用の勘所は三つ。第一にコスト制御——Codexはreasoningトークンを消費するので、モデル側の思考深度とキャッシュ戦略を揃える。第二にテスト駆動——エージェントに書かせる場合、テストが先にあるほど成功率が跳ね上がる。第三に差分レビュー——人手のコードレビューが外れると、正しそうで壊れているPRが増える。
結論として、GPT-5 Codexは「IDEの中で真価を発揮する」モデルだ。単体APIコールでの比較では差が小さく見えても、ハーネスに組み込まれたときのエンドツーエンド体験は明確に一段進んでいる。