なぜ今ブラウザ操作エージェントか
API がない SaaS や旧基幹システムへの操作を必要とする業務では、ブラウザ操作 LLM エージェントが事実上の RPA 後継として急速に使われ始めている。Selenium ベースの旧 RPA と異なり、UI 構造の変更に対するロバスト性が高く、定期メンテナンス工数が大きく減る。
3 つの選択肢
| 観点 | Claude Computer Use | Skyvern | Browser Use | | --- | --- | --- | --- | | エンジン | Claude Opus / Sonnet | OSS、複数 LLM 切替 | OSS、複数 LLM 切替 | | ホスティング | Anthropic API + 自前実行 | OSS / Cloud | OSS / Cloud | | コスト | 高め | 中(モデル次第) | 中 | | 視覚理解 | 強い | 中 | 中 | | HITL | API 経由 | UI ビルトイン | UI ビルトイン |
選定基準
- 信頼性最優先 → Claude Computer Use(誤操作率が最も低い)
- カスタマイズ性 → Browser Use(コードレベルでフックを書ける)
- 業務テンプレート性 → Skyvern(社内 BPO チームへの渡しやすさ)
本番運用の注意
- 操作ログとスクリーンショットを必ず残す(監査用)
- 失敗時の再試行ポリシーを実装段階で定義
- 機密データ入力は別ワークフロー(パスワードマネージャ連携)に分離
- robots.txt や規約に反する自動化は対象外
コスト試算
社内 R&D で「月 200 件のレガシー SaaS 入力業務」を 3 つの方式で試算すると、Claude Computer Use 約 12 万円 / 月、Skyvern + Sonnet 約 6 万円 / 月、Browser Use + DeepSeek 約 2 万円 / 月。トレードオフは「精度・運用負荷・拡張性」のバランスで決める。
まとめ
ブラウザ操作エージェントは旧 RPA を置き換えるレベルに到達しつつある。基幹案件は Claude Computer Use、長期運用と拡張性を重視するなら Browser Use、社内テンプレ提供型なら Skyvern、という棲み分けが現実的。