OpenAIがGPT-5.5をリリースした。複数のツールを渡り歩きながら長めのタスクを自走させることを想定した「エージェントモデル」として位置づけられている。
どこで効くか
単発のQAやライティングではなく、検索、コード実行、ファイル操作などを跨ぐワークフローで失敗しづらくなっているとされる。ベンチマークではGoogleやAnthropicの同時期モデルを上回る数値が並ぶ。
採用時に見る軸
応答品質より、ツール呼び出しの完遂率と、途中で戻れるかどうかのリカバリ挙動を試した方が実務の差が見えやすい。既存エージェントの土台を入れ替える前に、失敗系のログで比較するのが近道。