GPT-5.2-Codexが主要ツールで解禁 「Windows最適化」×「長時間エージェント」で実用性が向上

SWE-Bench Pro(左)とTerminal-Bench 2.0(右)におけるGPT-5.2-Codexの評価結果(OpenAI公式発表より引用)SWE-Bench Proでは、GPT-5.2-Codexが56.4%の精度(正解率)で、GPT-5.2(55.6%)とGPT-5.1(50.8%)を上回った。Terminal-Bench 2.0でもGPT-5.2-Codexが64.0%でGPT-5.2(62.2%)とGPT-5.1-Codex-Max(58.1%)を上回っている。いずれも「実際のコードベースの修正」や「ターミナルでの操作を伴う作業」を想定したベンチマークであり、Codexが長時間のエージェント型作業(反復作業)に強いことを示す材料となる。