GPT-5.3-Codexが主要ツールで解禁 OS操作などを含む開発タスクを自律的に完遂する能力が大幅向上

OSWorld-Verified(左)とTerminal-Bench 2.0(右)におけるGPT-5.3-Codexの評価結果(OpenAI公式発表より引用)アプリ操作やファイル管理など、実際のOS操作を伴うタスクの完遂度を測るベンチマーク「OSWorld-Verified」では、GPT-5.3-Codexが64.7%を記録し、従来モデル(約38%台)から大きく伸びた。ターミナル操作を評価するベンチマーク「Terminal-Bench 2.0」でも77.3%という高い成功率を示しており、OSやターミナルを操作しながら一連の作業を最後までやり切る能力が向上していることが分かる。