GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂? カギは“最後まで自走する力”

コーディング関連ベンチマークにおけるGPT-5.5とGPT-5.4の比較(公式発表ページから引用)左はTerminal-Bench 2.0(ターミナル操作を含むコーディングタスク)、右はExpert-SWE(OpenAIの社内評価)。横軸は出力トークン数、縦軸はスコアを示している。グラフは、出力トークン数を増やしたときに、各モデルのスコアがどのように変化するかを表している。