GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂？　カギは“最後まで自走する力”

コーディング関連ベンチマークにおけるGPT-5.5とGPT-5.4の比較（公式発表ページから引用）左はTerminal-Bench 2.0（ターミナル操作を含むコーディングタスク）、右はExpert-SWE（OpenAIの社内評価）。横軸は出力トークン数、縦軸はスコアを示している。グラフは、出力トークン数を増やしたときに、各モデルのスコアがどのように変化するかを表している。

記事に戻る