「GPT-5.5」発表 Claude Mythos Previewとの差は

コマンドライン上の複雑な作業を評価するTerminal-Bench 2.0の結果