GPT-5.4 mini登場 複数エージェントでの開発に最適で安い!……が、実は前世代から3倍値上げ

GPT-5.4 mini/nanoとフルモデル(GPT-5.4)の主要ベンチマーク比較(OpenAI公式Xポストより引用)ソフトウェア開発(SWE-Bench Pro)やターミナル操作(Terminal-Bench)、コンピュータ操作(OSWorld-Verified)、AIによるツール利用(MCP Atlas)、高度な知識問題(GPQA Diamond)など、実際の作業に近い能力を測る指標をまとめたもの。miniはフルモデルより性能は一段下だが、実務で使える水準に達している。※ただし、このベンチマークは各モデルで利用可能な最大の思考レベル(reasoning_effort)設定で測定された結果であり、実際にminiを低い思考レベル設定(lowなど)で運用する場合とは性能が異なる可能性がある。また、他社モデルのスコアは各社や評価機関が公開している数値を引用しており、測定条件が完全に一致しているわけではない点にも注意が必要である。