“世界最高のコーディングモデル”をうたう「Claude Sonnet 4.5」登場　長時間タスク対応と安全設計

ソフトウェアエンジニアリング分野のベンチマーク（SWE-bench Verified）におけるコーディング性能比較（公式発表ページより引用）横軸は主要AIモデル（例：Claude Sonnet 4.5、GPT-5-Codex、Gemini 2.5 Proなど）を示し、縦軸は「課題を正しく解決できた割合（％）」を表している。上に行くほどコード生成や修正タスクの精度が高いことを意味する。色付きのバーはClaudeシリーズ（Sonnet／Opus）を示しており、Sonnet 4.5は77.2％で、前世代の上位モデルOpus 4.1の74.5％を上回る精度を達成した。なお、バー上部の「＊」印は、複数の思考経路を同時に実行する「並列テスト時計算（parallel test-time compute）」によって得られた最良スコアを示している。

記事に戻る