Claude Opus 4.6登場 考えるコストの自動最適化と、AIが組織で動く「エージェントチーム」

主要ベンチマークにおけるClaude Opus 4.6と他モデルの比較(公式発表ページをスクリーンキャプチャして引用)各行は異なる評価指標(ベンチマーク)を示しており、左端の「Opus 4.6」は多くの項目で競合モデルを上回っている。例えば、ターミナル操作を含むAIエージェント型のコーディング作業を評価する「Terminal-Bench 2.0」(最上段)では、Opus 4.6は65.4%を記録した。前世代のOpus 4.5(59.8%)やSonnet 4.5(51.0%)を上回っている。加えて、実際のソフトウェア開発タスクに近い修正問題を扱う「SWE-bench Verified」(2段目)では、Opus 4.6は80.8%となっており、Opus 4.5(80.9%)とほぼ同水準である。数値上はわずかに下回っているものの、実務的なコード修正能力については引き続き高い水準を維持している。