Claude Opus 4.7は“最強で最恐”? 圧倒的な性能なのに使いたくないわけ

主要ベンチマークにおけるClaude Opus 4.7と他モデルの比較(公式発表ページから引用)各行には、SWE-bench Pro/Verified(コード修正)、Terminal-Bench 2.0(ターミナル操作を含むコーディング)、Humanity's Last Exam(多分野推論)、BrowseComp(検索)、MCP-Atlas(大規模なツール利用)、OSWorld-Verified(コンピュータ操作)、Finance Agent v1.1(金融分析)、CyberGym(サイバーセキュリティ)、GPQA Diamond(大学院レベル推論)、CharXiv Reasoning(視覚推論)、MMMLU(多言語Q&A)といった評価指標が並んでいる。