Gemini 3.1 Pro登場　思考モデルから実務エージェントへ、複雑タスクを完遂するAIに進化

Gemini 3.1 Proの主要ベンチマーク比較（Google Cloud公式Xポストより引用）左側は未知の問題に対する抽象的な思考力を測る「ARC-AGI-2」のスコアで、Gemini 3.1 Proは77.1％を記録し、前世代モデル（31.1％）から大幅に向上している。右側はツール利用や長期タスクの自律的な遂行能力を評価する「APEX-Agents」の結果で、33.5％と前世代モデル（18.4％）を上回る数値となっている。いずれも棒グラフの高さがスコアを示しており、モデルごとの性能差を視覚的に比較できる。

記事に戻る