Gemini 3.1 Pro登場 思考モデルから実務エージェントへ、複雑タスクを完遂するAIに進化 Gemini 3.1 Proの主要ベンチマーク比較(Google Cloud公式Xポストより引用)左側は未知の問題に対する抽象的な思考力を測る「ARC-AGI-2」のスコアで、Gemini 3.1 Proは77.1%を記録し、前世代モデル(31.1%)から大幅に向上している。右側はツール利用や長期タスクの自律的な遂行能力を評価する「APEX-Agents」の結果で、33.5%と前世代モデル(18.4%)を上回る数値となっている。いずれも棒グラフの高さがスコアを示しており、モデルごとの性能差を視覚的に比較できる。 記事に戻る 一色政彦,デジタルアドバンテージ