Gemini 3 Flash登場 Proに迫る性能で価格は最大1/8、軽量モデルがAI開発の常識を変えるか

Gemini 3 Flashのベンチマーク結果(公式発表ページより引用)実務的なコード修正能力を測る「SWE-bench Verified」では、Gemini 2.5 Flashの正答率60.4%に対し、Gemini 3 Flashは78.0%を記録しており、約18ポイントの向上が見られる。また、ターミナル操作を伴うエージェント的な開発タスクを評価する「Terminal-bench 2.0」でも、Gemini 3 Flashは47.6%と、Gemini 2.5 Flashの16.9%を大きく上回る。