「勝手にPythonコードを生成して画像を調査」 Geminiの画像理解の精度を10%上げる「Agentic Vision」

指の数を正確に数えるために、Pythonコードでバウンディングボックスと注釈を生成した例(提供:Google)