自律稼働デバイス向けの軽量な大規模視覚言語モデルを開発

VQAベンチマークの例（位置関係に基づく物体認識）。前方に積まれているものは何かという問題に対し、「スイカ」と回答［クリックで拡大］出所：Stockvault

記事に戻る