自律稼働デバイス向けの軽量な大規模視覚言語モデルを開発

VQAベンチマークの例(位置関係に基づく物体認識)。前方に積まれているものは何かという問題に対し、「スイカ」と回答[クリックで拡大] 出所:Stockvault