自律稼働デバイス向けの軽量な大規模視覚言語モデルを開発

Visual Groundingベンチマークの例(位置関係理解)。犬の視線など複数の手掛かりから対象となる犬を特定[クリックで拡大] 出所:[写真]lasta29「Search and rescue dog, Japan Rescue Association」、[出典]Wikimedia Commons、[URL]https://commons.wikimedia.org/wiki/File:Search_and_rescue_dog,_Japan_Rescue_Association_(34690315563).jpg、[ライセンス]Creative Commons Attribution 2.0 Generic(CC BY 2.0、https://creativecommons.org/licenses/by/2.0/)、本記事に掲載するに当たりバウンディングボックス(緑枠)を追加している