自律稼働デバイス向けの軽量な大規模視覚言語モデルを開発

Visual Groundingベンチマークの例（位置関係理解）。犬の視線など複数の手掛かりから対象となる犬を特定［クリックで拡大］出所：［写真］lasta29「Search and rescue dog, Japan Rescue Association」、［出典］Wikimedia Commons、［URL］https://commons.wikimedia.org/wiki/File:Search_and_rescue_dog,_Japan_Rescue_Association_(34690315563).jpg、［ライセンス］Creative Commons Attribution 2.0 Generic（CC BY 2.0、https://creativecommons.org/licenses/by/2.0/）、本記事に掲載するに当たりバウンディングボックス（緑枠）を追加している

記事に戻る