テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法

少ししか写っていないレールや、風景の様子を正確に認識した上で回答を生成していることが分かる