テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法

ラーメンとは認識できなかったが、近しい料理である「つけ麺」だと認識できている