テキストだけじゃない？　画像データも理解できる「VLM」（視覚言語モデル）を導入する方法 (l_ky5622_gpt-11.jpg)