テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法

ロンプト入力欄に先ほど指定した画像ファイルのサムネイルが表示されていることが分かる