テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法

漢数字の「一」を記号として認識しているようだが、それ以外は問題なく認識できていることが分かった