「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた 複数のモダリティがベクトル化、トークン変換されて、テキストと同じようにLLMのニューラルネットワークに入っていく(A Survey on Multimodal Large Language Modelsより) 記事に戻る 斎藤健二,ITmedia