「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた

複数のモダリティがベクトル化、トークン変換されて、テキストと同じようにLLMのニューラルネットワークに入っていく(A Survey on Multimodal Large Language Modelsより)