@IT UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発画像エンコーダーの後に、埋め込まれたテキストと画像の特徴を使用するマルチモーダルエンコーダーが続く。マルチモーダルエンコーダーの出力は自己回帰デコーダーに送られ、このデコーダーが最終的なテキスト出力を生成する(提供:Google) 記事に戻る蜑阪�逕サ蜒�2 / 5谺。縺ョ逕サ蜒�