UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」　Googleが開発

画像エンコーダーの後に、埋め込まれたテキストと画像の特徴を使用するマルチモーダルエンコーダーが続く。マルチモーダルエンコーダーの出力は自己回帰デコーダーに送られ、このデコーダーが最終的なテキスト出力を生成する（提供：Google）

画像エンコーダーの後に、埋め込まれたテキストと画像の特徴を使用するマルチモーダルエンコーダーが続く。マルチモーダルエンコーダーの出力は自己回帰デコーダーに送られ、このデコーダーが最終的なテキスト出力を生成する（提供：Google）

記事に戻る蜑阪�逕ｻ蜒�2 / 5谺｡縺ｮ逕ｻ蜒�