Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵

ユーザーが質問と答えのルールを示すと、質問に正しく答える(画像:論文より)