AIモデル評価、「こっちの方がしっくりくる」でいいのか？　GoogleがLLM評価ツールの試験運用を開始 (l_so4430_img_250904_02.jpg)