AIモデル評価、「こっちの方がしっくりくる」でいいのか? GoogleがLLM評価ツールの試験運用を開始

Staxの「Playground」画面。AIへの指示やユーザーからの入力を設定し、評価の元となるテストケースを作成する(提供:Google)