AIモデル評価、「こっちの方がしっくりくる」でいいのか? GoogleがLLM評価ツールの試験運用を開始 Staxの評価結果画面。各テストケースに対する評価スコアや平均遅延などが一覧で表示され、客観的な指標に基づいたLLMの性能比較を可能にする(提供:Google) 記事に戻る @IT