AIエージェントの「スキル」の品質低下を防ぐ? テストと検証機能を強化

A/Bテストの仕組み。スキルの有無それぞれの結果を踏まえ、どちらの出力か知らないComparatorが採点して優劣を決定する(提供:Anthropic)