AIエージェントの「スキル」の品質低下を防ぐ? テストと検証機能を強化

ベンチマークモードの実行結果例。PDFスキルを有効にした場合(WITH SKILL)は合格率100%、無効時(WITHOUT SKILL)は40%と、スキルの効果が数値で可視化される(提供:Anthropic)