ハルシネーションか、計画の順守失敗か? AIエージェントのデバッグが難しい理由

AgentRx Benchmarkにおけるドメイン間の障害密度の分析(提供:Microsoft)