AIの“長期的なコードの保守能力”はどれほどか? 新たな評価テスト「SWE-CI」 中国チームが提案

実際のGitHubリポジトリから条件を満たすものを選び、テスト環境を自動構築して最終的に100件の評価タスクを厳選するプロセス