AIの“長期的なコードの保守能力”はどれほどか? 新たな評価テスト「SWE-CI」 中国チームが提案 実際のGitHubリポジトリから条件を満たすものを選び、テスト環境を自動構築して最終的に100件の評価タスクを厳選するプロセス 記事に戻る 山下(Seamless),ITmedia