AIの“長期的なコードの保守能力”はどれほどか? 新たな評価テスト「SWE-CI」 中国チームが提案

コード変更時に既存機能を一度も壊さなかった割合を示し、50%を超えたのはClaude Opus 4.5(51%)と4.6(76%)のみ