データ中心のAI(DCAI:Data-Centric AI)とは?

図1 クリーンなGood DataがノイズありのBig Dataに勝る事例(Andrew Ng氏のスライドから引用、一部を加工)500件のデータ中に12%のノイズ(=間違った/矛盾した教師ラベル)がある。このとき、ノイズをクリーンアップ(修正)することは、このグラフの正解率を見ると、別の500件の新規データを集めること以上の効果を持つことが示されている。