言語生成AIは文章を“盗作”しているのか? 21万件の文章から米国の研究者らが分析

GPT-2とその学習セットで作成した文章から検出された3種類の剽窃の例。左がモデルが出力した文章。右が訓練時の元の文章。重複する文章は黄色、重複が少なく類似した意味を持つ単語/フレーズはオレンジでハイライトしている