話者の動画を与えると単語を容易に修正できる手法を開発、スタンフォード大などの研究チーム

アルゴリズムの動作。肩から上の動画と文字起こしをシステムに投入後、全ての音素を入力音声と位置合わせし、各入力フレームを追跡して口の位置や表情を表す「パラメトリックヘッドモデル」を構築した。特定の単語を差し替えたい場合(図では「spider(クモ)」を「fox(キツネ)」と置き換えようとしている)、foxに類似した形態素がある動画の部分を探し出す(図では「viper(毒ヘビ)」と「ox(雄牛)」)。それぞれの動画の部分から頭部パラメーターを抽出し、最後にニューラルレンダリングで顔画像を自然な形に修正した(出典:Stanford University)