元・女子高生AI「りんな」は、人間の歌声を手本にボイトレ 開発者が明かす裏話

「こんにちは」(koNnitiwa)という5文字の単語から、何の工夫もなく音声波形(1秒当たり4万8000サンプル)を予測することは「非常に難しい」(沢田さん)。そこで、あらかじめ人力で構築した辞書を使い、テキストを入力すると音素に変換する──など、特徴量を抽出する作業を簡略化し、言語・音響特徴量の対応関係をAIが学習しやすいよう工夫したという