EvernoteでOCR処理したテキストデータを抽出する

オンラインで提供されているHTMLタグ除去ツールを使い、不要なタグを取り除く。画像右は不要なXMLタグを除去したテキストデータ。同じに見えて微妙に異なる文字列が連続しているが、ここから短文を抽出して再利用するのであればまあまあ使える。ちなみに縦書きの原稿からもテキスト抽出は可能だが、語順が前後していたりと、横書きの原稿に比べると精度は低い

オンラインで提供されているHTMLタグ除去ツールを使い、不要なタグを取り除く。画像右は不要なXMLタグを除去したテキストデータ。同じに見えて微妙に異なる文字列が連続しているが、ここから短文を抽出して再利用するのであればまあまあ使える。ちなみに縦書きの原稿からもテキスト抽出は可能だが、語順が前後していたりと、横書きの原稿に比べると精度は低い