AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る

完成したNDLOCRの認識精度を評価したグラフ。青線が目標値を、赤線が結果を表す。資料の種類や年代を問わず高い認識精度を誇っている(出典:国立国会図書館のNDLラボ「令和3年度OCR処理プログラム研究開発」)