大規模言語モデルの「創発的」能力（Emergent Abilities of Large Language Models）とは？

図1　創発（Emergent Abilities of Large Language Models）のイメージ引用論文“Emergent Abilities of Large Language Models”（Jason Wei, et al., arXiv, 2022.）図中のLaMDA／GPT-3／Gopher／Chinchilla／PaLMは「モデル名」を指し、Randomは最低限の性能の基準となる「ランダムな出力の場合の性能（正解率）」を指す。図中の規模とは、英語の「scale（スケール）」を指す。図中のFLOPsとは、「number of FLoating-point OPerationS（浮動小数点の演算の数）」の略語で、AIモデルの「計算量」を測る指標のことだ。なお、コンピューターの処理速度を測る指標である「FLOPS（FLoating-point Operations Per Second）」（※「S」が大文字である点が違う）とは別物なので注意してほしい。図中の（A）～（H）は、ベンチマークや論文などの「タスク」を指す。（A）Mod(ified) Arithmetic／（B）IPA transliterate／（C）Word unscrambling／（D）Persian QAは、いずれもグーグルのBIG-benchベンチマークにあるタスク。その他は、TruthfulQAベンチマークのタスク、論文「Mapping Language Models to Grounded Conceptual Spaces」のタスク、論文「Measuring Massive Multitask Language Understanding」のタスク、The Word-in-Context（WiC）データセットのタスクである。

記事に戻る