大規模言語モデルの「創発的」能力(Emergent Abilities of Large Language Models)とは?

図1 創発(Emergent Abilities of Large Language Models)のイメージ引用論文“Emergent Abilities of Large Language Models”(Jason Wei, et al., arXiv, 2022.)図中のLaMDA/GPT-3/Gopher/Chinchilla/PaLMは「モデル名」を指し、Randomは最低限の性能の基準となる「ランダムな出力の場合の性能(正解率)」を指す。図中の規模とは、英語の「scale(スケール)」を指す。図中のFLOPsとは、「number of FLoating-point OPerationS(浮動小数点の演算の数)」の略語で、AIモデルの「計算量」を測る指標のことだ。なお、コンピューターの処理速度を測る指標である「FLOPS(FLoating-point Operations Per Second)」(※「S」が大文字である点が違う)とは別物なので注意してほしい。図中の(A)〜(H)は、ベンチマークや論文などの「タスク」を指す。(A)Mod(ified) Arithmetic/(B)IPA transliterate/(C)Word unscrambling/(D)Persian QAは、いずれもグーグルのBIG-benchベンチマークにあるタスク。その他は、TruthfulQAベンチマークのタスク、論文「Mapping Language Models to Grounded Conceptual Spaces」のタスク、論文「Measuring Massive Multitask Language Understanding」のタスク、The Word-in-Context(WiC)データセットのタスクである。