見出し画像

A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language

こんにちは、PKSHA Technology の AI Solution 事業本部 アルゴリズムエンジニアの星野です。
近年、生成 AI をはじめとする人工知能技術が、私たちの生活や産業構造に急速に浸透しています。 大規模言語モデル(LLM)は、その中心的な存在として、テキスト生成、翻訳、対話システムなど、幅広いタスクで驚異的な性能を達成しています。AI があらゆる局面で社会実装されつつある現在、その背後にある原理を深く理解することも、今後ますます重要になってくると思われます。

LLM の性能向上における「スケーリング則」が明らかにしたように、モデルサイズや学習データ量の増大がその能力を飛躍的に高め、ある規模を超えたときに新たな能力が突如現れる「創発現象」も確認されています。このような現象からは、「LLM の学習では何が起きているのか」「多様なタスクに対する高度な能力はどのように獲得されるのか」といった素朴な疑問が生じてきます。そして、これらの問いに答えることは、学術的な意義だけでなく、今後の AI のリスク管理や安全な活用に向けた規制・制度設計等にも不可欠となってくるかもしれません。

本記事では、創発現象の本質を探るべく、曖昧性の排除を目的とした現象論的定義を提案し、さらに物理学における相転移の描像を用いて学習・汎化プロセスをモデル化した研究、「A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language (Lubana et al., 2024) 」をご紹介します。なお、本論文は ICML 2024 にて開催された機械論的解釈可能性 (Mechanistic Interpretability)に関する workshop に採択された論文の後続研究になります。

星野 悠一郎 (AI Solution 事業本部 アルゴリズムエンジニア)
早稲田大学大学院先進理工学研究科物理学及応用物理学専攻 博士後期課程単位取得退学、先進理工学部 助手。大学では主に重力理論における非線形現象の研究に従事。新卒として PKSHA Technology へ参画後は、質問応答関連技術や LLM 高速化の研究開発および社会実装に従事。

0. 概要

これから実際に論文の中身を見ていくのですが、その前に概要を 3 行でまとめておくと以下のようになります。

  • 創発の現象論的な定義を提案し、Transformer の学習ダイナミクスを形式言語を用いた toy タスクで分析。

  • 文法規則(PCFG)と型制約を持つ形式言語を構築し、最小限の推論タスクを学習させることで創発現象を実験的に確認。

  • グラフパーコレーション理論を適用することで、創発時のスケーリングを一部予測できることを確認。

1. 背景とアプローチ

創発に関する研究は数多く存在しますが、明確な定義が定まっていないことにより、モデル性能の急激な変化を引き起こすあらゆる現象が「創発」として一括りに扱われてしまっている現状があります。現象の理解を深め、議論の曖昧さを排除するためには、創発を明確に定義することが必要です。そこで、本研究では、創発の一つの定義として、創発的学習を示すとされるスケーリング曲線に関する特徴的な性質を組み合わせることで、以下の 3 つの条件を満たすものを提案しています。

定義(能力の創発)
ある能力 $${C}$$ が関連する軸(例:データ量、計算量、パラメータ数)のスケーリングに伴って創発するとは、以下の条件を満たす。
・P1:能力 $${C}$$ が必要とされるタスクにおいて、非線形的な性能向上を示すこと
・P2:複数のタスクが同時に非線形的な性能向上を示すこと
・P3:生成モデルがデータ生成プロセスの根底にある構造を獲得し、能力 $${C}$$ の学習における非線形的な性能向上が、その構造の学習と直接相関すること

特に、3 つ目の特徴(P3)は、複数のタスクが性能向上を達成した場合、それらに共通した何らかの構造が存在する可能性が高く、モデルは創発の時点でこの構造を獲得しているはずだという直観に基づいています。例えば、言語の構文を学習することは、文法的に正しいテキスト生成を必要とするすべての下流タスクに影響を与える可能性があると考えるのは自然です。このように、創発現象は特定の能力の向上だけでなく、モデル全体が根底にある構造を学習することで複数のタスクに波及的な影響を与えるものとします。
上記のように「創発」を定義した上で、言語モデルの理解に関する最近の研究(Allen-Zhu & Li, 2023)にならい、形式言語を用いた学習を行い、その学習プロセスを分析します。

2. 実験設定

本研究で使用する形式言語: $${\mathcal{L}}$$ は、以下の図のような文法と型制約を持つ言語とします。

a. 文法 (Grammar):確率的文脈自由文法 (PCFG)に基づき、終端記号を品詞とした記号文字列を生成する。

b. 型制約 (Type Constraints):自然言語のように、エンティティ(主語・目的語)と属性(形容詞や動詞)の共起を特定のペアのみに制約する。

c. サンプリング:文法から記号列をサンプリングし、その記号列に型制約を尊重しながらトークンを代入することで最終的な文を生成する。(これは、文法と型制約により、確率的な文脈依存型の形式言語となっています。)

型制約の定義

後のために、改めて定義といくつかの記号・用語を整理しておきます。
エンティティとは、文の中で主語や目的語となるようなものを指します。一方、属性は記述的(例えば、tall のような形容詞、エンティティの性質や状態を表すもの)または相対的(例えば、walk のような動詞、エンティティ間の関係やエンティティの行動を表すもの)のどちらかをとるものとします。この時、エンティティと属性の関係性は、二部グラフ $${G=(E, K, I)}$$ で表現できます。ここで、 $${E}$$ はエンティティ集合、 $${K}$$ は属性集合、 $${I}$$ はエンティティと属性間の接続を表すエッジ集合です。上述したように我々の自然言語では、全ての組み合わせが現れることはなく( $${G}$$ は完全二部グラフではなく)、一部の特定のペアしか共起しません。(例えば、「人(man)」は「歩く(walk)」という属性を持ちますが、「ソファ(sofa)」はこの属性を持ちません。)このことを反映させて、先の二部グラフ $${G}$$ に対して、概念クラス $${C}$$ というものを定義することで、型制約を導入しています。これを表しているのが、上図の(b)です。概念クラスの数が $${|C|=2}$$ で、 $${C = \{\text{human}, \text{furniture} \}}$$ となっています。

実際の実験では、 $${|E| = 900, |K|=18000, |C|=10}$$ とし、エンティティと属性は概念クラスに均等に分配され(エッジは 15% の割合でランダムに張られるとする)、各概念クラス間に交わりはないものとしています。全体として、共起(エッジ)部分を濃い赤色で表すと以下のような図としても理解できます。

タスクと評価指標

実験では、以下のような 3 つのタスクを含むデータで学習を行っています。(モデルは 2 層の Transformer とし、学習は典型的な設定で実施しています。)

  1. 自由生成(Free):文法と型制約を守った文を生成。

  2. 並べ替え(Unscramble):ランダムに並べ替えられた単語群を元の文に復元。

  3. 条件付き生成(Conditional):指定されたエンティティや属性を使って有効な文を生成。

※ 2 番目は、LLM の文脈で急激な性能向上が確認されているタスクの 1 つです (Wei et al., 2022)。

上記のタスクに対して、主に次のような評価指標を導入しています。

  • 文法的正確性(Grammar):生成された文が文法に適合しているか。

  • 型制約の遵守率 (Type Check):エンティティと属性の適合性。属性は記述的・相対的の 2 種類があるので、それぞれに対し、記述的チェック (Desc.)/ 相対的チェック(Rel.)を行う。

※ その他の指標の詳細は論文をご参照ください。

3. 実験結果

学習時の iteration の関数として各タスクに対するモデル性能を示したのが以下の図です。実験結果によれば、学習ダイナミクスには以下に示すように 3 つの段階(それぞれ、灰色、ピンク、緑の網掛け)があることがわかります。
なお、学習データは 2. で定義した言語 $${\mathcal{L}}$$ から毎回サンプリングされるので、モデルに全く同じ文が与えられる確率は極めて低くなっています。これにより、学習時の iteration 数での分析はデータのスケーリングの効果を見ることに対応しています。

  1. 文法の習得:(a)黒点線
    学習初期(~100 iterations)に文法的正確性が急速に向上。この時点では、Unscramble(b)、Conditional(c)は全く解けていませんが、文法的正確性が向上していくと、Unscramble(b)が一部のトークンにおいて部分的に解けるようになっていくのがわかります(青点線)。つまり、モデルがデータ生成プロセスの根底にある構造(この場合、文法)を獲得することは、他の能力の向上に寄与していることが確認できます。

  2. 相対的型制約の習得:(a)ピンク点線
    文法習得後、1,000 iterations 付近で主語と動詞の適合度を表す指標(Rel.)が急激に向上しています。Loss(d)の振舞いに目を向けると、この点において、すべてのタスク、特に自由生成に対する損失が急激に低下していることもわかります。つまり、データの基礎となる最初の構造(文法)を学習すると、モデルは相対的な型制約という次の関連構造を急速に学習していきます。 そして、このフェーズ移行直後、Unscramble(b)、Conditional(c)の両方でパフォーマンスが急激に向上していることがわかります(青実線)。また、Loss(d)にもわずかであるものの反映されていることも確認できます。Unscramble に対して、型制約の種類に応じて性能を分解したグラフ(e)を見ると、この性能向上に記述型制約からの寄与はないこともわかります。つまり、一旦文法と相対的な型制約が学習されると、モデルは記述的属性の知識を必要としないタスクを解けるようになり、これが損失と精度の両方で急激な改善につながっています。

  3. 記述的型制約の学習と汎化:(a)緑点線
    前フェーズにおいて、記述型チェックにおけるモデルの性能は、ほぼ頭打ちとなっていますが、10,000 iterations を少し手前を過ぎたあたりから非線形に上昇していくことがわかります。この挙動は、学習データとして与えられたエンティティと属性ペアを仮に完全に記憶していたとしても説明ができないため、汎化を示唆する結果となっています。

以上の結果から、モデルはまず言語の基礎となる2つの構造(文法と型制約)を学習し、次にデータ中のより狭い(特定の)タスク:Unscramble(b)、 Conditional(c)で性能向上することが確認できました。この挙動は、先に定義した創発の定義に一致しています。

記述的属性数が学習に与える影響

本研究では、記述的型制約の汎化は型制約グラフの構造に基づいた推論に起因していると主張しています。そこで、意図的に記述的属性数のみを変化させた時の学習ダイナミクスの変化を確認しています(下図)。

この結果から、主に以下のことが分かります。

  1. (上記左図 2 つ)属性数の増加に伴ってタスクの難度が上がっているわけですが、同じような学習ダイナミクスを描いています。また、それに伴って、汎化への転移点は右にシフトしています。特に、記述的文の並べ替えタスクで顕著です。

  2. (上記右図 2 つ)相対的型制約の学習は記述的属性の増加による影響を受けないことが確認され、モデルがこれらを独立した構造として扱っていることを示唆しています。

4. 創発現象のモデル化

本研究では、上記 1 番目の振舞いを記述するモデルとして、percolation(浸透)という考え方を導入しています。以下では、まずこの概念について簡単に説明します。
例えば、2 次元の正方格子を考えてみましょう。各格子点が、確率 $${p}$$ で占有される状況を考えるとします。このとき、隣り合う占有された格子点同士をまとめて「クラスター」と呼ぶことにします。確率 $${p}$$ が小さい場合、隣り合う占有格子点が少ないため、クラスターのサイズも小さくなります。しかし、 $${p}$$ を徐々に増やしていくと、あちこちに小さなクラスターが多数形成されるようになります。そして、ある閾値 $${p_c}$$ を超えると、クラスターが急激に大規模化し、系の端から端まで到達する巨大なクラスターが出現します。この現象を浸透転移(Percolation transition)と呼び、物理学における相転移現象とも密接に関係しています。もう少し詳細を知りたい方は、例えばこちらの資料がわかりやすいです。また、現象をイメージしやすいように簡単なデモも用意しましたので、参考にしてください。

このような浸透モデルの考え方はグラフ構造にも適用可能です。本研究では、概念クラスを構成する二部グラフにおける浸透問題としてこの現象を扱っています。具体的には、エンティティの数を $${|E|}$$ 、属性の数を $${|K|}$$ とする二部グラフを考え、エッジが確率 $${p}$$ で生成されるような状況を考えます。この場合も、正方格子の場合と同様に、エッジによって接続されたノード群(クラスター)のサイズについて議論することができます。

特に、巨大クラスターが出現する閾値は、エッジの数が十分大きい時、おおよそ以下の値になることが理論的に示されています(詳細は付録 B を参照してください)。

$$
\sim \sqrt{|E||K|}
$$

下図は、一般的な二部グラフ$${(n_1, n_2)}$$におけるパーコレーションのシミュレーションを手元で行った結果となります。上記の結果を確かめてみることができます。左:二部グラフをグリッド表現としたもの。濃い青色が直接的に接続されるノードを表し、薄い青色がエッジを辿ることで到達可能なノードを表現しています。中央:その時の二部グラフ。右:占有されうる(規格化された)エッジ数の変化と到達可能なペアの割合の振舞い。

$${n_1=n_2=500}$$ とした時では、(直接的な接続は非常にスパースですが)到達可能な領域が全体に広がっている様子がより鮮明に確認できます(下左図)。転移点付近の到達可能なペアの割合の振舞いも本文 Figure 6(b)に近い形となっています(下右図)。

この枠組みを用いると、先の概念クラスの学習・汎化は、エンティティ-属性連結ペアの巨大クラスターが生じる状況として理解できるというのが本研究の主張になります。つまり、文法的には共起可能ではあるものの、学習データとして一度も出現しなかったエンティティ-属性のペアが存在するわけですが、学習が進むにつれて(ランダムサンプリングされた文をモデルに与えていくと)、モデルは共通の文脈でそれらを見る可能性があり、このような過程を経て異なるエンティティが同じ概念クラスに属することを推論できるようになると考えられます。形式言語の学習に関する今回の実験において、理論的に予測されたスケーリングが観察できるかを確認するため、属性数の平方根で割った iteration 数を用いて再度プロットすると、記述的型チェックの転移点が上記のスケーリングに確かに比例していることが分かります(左から 2 番目)。

おわりに

改めて、本研究の内容をまとめると以下のようになります。

  • 「創発」を、複数のタスクでの性能向上に関連する構造獲得という観点で現象論的に定義しています。

  • 文法と型制約からなる文脈依存な形式言語を構成し、これらが構造として機能します。

  • この言語で訓練された Transformer は、文法の学習、相対的な型制約の学習、そして記述的な型制約の学習という 3 つのフェーズを示します。各構造を学習するたびに、推論タスクにおける性能向上が確認されました。

  • 記述的な型制約が汎化する際の転移点のサブリニアなスケーリングは、エンティティと属性の二部グラフに基づくパーコレーションモデルとして説明可能です。

また、本記事では、紙面の都合上、論文の内容を全て紹介できていないため、詳細が気になった方は是非論文に目を通して頂きたいです。

概念クラスに基づいてエンティティと属性が二部グラフを形成し、学習過程を通じてモデルが概念を獲得していくという振る舞いは、ウィトゲンシュタインの「家族的類似性(Family resemblance)」という思想に非常に近いものを感じました。この視点から見ると、本研究は哲学的思想の実験場として言語モデルを利用し、その振舞いを説明するために物理学的アプローチが採用されているという見方もできると思います。このようなアプローチは、哲学・LLM・物理学が交差する豊かな知的土壌を提供しており、今後、学問の垣根を越えた新しい視点をもたらすかもしれません。

また、社会実装の観点からは、仮に非常に単純化されたセットアップであったとしても、モデルの学習メカニズムを理解し、(究極的には)その振る舞いが予測可能になることは、冒頭で触れたように AI の信頼性を向上させる上で重要であるだけでなく、より少ないデータ・計算資源で効果的な学習を実現させるヒントになるかもしれません。引き続き、これからの動向に注目していきたいと考えています。

―INFORMATION―
PKSHA Technology では推薦に限らず様々なタスクにおいて AI の社会実装を進めており、共に社会実装を加速させる仲間を募集しています。採用サイトや Wantedly から応募が可能ですので、是非ご覧ください!

アルゴリズムエンジニア【26 新卒】

アルゴリズムエンジニア【中途採用】

カジュアル面談も受付中です!Wantedly はこちら