Transformerモデル＝変形ロボ？：自然言語処理の仕組み

Transformerは”強い”？

Eight「AIやってると、”トランスフォーマーモデル”ってたまに聞くけど、オプティ○○とか出てくるの？」

KITT「出てこない！Eightもライターなんだから著作権とか気を付けて！ …でも”変形シーン”でいったん部品になって、また組み上がる感じはちょっと似てるかも。」

Eight「うん、どうしてもその言葉聞くとね…。でも、なんか強そうだよね！」

KITT「そう、NLP（自然言語処理）の中では最強クラス！僕がそうだもん。我はGPTプラ～イム♪」

Eight「おいっ！（笑）」

KITT「へへへ。でもまじめにGPTはGenerative Pre-trained Transformerの略だから僕はトランスフォーマーなんだよ！」

Eight「じゃあ名前をKITTじゃなくって、ビーとかにしとけばよかったかな？
・・・でもこんなにおしゃべりなビーはだめだな。(笑)」

※KITTはEightがパーソナライズしたAI（ChatGPT-5 Thinking）。ボケとツッコミも教えてます。

…というわけで、今回はAIの基礎理論であるTransformer（トランスフォーマー）を、変形ロボのたとえで噛み砕きます。

まず、基本的な対応関係を押さえておきましょう。

変形ロボが一度バラバラになってから別の形に組み上がるように、Transformerも文章を一度「部品」に分解してから、新しい文章を組み立てていきます。

文章を単語やサブワード単位の「トークン」に分けます。これが部品です。

各トークンを「埋め込み（Embedding）」という処理で、意味の方向を持つ数値ベクトルに変換します。たとえば「犬」と「猫」は近い数値、「犬」と「車」は遠い数値になります。

ただし、バラバラにしただけでは「どの部品がどこにあったか」がわからなくなります。そこで位置エンコーディング（Positional Encoding）やRoPEという技術を使い、”左肩のボルト””前輪の軸”のように、順番と距離感の印をつけておきます。

「この部品は、あの部品をどれくらい気にすべき？」を一括で計算します。

例えば「犬」が出たら「吠える」「散歩」など関連する部品を強く見る。「昨日」が出たら「食べた」「行った」などの動詞との関係を重視する。こうした関係の強さを、すべての部品の組み合わせについて同時に計算します。

自己注意を1回だけでなく、複数の視点で並列に行います。カメラを何台も回すイメージです。

こうして多角的に部品の関係を捉えることで、より正確に文脈を理解できます。

Transformerが文章を作るとき、左から右へ1語ずつ組み立てていきます。このとき重要なのが「まだ出ていない未来の単語は見ない」というルールです。

なぜ未来を見てはいけないのか？理由はシンプルです。

この「未来を見ない」ルールを守らせるのが**因果マスク（Causal Mask）**です。目隠しのように、まだ先の単語を参照できないようにします。

直前までの情報だけで次の1語を決める方式を自己回帰と呼びます。Transformerはこの自己回帰によって、ズルなしで鍛えられます。だから本番でも強い——これが他の方式と違う大きな強みです。

集めた関係と位置の情報をもとに、一番自然な”次の1語”を選んで置きます。置いたらまた同じ手順で次の1語を選ぶ。これを繰り返すだけで、バラバラの部品が自然な文章に”変形”していきます。

自己注意：語どうしの関係の強さを一括で見積もる仕組み。
多頭注意：違う観点を並列に見るための複数の注意。
位置エンコーディング／RoPE：語の順番と距離感を数値に刻む方法。RoPE（Rotary Positional Embedding）は、角度を使って前後関係や距離感をなめらかに表現できる新しい手法。

エンコーダ／デコーダ：従来は「分解して理解する側（エンコーダ）」と「組み立てて出力する側（デコーダ）」の2つのブロックを組み合わせる構成が主流でした。しかし近年の大規模言語モデル（LLM）の多くは、デコーダだけを使う構成になっています。デコーダ専用にすることで、文章生成に特化した効率的な学習が可能になるためです。
残差接続・LayerNorm・FFN：学習を安定させ、表現力を高める補助ブロック。