compcogneuro/web: combinatorial-vs-conjunctive
このページは外部資料の日本語訳です。原文の見出し順と本文順を保ち、コード・URL・出典表記はできるだけ原形のまま残しています。
出典とライセンス
原典: https://github.com/compcogneuro/web/blob/main/content/combinatorial-vs-conjunctive.md
ライセンス: Text: CC BY 4.0; code: BSD 3-Clause。このページは日本語翻訳であり、変更点は翻訳とサイト内整形です。
+++ Categories = [“Learning”, “Computation”] bibfile = “ccnlab.json” +++
[[generalization]] の 組み合わせ コードの利点と、任意のタスク学習の 結合 コードの利点の間には、直接的な緊張関係があります。この緊張の性質とそれに伴うトレードオフを理解することは、さまざまなネットワーク アーキテクチャの相対的な成功と失敗を理解するための鍵となります。
この緊張は、古典的な「3 層パーセプトロン」 [[abstract neural network]] と Input $\rightarrow$ Hidden $\rightarrow$ Output 層のコンテキストで理解できます。任意の問題を学習し、新しい入力にうまく一般化するために、2 つの相反する目標を達成する必要があります。
-
入力の「類似構造」を捕捉し、類似した入力が一般に類似した出力にマッピングされるようにします (つまり、「類似性に基づく一般化」)。これは、新しい状況における系統的な動作にとって重要です。これは、[[distributed representations distributed]] の_組み合わせ_ コードによって最もよく実現されます。このコードでは、Hidden アクティビティのパターンの重なりが入力のパターンを反映し、個々の Hidden ユニットが 「接続部分で入力を刻み込む」 ため、Hidden アクティビティの新しい組み合わせが体系的かつ感覚的に入力の新しい状態を表現します。 This objective can be measured by the [[information theory#mutual information]] between the Input and Hidden layers ([[@Shwartz-ZivTishby17]]). The most efficient code from an information-theoretic sense is achieved when the individual Hidden units extract something like the [[principal components analysis principal components]] (PCA) of variance across the inputs, such that each hidden unit is uncorrelated with the others, and thus contributes unique independent information. - (生き残るために) 必要な任意のタスクを学習します。これが特に [[error-driven learning]] および [[error backpropagation]] の目標です。これは、Hidden から Output までの相互情報量の観点から測定できます。
したがって、Hidden 層には 2 つの異なるマスターがあり、それぞれが異なる方向に引っ張り、その仕事は、正しい答え (出力) を取得するだけでなく、新しい状況に体系的に一般化できる入力空間の「より深い理解」を使用して、それらの間のマッピングを合成することです。多くの場合、このマジック マッピングは 1 つのステップでは実行できないため、([[categorization]] で説明されているように) 入力の適切な抽象化 (つまり、ディープ ネットワーク) を開発するには、複数の隠し層が必要になります。
「ノー フリー ランチ」[[bias-variance-tradeoff]] 分析 ([[@GemanGeman84]] および [[@VapnikChervonenkis71]]) は、ルックアップ テーブル が最も柔軟な任意関数学習メカニズムであり、関数の形状に制約 (バイアス) をまったく課さないことを示しています。ただし、最大数のパラメーター、つまり各データ ポイントごとのテーブル エントリ全体が必要です。神経用語で言えば、これは「ワンホット」または「ローカル主義」の「結合」コードであり、単一の個別の非表示ユニットが個別の入力パターンごとにアクティブ化されます(つまり、そのユニットは入力アクティビティの完全な結合に対して非常に敏感です)。このコードは一般化が不十分です。テーブルに何かが存在しない場合 (つまり、新しくアクティブ化された Hidden ユニットには出力に対する学習された重みがない場合) に何をすべきかが示されていないからです。
トレーニング データの量が限られている場合、ネットワークでの一般化は、入力と非表示の間の相互情報を強化し、組み合わせコードを促進する「バイアス」の恩恵を受けます。たとえば、明示的な自動エンコーダ項を目的関数に追加すると、隠れ層が入力を直接キャプチャするようになります (そして PCA の結果、[[@BaldiHornik89]] を近似します)。 PCA は、エラー駆動学習に加えて、[[Hebbian learning]] を使用して実行することもできます。これが [[Leabra]] アルゴリズムの重要なポイントでした。これらのバイアスと分散のトレードオフ制約の例は他にもたくさんあります。
トレーニング データの量が増加するにつれて、データ自体が空間全体をカバーし始めるため、これらのバイアスの利点は徐々に減少します。直感的には、ルックアップ テーブルに十分な密度が入力されるため、テーブル内の最近傍間の単純な補間が効果的になります。これは、Rich Sutton の 苦い教訓 であり、「ビッグ データ」が成功する理由です。
[[transformer]] アーキテクチャと [[large language models]] のスケーリング プロパティは、明確なデモンストレーションを提供します。トランスフォーマーは、少量のデータでは「ひどく」一般化しますが、大量のデータでは正常に学習できるルックアップ テーブルのような容量を備えています。変換器のフィードフォワード ネットワーク コンポーネントで使用される高次元の隠れ層は、トレーニング コーパス ([[@HuangYangPotts24]]) の長い文章の広範な暗記と、任意の意味論的事実の知識 ([[@NandaRajamanoharanKramarEtAl23]]) をサポートすることが示されています。ルックアップ テーブルのような機能は、パターン分離ダイナミクスによるものであり、類似性に基づく一般化もサポートしています。
バインディングの問題
[[binding problem]] に関しては、上記の学習と一般化の側面に加えて、組み合わせ対結合のトレードオフには時間領域の側面もあります。組み合わせコードはバインディング エラーに直接つながりますが、結合エラーは結合コードによって最小限に抑えられます。たとえば、色と形状を表す個別の非表示ユニットがあり、赤、緑、三角形、四角形がすべてアクティブになっている場合、赤い三角形と緑の四角形が表示されているのか、それとも他の組み合わせが表示されているのかわかりません。
バインディングの問題は、Parallel と serial で何ができるかに重大な影響を及ぼします (詳細については、[[search]] を参照してください)。 Anne Treisman は、分離可能に表現された特徴 (色と形状) の視覚検索は効率的に並行して実行できるが、結合エラーを減らすために、視覚空間の異なる領域に対するトップダウンの空間的注意によって制約される低速のシリアル処理が必要であることを示しました ([[@Treisman77]]; [[@TreismanGelade80]])。
脳がこれらの結合を個別の神経集団で表現できれば、並列検索が可能になりますが、必要なニューロンの数が指数関数的に増加するため、[[curse of dimensionality]] によってこれが妨げられます。
人間と LLM モデルによる視覚的結合エラーの分析 ([[@CampbellRaneGiallanzaEtAl24]])、およびマルチタスクと認知制御の場合 ([[@MusslickCohen21]]; [[@MusslickSaxeHoskinEtAl20]]) でも同様の結論に達しました。後者の場合、[[prefrontal cortex]] は、あるタスクと別のタスクに関連する機能にトップダウンの [[attention]]al 焦点を当て、並行して実行できる内容に強力な制限を課すと考えられます。
壊滅的な干渉
組み合わせ分散表現も [[catastrophic interference]] の影響を受けます。そのような分散システムでは、任意の入力の学習が多数の重みに影響を与えるのに対し、ワンホット結合コードは干渉を最小限に抑えます (制限内では、まったく新しいユニットが新しい入力ごとに割り当てられる可能性があります)。
大脳新皮質と [[hippocampus]] の役割を理解するための_相補学習システム (CLS)_ フレームワークは、このトレードオフに基づいており、連続体の両端を最適化する 2 つの別個のシステム を用意することでトレードオフを最小限に抑えることができるという考えに基づいています。大脳皮質は分散型の組み合わせコードを使用して類似性に基づく一般化をサポートしますが、海馬は疎な結合コードを使用して干渉を最小限に抑え、特定のエピソードの学習のようなルックアップテーブルをサポートします。
対照的に、トランスフォーマー (LLM) は、ネットワーク全体でこの論理積符号化能力を統合するため、より純粋に組み合わせ的に偏った後部新皮質と同等のものを持ちません。それにも関わらず、十分に膨大な量のトレーニング データと非常に深い層状のアーキテクチャを使用すると、層にわたって、そして多くの連続した反復にわたって展開される十分な抽象化とダイナミクスを開発することができ ([[optimized-representations]] および [[@OswaldNiklassonRandazzoEtAl23]] を参照)、最終的には印象的なレベルの汎化パフォーマンスをサポートすることになります。
この点を強化するために、変圧器に不可欠なキーバリュー ソフトマックス メカニズムは、最近「モダン ホップフィールド ネットワーク」としてブランド名が変更され、海馬のエピソード記憶機能をシミュレートするために使用されています ([[@RamsauerSchaflLehnerEtAl21]]; [[@KrotovHopfield21]])。
大脳新皮質は結合的なものよりも組み合わせ的なものです
上記の現象は、膨大な量の直接的な神経記録やその他のデータと併せて、哺乳類 (人間を含む) の脳の新皮質がスペクトルの組み合わせの分散端に強く偏っているという考えを強く裏付けています。これは、現実世界の生存は「小さなデータで強く偏った」領域を扱うことに決定的に依存しているという考えと一致します。
言い換えれば、大量のデータで完全に正確であることよりも、ごく少量のデータに基づいてほぼ正確であることの方がはるかに重要です。この結論は、統計データのより正確ではあるが高価な処理の代わりに単純なヒューリスティックの使用に関する大規模な文献 ([[@KahnemanTversky84]]) とも一致しています。
したがって、この結論は、LLM はスペクトルの結合端に強く重み付けされているため、人間の脳の学習方法を正確に捉えていないことを示唆しています。彼らは、人間の脳が達成したことの正確なモデルを開発するために膨大な量のデータを使用することに長けていますが、そもそも人間の脳が実際にこれらすべてのアイデアをどのように思いついたのかを示す良いモデルではありません。それには、組み合わせに偏った新皮質だけが提供できる、世界の「深い」概念的理解を必要とします。
要約すると、「苦い教訓」、つまり「退屈な教訓」には必然的な帰結があります。
強いバイアスではなくビッグデータに大きく依存するシステムは、そもそもこのすべてのデータがどこから来たのかについての生成的な解決策を提供しないため、基本的に退屈です。
人間は強い偏見を持っており、世界の低次元表現を求め、それがどのように機能するかを理解し、それを私たちにとってうまく機能させたいという欲求を満たすために動機付けられています。