compcogneuro 翻訳ページ

compcogneuro/sims: ネットワーク組織

このページは外部資料の日本語訳です。原文の見出し順と本文順を保ち、コード・URL・出典表記はできるだけ原形のまま残しています。

種別

翻訳資料

更新日

2026-05-20

対象

外部資料を日本語で原文順に読みたい読者

目安

原文量に依存

確認メモ

機械翻訳をベースにした日本語訳です。実装手順や引用は必ず原典も確認してください。

出典とライセンス

原典: https://github.com/compcogneuro/sims/blob/main/ch9/sir/README.md

ライセンス: BSD 3-Clause。このページは日本語翻訳であり、変更点は翻訳とサイト内整形です。

シミュレーションに戻る

＃導入

このシミュレーションは、大脳基底核 (BG) による PFC 能動的維持への情報の動的なゲート制御を示しています。これは単純な Store-Ignore-Recall (SIR) タスクを使用します。BG システムは、位相性ドーパミン信号と試行錯誤の探索を通じて学習し、正しい動作の強化と、有用な作業記憶表現の学習された強化の関数として、保存、無視、および思い出す必要があるものを発見します。このモデルは、当社のオリジナル PBWM フレームワーク (オライリーとフランク、2006) の現在の具体化です。

SIR タスクでは、ストア (S) 入力が以前にアクティブだったときに存在していた文字 (A ～ D) を (R ユニットがアクティブなときに) ネットワークに呼び出す必要があります。無視 (I) トライアルにも文字入力がありますが、ご想像のとおり、これらは無視されます。トライアルはランダムに生成され、ストアトライアルとリコールトライアルの間にランダムな数の無視トライアルが存在する可能性があるため、モデルは、タスク関連のイベント間に可変数の介入する予測不可能な注意散漫要素を使用して、次のリコールトライアルまで、保存された情報を PFC の堅牢な作業記憶表現で維持することを学習する必要があります。

ネットワーク組織

Network は、入力が下部にあるという通常の慣例ではなく、ネットワークの上部に入力および出力情報が設定されていることがわかります。これは、ゲートシステムに関連付けられている大脳基底核機構のすべてが、モデルの残りの部分に関連付けられている皮質層の下の解剖学的に適切な「皮質下」位置に位置しているためです。

モデル内の情報の主な処理は、入力から非表示、出力への通常のパスに従います。ただし、以前の試行で得られた情報に基づいて適切な応答を行うには、隠れ層は PFC (前頭前野) 層に保持されている情報にアクセスする必要があります。 PFC は、大脳基底核ゲートシステムからゲート信号を受信するまで情報をアクティブな状態に維持し、その時点で現在の試験からの情報をエンコード (その後維持) するように更新します。この単純なモデルでは、PFC は入力層から直接 1 対 1 の投影を行うため、感覚入力情報のコピーのように機能します。これにより、PFC が何を維持しているのかを直接確認することが簡単になります。より複雑なタスクに必要なように、PFC 表現が分散および学習される場合にも、モデルは適切に機能します。この場合、必要な PFC “ストライプ” は 1 つだけです (ただし、より困難なタスクへのリンクについては、このドキュメントの最後を参照してください)。しかし、一般に、複数のストライプを使用すると、より迅速かつ堅牢に学習し、それぞれが異なるゲート戦略を学習しようとし、可能な解決策の空間を逐次的にだけではなく並列的に検索します。このような各ストライプは、PFC 生物学のハイパーカラムに対応します。

各ハイパーカラム/ストライプ内で、表層皮質層 (2 および 3) と深層 (5 および 6) の寄与の差をシミュレートし、維持ニューロン (mnt) と出力 (out) ニューロンのサブ集団を分離します。モデルでは、表層維持ニューロンは PFCmnt としてラベル付けされ、深層維持ニューロンは PFCmntD としてラベル付けされます。生物学的には、表層は感覚領域 (つまり、モデル内の入力) および自身のハイパーカラム内の深層から広範な皮質入力を受け取りますが、深層はより局所的な接続性を持っています (モデル内の対応する表層からのみ受け取る)。さらに、深層は視床皮質ループに関与しており、時間の経過とともに活発な発火を通じて情報をより堅牢に維持できるようにする他の特性を備えています。したがって、これらの深層は、モデルにおけるロバストなアクティブな維持の主な場所である一方、表層は、他の（例えば、感覚）皮質入力と深層からのロバストな維持活性化との間のバランスをより反映する。深層は最終的に皮質下の出力や他の皮質領域にも投影するため、モデルの出力をこれらの深層を介して隠れ層に駆動します。

実行機能の章で説明したように、PFC ニューロンの電気生理学的記録は通常、神経反応の 3 つの広範なカテゴリを示します (サマー＆ウルツ、2000 の第 9 章の図 9.3 を参照)。継続的なアクティブメンテナンス。運動反応や他の種類の認知活動のための位相活動。 PFCmnt ニューロンは最初の 2 つのカテゴリをキャプチャでき、位相、ランピング、持続など、入力に対するさまざまな時間的応答パターンを持つように PFCmnt ユニットを構成することができます。

ただし、運動出力ニューロンの 3 番目のカテゴリでは、適切な (および適切なタイミングで) 運動動作を駆動するために別の BG ゲーティングアクションが必要です。そのため、モデルには、PFCout (表層) および PFCoutD (深層) と呼ばれる、出力ゲーティングストライプの別個の母集団が存在します。モデルの後部皮質 Hidden 層と Output 層に投影し、明白な応答を駆動するのは、これらの PFCoutD ニューロンです。わかりやすくするために、対応する PFCmnt ストライプと PFCout ストライプの間にトポグラフィックな 1 対 1 マッピングを設定しました。したがって、モデルは、正しい応答の駆動に関連する情報を含む PFCmnt ストライプに対応する適切な PFCout ストライプをゲートする方法を学習する必要があります。

要約すると、このモデルでタスクを正しく実行するには、Store_情報を BG で PFCmnt ストライプにゲートし、その後、それ以上の _Ignore 情報をそのストライプに_ゲートせず、最後に_Recall_トライアルで PFCout で適切なゲートを行う必要があります。この一連のゲート動作は、モデルの左下の領域にある単純な Rescorla-Wagner (RW) スタイルのドーパミンベースの強化学習システムによって形成された、試行錯誤の探索を通じて厳密に学習する必要があります (詳細については、「モーター制御と強化学習」の章を参照してください)。重要な点は、このシステムが皮質状態の予測報酬値を学習し、予測の誤差を利用して線条体のゲート制御ポリシーを訓練するドーパミンのバーストとディップを引き起こすことができることです。

PBWM フレームワークの他のレイヤーの機能を確認するには (詳細については、pbwm 情報を参照してください):

Matrix: これは、大脳基底核の背側線条体内のマトリックスユニットを表す動的ゲートシステムです。最下層には「Go」(直接経路) ユニットが含まれ、最上層には「NoGo」(間接経路) が含まれます。初期の BG モデルと同様に、より多くの D1 受容体を発現する Go ユニットは、ドーパミンバーストにより重量が増加し、ドーパミンディップにより重量が減少します。また、より多くの D2 受容体を有する NoGo ユニットではその逆になります。このモデルの以前のバージョンよりも BG の生物学と一致しているように、最終的なゲート動作を選択する競合のほとんどは GPe と GPi で発生し (視床下核へのハイパーダイレクト経路も重要な役割を果たしていますが、このより抽象化されたモデルには含まれていません)、マトリックス層内での競合は比較的弱いレベルのみです。メンテナンスストライプと出力ゲートストライプをすべて同じマトリックス層に結合していることに注意してください。これにより、これらのストライプがすべてここで互いに競合できるようになり、さらに重要なことに、後続の GPi および GPe ストライプでも競合できるようになります。この競合的な相互作用は、メンテナンスのために新しい情報を更新/保存するのが適切な場合と、出力ゲートを介して現在保存されている表現から選択することが重要な場合とをシステムが適切に調整することを学習できるようにするために重要です。
GPeNoGo: すべての NoGo ストライプ間での最初の競合を提供します。これにより、モデルが NoGo を すべて のストライプに同時に駆動することが決定的に妨げられます。実際、NoGo ユニットが他の NoGo ユニットに対して側随的に阻害する生理学的および解剖学的証拠があります。この NoGo レベルの競合がなければ、モデルは多くの場合、すべてのストライプが NoGo によって抑制された状態になり、何も起こらない場合には何も学習できないため、モデルはその時点で本質的に失敗します。
GpiThal: MatrixGo ユニットからの予測と GPeNoGo からの NoGo の影響に基づいて、どのストライプがゲートに入るかを選択するための激しい競争があり、ゲートを防ぐ可能性のあるいくつかのストライプを効果的に「拒否」することができます。 BG モデルで説明したように、ここでは GPi (または SNr) と視床の機能を単一の抽象化された層に結合しました。この層は、視床から期待される興奮性の種類の出力を持ちますが、GPi/SNr によって媒介されるストライプレベルの競合も実装します。全体的な Go アクティビティが NoGo アクティビティよりも多い場合、GPiThal ユニットが活性化され、対応する PFC の深層を通る興奮性ループが効果的に確立され、視床ニューロンは双方向に相互接続されます。
Rew、RWPred、SNc: Rew レイヤーは、モデルが問題を正解するかどうかに基づいて、リコールトライアルで駆動される報酬アクティベーションを表します。アクティベーションは 0 (エラー、報酬なし) または 1 (正解、報酬) です。 RWPred は、ドーパミン信号に基づいて学習し、このトライアルでどれだけの報酬が得られるかを予測する予測レイヤーです。 SNc は最終的なドーパミンユニットの活性化であり、報酬予測誤差を反映しています。結果が予想より良い (悪い) 場合、または状態が報酬を予測する (報酬なし) 場合、このユニットはアクティビティを増加 (減少) します。便宜上、強直（ベースライン）状態はここではゼロ値で表されているため、この値の上下の位相偏差は正または負の活性化として観察できます。（実際のシステムでは、負の活性化は不可能ですが、負の予測誤差はドーパミン単位の活性の一時停止として観察され、発火率がベースラインの強壮レベルから低下するなどです）。生物学的には、SNc は実際にドーパミンを背側線条体に投射し、VTA は腹側線条体に投射しますが、このレベルのモデルには機能的な違いはありません。
このモデルでは、マトリックス学習は報酬時 (つまり、リコール試行時) のドーパミン発火によってもっぱら駆動され、シナプスタグベースの追跡メカニズムを使用して、このドーパミン作動性の結果につながった以前のすべてのゲート動作を強化/罰します。具体的には、特定のマトリックスユニットがゲート動作のために発火するとき (視床投影または PFC 投影を介して GPi / 視床から最終的なゲート出力を受信すると仮定します。これは学習における適切な単位の割り当てに重要です)、皮質から同時に興奮性入力を受け取ったシナプスの構造変化により、シナプスタグが確立されると仮説を立てます。広範な研究により、これらのシナプスタグは、脳内のアクチン線維ネットワークに基づいていることが示されています。シナプスは最大 90 分間持続することができ、その後に強力な学習イベントが発生すると、タグ付けされたシナプスも強力に強化されます (レドンド＆モリス、2011年、ルディ、2015年、ボッシュ＆ハヤシ、2012年)。この形式のトレースベースの学習は、以前のゲーティングイベントの報酬の影響について学習するために他のメカニズムを必要としないため、計算的に非常に効果的です。

For reference (if you want to know all the details), in earlier versions of the PBWM model, we relied on CS (conditioned stimulus) based phasic dopamine to reinforce gating, but this scheme requires that the PFC maintained activations function as a kind of internal CS signal, and that the amygdala learn to decode these PFC activation states to determine if a useful item had been gated into memory. Compared to the trace-based mechanism, this CS-dopamine approach is much more complex and error-prone. Nevertheless, there is nothing in the current model that prevents it from also contributing to learning. However, in the present version of the model, we have not focused on getting this CS-based dopamine signal working properly.
モデルの接続を調べるには、[[sim:Wts]] -> r.Wt をクリックし、ネットワーク層内のさまざまなユニットをクリックします。

SIR タスク学習

次に、いくつかのトライアルを実行して、タスクがどのように機能するかを見てみましょう。

アクティベーションの表示に戻ります ([[sim:Act]] -> Act)。ツールバーで [[sim:Init]]、[[sim:Step]] Trial を実行します。

タスクコマンド (保存、無視、呼び出し) は完全にランダムに選択されるため (保存後まで呼び出しできないという制約があります)、無視または保存の入力を取得できます。 S または I タスク制御入力と、ランダムに選択された刺激 (A ～ D) の 1 つが表示されるはずです。プラスフェーズ情報 (試行ごとのステップ) を見ているため、ターゲット出力応答もアクティブになるはずです。

対応する GPiThal ユニットがアクティブな場合、PFC ストライプはこの現在の入力情報を維持するために更新されたばかりであることに注意してください。

[[sim:Step]] Trial をもう一度押します。

新しい入力パターンが表示されるはずです。 GPiThal ゲート信号は、関連する PFC ストライプをトリガーして、この新しい入力を反映するようにその表現を更新します。ただし、GPiThal ユニットがアクティブでない場合 (全体的な NoGo アクティビティが増加しているため)、PFC は以前に保存された情報を維持します。多くの場合、一方のストライプは更新されますが、もう一方のストライプは更新されません。モデルは、リコール試行中に PFC 表現を適切な応答に変換できるように、更新を管理する方法を学習する必要があります。

[[sim:Step]] Trial を押し続け、PFCmnt の情報の更新と保守のパターン、PFCout の出力ゲート、およびこれが GPiThal ユニットのアクティブ化によってどのように駆動されるかに注目してください (GPiThal ユニットは Matrix Go ユニットと NoGo ユニットによって駆動されます)。順番は、PFC のメンテナンスをより適切に制御する方法を学ぶために、SNc からのドーパミンによって調節されています!)。

R（リコール）トライアルを見るときは、最下層のSNc（ドーパミン）ユニットに注目してください。ネットワークが何らかの方法で正しくリコール (または推測!) できた場合、このユニットはプラス (黄色) でアクティブになり、予想よりも優れたパフォーマンスを示します。最も可能性が高いのは、ティールブルーで反転し、予想よりも悪いパフォーマンス (誤った反応を生み出す) による負のドーパミン信号を示していることです。これは、マトリックスユニットの学習を制御する強化トレーニング信号で、PFC 内の情報が報酬を予測する場合 (その場合、その情報は将来の試行で更新される必要がある)、または PFC に情報があることが報酬にならないかどうか (この場合、その情報は将来の試行で更新および保存されるべきではない) を学習できるようになります。これは、皮質線条体回路における行動の選択を学習するための基本的な規則として広範に研究され（そして経験的に検証され）、同じ学習メカニズムがここでは作業記憶に適用されています。

[[sim:Step]] Trial に進み、ネットワークのダイナミクスを観察できます。このモデルの複雑さに十分に頭が混乱したら、Step レベルを Run および [[sim:Step]] Run に設定し、[[sim:Train Epoch Plot]] タブに切り替えてください。

ネットワークが学習するにつれて、3 つの異なる値がプロットされていることがわかります。

PctErr: エポックごとのエラーの全体的な割合を示します (この場合、1 エポックは 100 回の試行です)。これは、ネットワークが学習するにつれて急速に低下します。
AbsDA: リコールトライアル (ネットワークのリコールパフォーマンスが直接報酬または罰される場合) のドーパミンの絶対値を示します。この値は多くの場合、最初は高く、ネットワークが学習するにつれて徐々に減少します。これは、DA が 期待との差異 を反映し、システムが実際の動作に基づいてその期待を迅速に適応させるためです。また、生の DA (AbsDA ではない) をチェックすることもできます。ここで注目すべき主なシグナルは、ネットワークが前のエポックよりも突然パフォーマンスが向上し始める (PctErr が低下する) ことです。これは DA のピークに関連付けられている必要がありますが、エラーの突然の増加 (パフォーマンスの低下) は DA の低下をもたらします。上で述べたように、これらの DA 信号は、最後のリコールトライアル以来、マトリックスゲートアクションをトレーニングしています。
RewPred: RWPred Rescorla-Wagner 報酬予測アクティビティをプロットします。これにより、Rew レイヤーの報酬が相殺され、DA が減少します。モデルのパフォーマンスが向上するにつれて、報酬への期待の高まりを反映してこのラインは上昇します。

ネットワークのトレーニングには、およそ 5 ～ 50 エポック程度かかります (PctErr が 5 回連続でエラー 0 になると停止します)。

この基準に合わせてトレーニングしたら、ネットワークの表示に戻り、トライアルを通じて上部の実行モードを Train および [[sim:Step]] Trial ではなく Test に設定して、実際に正しく実行されていることを確認できます。また、[[sim:Run]] を実行し、[[sim:Test Trial]] テーブルを参照して、一連のテストトライアル (同じタスクでネットワークをテストしますが、トレーニング中に必ずしも見られなかったシーケンスでネットワークをテストします) の記録を確認することもできます。

質問 9.7: DA 信号がネットワーク学習にどのような影響を与えるかを見てみましょう。コントロールパネルの [[sim:Burst DA gain]] を 1 から 0 に変更します。これにより、SNc の DA 信号が通常どおり続行できるようになりますが、線条体のマトリックスユニットへの影響が排除されます (線条体における DA 端子の直接性を阻害するのと同様です)。実行モードを Train に戻し、次に [[sim:Init]]、[[sim:Step]] Run に変更してネットワークをトレーニングします。 [[sim:Train Epoch Plot]] でエポックにわたる学習を再度観察できます。デフォルトの場合 (DA バースト = 1) と比較して、終了時の PctErr および RewPred の値を報告します。次に、一連のテスト試行を通じて実行モードを Test、[[sim:Init]]、および [[sim:Step]] に変更し、[[sim:Test Trial]] テーブルを確認します。これらのテスト試行でネットワークがエラーを起こしたかどうか、もしエラーがあった場合はどのタイプの試行が成功し、どのタイプの試行が失敗したかを報告します。このような場合、隠れ層と出力層への標準の XCAL エラー駆動学習はそのまま残ることに注意してください。 DA 操作は、他のタスクの学習には必要なかった場所 (たとえば、第 4 章) で、どのように、またなぜここで影響を与えるのでしょうか?また、上記のプロセスを繰り返して、DA バーストを復元し ([[sim:Burst da gain]] を 1 に戻す)、[[sim:Dip da gain]] を 0 に切り替える効果をテストすることもできます (これにより、一部の薬剤によって発生する DA ディップの影響が防止され、BG モデルでのパーキンソン病のシミュレーションを思い出します)。同様の結果が表示され (ネットワークを複数回実行した場合に特に顕著)、DA バーストとディップの両方が必要であることがわかります。

ここで、これらの DA 信号から学習されたシナプスの重みに関してマトリックスゲートがどのように駆動されるかを調べます。 SIR 制御入力を、マトリックス層に投影する別個の `CtrlInput` 層に分割していることに注意してください。この制御情報は、マトリックス層が必要とするすべてです。 (無関係な A ～ D 入力を使用して学習することもできますが、少し時間がかかります)。 * DA バーストおよびディップゲインのデフォルトの 1 および 1 に戻し、実行モードを `Train` に変更してから、[[sim:Init]] および [[sim:Step]] `Run` を実行します (つまり、単一のネットワークを学習するまでトレーニングします)。 [[sim:Network]] タブで [[sim:Wts]] -> `s.Wt` をクリックし、`CtrlInput` 層の個々の SIR ユニットをクリックして、これらのユニットから `Matrix` への学習された送信重みを表示します。 > **質問 9.8:** マトリックスストライプへの S、I、R 入力からのこれらの重みが、ストア情報がどのように維持され、いつ出力されたか、および無視トライアルが保存された情報を妨害しなかった理由など、ネットワークが実際にタスクを解決した方法に関してどのように意味があるのかを説明してください。 PBWM 学習フレームワークの能力を最大限に体験したい場合は、[先生2](https://github.com/emer/leabra/blob/main/examples/sir2) モデルをチェックしてください。このモデルは、維持される情報の 2 つの独立したストリームによって SIR タスクを次のレベルに引き上げます。ここで、ネットワークは複数のアイテムを保存および維持し、他のキューに応じて各アイテムを選択的に呼び出す必要があります。これは、選択的ゲート機能のないネットワークでは達成できない、より要求の高いタスクです。このバージョンでは、モデルの選択的メンテナンスゲートの側面がより強く強調されています (実際、この問題がそもそも BG の必要性を動機付けています)。 # 参考文献 * Bosch, M.、林, Y. (2012).樹状突起スパインの構造可塑性。神経生物学における最新の意見、22(3)、383–388。 https://doi.org/10.1016/j.conb.2011.09.002 * オライリー、R.C. & Frank, M.J. (2006)、「ワーキングメモリを機能させる: 前頭葉皮質と大脳基底核における学習の計算モデル」。ニューラルコンピューティング、18、283-328。 * レドンド、R.L.、モリス、R.G.M. (2011)。記憶を永続させる: シナプスのタグ付けとキャプチャの仮説。 Nature Reviews Neuroscience、12(1)、17–30。 https://doi.org/10.1038/nrn2963 * ルディ、J.W. (2015)。記憶の持続性の変動: アクチン動態と AMPA 受容体の間の相互作用。脳研究、1621 年、29 ～ 37。 https://doi.org/10.1016/j.brainres.2014.12.009 * Sommer, M.A.、Wurtz, R.H. (2000)。前頭眼野から上丘に送られる信号の構成と局所的構成。神経生理学ジャーナル、83(4)、1979 ～ 2001 年。 </section>