compcogneuro/sims: パーキンソン病とドーパミン薬のシミュレーション
このページは外部資料の日本語訳です。原文の見出し順と本文順を保ち、コード・URL・出典表記はできるだけ原形のまま残しています。
出典とライセンス
原典: https://github.com/compcogneuro/sims/blob/main/ch8/bg/README.md
ライセンス: BSD 3-Clause。このページは日本語翻訳であり、変更点は翻訳とサイト内整形です。
# 導入
この単純化された大脳基底核 (BG) ネットワークは、ドーパミン バーストが報酬につながる行動の Go (直接経路) の発火を強化し、ドーパミン ディップが肯定的な結果につながらない行動の NoGo (間接経路) の発火を強化し、手段条件付けのためのソーンダイクの古典的な 効果の法則 を生み出し、また、複数の経験にわたって異なる報酬確率を持つ行動を学習して選択するメカニズムを提供することを示しています。
このモデルは、もともと フランク (2005) に記載されているように、ドーパミン D1 および D2 受容体の特性と直接経路および間接経路の間の関係に基づいています。ここで使用されているバージョンは、簡単なデモンストレーションを目的としており、当初 オライリーとフランク、2006 として公開された、実行機能の章で説明されている PBWM アルゴリズムと同じコア コードを使用しています。これには、BG の脱抑制ゲート回路のより詳細な側面は含まれていません。これらの側面は、出版された論文で検討されており、他の場所で入手できます (下記を参照)。
モデルの全体的な機能は、前頭皮質で考慮されている特定のアクションを評価し、そのアクションに関連する報酬/罰結果の学習履歴に基づいてそのアクションを実行するかどうかを決定することです。この報酬と罰の履歴は、各アクション オプションに関連付けられた正のドーパミン信号と負のドーパミン信号の頻度に基づいて、モデルを実行すると学習されます。各トライアルで、ドーパミンバーストがある場合 (つまり、肯定的な結果による)、直接経路内のシミュレートされたドーパミン D1 受容体により、線条体の MatrixGo (直接) 経路内の活動ニューロンの重みが増加します。
グルタミン酸や GABA とは異なり、ドーパミンの効果は直接興奮性または抑制性ではなく、影響を受けるニューロン内のドーパミン受容体の種類 (また、そのニューロンにすでに存在する興奮性入力の量) に依存します。ドーパミンの位相バーストは、興奮性シナプス入力を受け取る D1 ニューロンを興奮させ、その結果、アクティブな Go ニューロン (つまり、刺激入力に応じて PFC 動作を選択したニューロン) の活動を優先的に増幅します。この活動の増加は、私たちが使用してきたのと同じ XCAL ルールを使用して LTP に関連付けられますが、「プラス」段階での活動の変化はドーパミンの変化によってのみ引き起こされます。したがって、モデルをトレーニングするために何をすべきかという教師付きの「目標」はありませんが、アクションが予想よりも良い結果を生み出す場合(つまり、ドーパミンレベルが上昇し、Go ニューロンの活動が増加する場合)、アクションは強化される可能性があります。
Go ユニットとは対照的に、ドーパミンは D2 受容体に対する効果を介して NoGo ニューロンを阻害するため、これらのユニットは報酬中に LTD を受けます。この逆の効果は、ドーパミンの低下の場合にも発生します(つまり、予想より悪い結果、あるいは明らかにマイナスの結果によるもの)。この場合、選択されたばかりのアクションを表す (したがって興奮性入力を持つ) NoGo ニューロンは、実際にはドーパミン レベルが低下すると (抑制性 D2 効果の除去により) より活性化します。アクティブなニューロンの NoGo アクティビティが増加すると、重みが増加するため、将来このアクションがさらに「回避」される可能性が高くなります。
この「対抗」のメカニズムにより、大脳基底核は利益(報酬の予測確率)とコスト(マイナスの結果の予測確率)の両方を個別に学習して表現することができ、システム内のドーパミンのレベルを利用して、利益またはコストに基づいて選択が行われる程度を調節することができる(したがって、種を超えたドーパミン操作の影響と一致して、リスクテイクに影響を与える。詳細については、コリンズとフランク (2014)を参照)。このモデルのより最近の拡張では、これらが一見Go ニューロンと NoGo ニューロンの両方と動的ドーパミンを備えた非常に複雑な生物学的特性には実際に利点があり、さまざまなタスクにわたって従来の強化学習モデルよりも堅牢です ジャスキルとフランク (2023)
# トレーニング
- いくつかのトライアルを実行することから始めましょう。 [[sim:Init]] および [[sim:Step]]
Trialを実行します。
これにより、6 つの入力刺激のうちの 1 つが提示され、PFC ニューロンの表層 (2 ~ 3 層) を表す PFCout 層の対応する動作表現が活性化されます。この場合は運動前野 (後の作業記憶モデルで考慮される前頭前野ではなく) です。 MatrixGo 層と MatrixNoGo 層でアクティベーションが確認されるはずです (視覚化の便宜上、すべての接続は入力ユニットと同じ位置にあるユニットに対してローカリストです)。これらの層は、線条体の「マトリソーム」(別名「マトリックス」という方がかっこいいですね)の中型有棘ニューロン(MSN)を表しており、例えば背側領域にあり、前頭葉皮質の行動計画脳領域(両方とも運動前野のレベルにありますが、抽象的な決定のためにさらに前方にもあります)と相互接続されています。
活性化は GPeNoGo (淡蒼球外節) と GPiThalamus 層に広がります。このモデルでは、簡素化のために GPi と視床を単一のレイヤーにまとめています。実際の BG システム (およびより詳細なモデル) では、Go ユニットが淡蒼球内節 (GPi) の下流ニューロンを抑制することに注意してください。 GPi ニューロンは通常、強直に活動しており、抑制性の投射を視床に送ります。したがって、Go ユニットの活性には「脱抑制」機能があり、GPi による持続性抑制を除去することで視床が活性化できるようになります。対照的に、NoGo ユニットは逆の効果をもたらします (GPe を阻害し、GPi が GPi を阻害し、GPi 自体が視床を阻害します…)。この脱抑制回路には独自の計算機能セットがあります (つまり、この狂気すべてを解決する方法があります) が、ここでは簡単にするために、GPi と視床の機能をまとめた 1 つの共通の GPiThal 層を使用して、この回路を抽象化します。
この抽象化では、Go ユニットは PFC を直接励起する GPiThal を励起しますが、NoGo ユニットは GPe を励起し、GPiThal を抑制します。これにより、直接 Go 経路の活動が、視床皮質の興奮度に影響を与えることによって各アクションの NoGo 経路と競合するという、対戦の基本的な概念を表すことができます。脱抑制ダイナミクスを使用して、より詳細な 緊急 モデルを探索することができます。これにより、マイケル・フランクのウェブサイト でさまざまな生理学的および行動データをキャプチャできます。これらには現在、緊急ウェブサイト で利用可能な追加の 7.1 “LTS” パッケージが必要です。
特定の GPiThal ユニットが活性化の閾値レベル (0.5) (実際のシステムに存在する脱抑制を捕捉) を超えると、活性化が PFCout 層から PFCoutD 層に流れることが可能になります (D = 深い、つまり、この前頭部の深層「出力」ニューロン)。これが視床のBG脱抑制の最終的な効果についての我々の現在の理解である:視床は深層PFCニューロンと双方向に相互接続されており、それを脱抑制することによりこれらの深層ニューロンが活性化することが可能になる。
これらの PFC 深層ニューロンは、前頭皮質の他の領域や他の皮質下の標的に投射します。たとえば、前頭眼野 (FEF) ニューロンは上丘に投射し、衝動性運動作用に直接影響します。一方、一次運動野の深層ニューロンは脊髄までずっと投射し、そこで筋収縮パターンを駆動します。したがって、BG 脱抑制の制御下での表層活性化から深層活性化へのこの移行は、運動動作の実行を決定する神経相関です。
実行機能の章で詳しく説明しますが、前頭皮質のほとんどの領域では、この深層の活性化には、皮質の他の領域に強いトップダウンの活性化信号を維持するなど、より間接的な効果があり、最終的には、より抽象的な行動計画に従って行動を導き、形成します。つまり、ほとんどの場合、刺激入力に応じて一連の筋肉を直接活性化するほど単純ではありません。それにもかかわらず、複数のカスケード PFC-BG ループが相互作用する BG モデルの階層的拡張は、BG の基本的な計算機能が各レベルで類似する、より複雑なアクション選択プロセスをシミュレートするために使用されてきました。
- [[sim:Step]]
Trialにさらにトライアルを進めて、初期のランダムな重みに基づいてモデルが示すさまざまな動作を確認します。
# 学ぶ
SNc からのドーパミン (DA) は、シミュレートされた D1 および D2 受容体を介して、Go ユニットと NoGo ユニットの活動の相対的なバランスを変化させます。ドーパミンの効果は、皮質線条体のグルタミン酸作動性入力によってすでに活性化されている線条体単位で最も大きくなります。電流刺激と運動反応によって活性化された Go ユニットは、D1 受容体刺激によってさらに興奮します。対照的に、DA は D2 受容体を介して NoGo ユニットを均一に阻害します。 D1 および D2 受容体を介した、Go ユニットと NoGo ユニットに対する DA のこの異なる効果は、パフォーマンスに直接影響を及ぼします (つまり、DA が増えると、Go の量が増加し、それに関連する反応の活発さが増し、反応時間が速くなります)、そして重要なことに、上記のように学習にも影響します。
具体的には、ドーパミンバーストは Go の学習を強化し、NoGo の学習を弱めるのに対し、ディップは逆の効果をもたらします。これらは、ポジティブな結果に関連するアクションを強化し、あまりポジティブではない、またはネガティブな結果に関連するアクションを回避するという点で理にかなっています。複数の試行にわたる強化履歴を統合することにより、このシステムは、どの行動が他の行動よりも確率的により報酬/罰が大きいかを学習することもでき、利用可能な代替案の中から最適な選択肢を選択できるようになります。
- この単純なモデルでは、左側のパネルで [[sim:Envs]] の右にあるボタンをクリックしてから
Trainをクリックするとわかるように、各アクションの SNc ドーパミン シグナルを事前に決定しました。Pフィールドには、各アクションに関連付けられた確率が表示されます。 つまり、モデルに複数のアクションから選択させ、その結果から学習させるのではなく(学習と選択に関するドーパミンの他のさまざまな側面をシミュレートするためのより精緻なBGモデルで行われているように)、ここでは、各アクションが正または負のドーパミン信号に関連付けられる試行の割合を制御し、各アクションのこれらの確率について線条体が何を学習するかを監視するだけであり、これは要点を理解するのに十分です。
この環境は、確率的選択タスク (フランク、ゼーバーガー、オライリー、2014) の簡略版をシミュレートします。このタスクでは、人間の参加者は、2 つの選択肢からなる強制選択タスクでさまざまな日本語の文字の中から選択するように求められ、どの文字が確率的により報酬が得られるかを学習する必要がありました (たとえば、文字の A-B ペアでは、A には 80% の確率で報酬が得られましたが、B には 20% の報酬しか得られませんでした)。参加者 (およびモデル) は、A が最も報酬が高いこと、B が最も報酬が少ないこと、またはその両方を学習できることに注意してください。A と B の選択肢を見ただけではわかりません。
特定の刺激のペアで最初のトレーニングを行った後、すべての異なるペアの組み合わせでテストしました (たとえば、A は平均で中立の確率が 50% である他の刺激とペアになり、B はそれらの同じ刺激とペアになります。したがって、Go 対 NoGo の学習におけるバイアスは、これらのテスト試行では A に近づくか B を回避するより良いパフォーマンスとして現れます)。重要なことに、これにより、報酬のある刺激に対する Go バイアスと、報酬のない刺激に対する NoGo バイアスの違いを確認できるようになります。経験的に、投薬を中止したパーキンソン病患者は、ドーパミンのレベルが低下し、GoよりもNoGoを多く学習したが、投薬中の患者はNoGoよりもGoを多く学習したが、年齢が一致した対照群はその中間であることがわかった(図1)。この基本パターンは現在、他のさまざまな実験やタスクで報告されています。これらの結果を単純なモデルで説明できることがわかります。

図 1: フランク、ゼーバーガー、オライリー (2004) のデータ。薬を服用していないパーキンソン病 (PD) 患者は 20% の確率でのみ報酬が得られる B 刺激を避けることを学習する可能性が高いのに対し、薬を服用している PD 患者は 80% の確率で報酬が得られる A 刺激を選択することをより多く学習することを示しています。年齢を一致させた対照では、高齢者のほうがどちらの場合でも学習においてよりバランスが取れていました。これらの結果は、PD OFF ではドーパミンが低く、D2 ドーパミンディップベースの学習を好むのに対し、PD ON では「ディップを埋める」薬によってドーパミンが上昇し、D1 バースト学習へのバイアスが生じ、D2 ディップ学習から遠ざかっているという点で理にかなっています。
- [[sim:Weights]] タブをクリックすると、Matrix Go の重みが表示されます。各行は 1 つの入力ユニットからの重みを表します。 [[sim:Run]] を実行します。これにより、ネットワークがトレーニングされます。 (処理を高速化してクラッシュを防ぐために、
Run中にWeightsタブを表示することをお勧めします。) ウェイト パターンは、30 エポックのトレーニング後に安定するはずです。 [[[sim:Network]]] タブをクリックし、ネットワーク内の [[sim:Phase]] ->ActAvg変数をクリックします。これは、多くの試行にわたる移動平均アクティベーションを示しているため、ネットワーク内のユニットの一般的なアクティベーションに対する学習の効果を確認できます。 ネットワーク ビューの上部にあるMinフィールドの横にある+ボタン (または Max では-) をクリックすると、値の表示範囲をズームして見やすくすることができます。 Go ユニットと NoGo ユニットへの重みにも対応するパターンが見られます。 [[sim:Step]]Trialを [[sim:Act]] ->Act変数を使用していくつかのトライアルで実行し、特定のトライアルでネットワークがどのように実行されているかを確認します。これは、ActAvg平均で観察したものと一致するはずです。
質問 8.1: 学習中に
MatrixGo、MatrixNoGo、およびPFCoutD層に現れる活性化のパターンについて説明してください。さまざまな刺激や動作 (a ~ f) に関連するドーパミンのバーストとディップの確率を考慮して、なぜこれらのパターンが現れたのかを簡単に説明してください。 (このシミュレーションでは、B が最も報酬の少ないアクションだった経験的タスクのラベルとは異なり、報酬確率は A で最も高く、次に B であり、以下同様であることに注意してください。)