シミュレーションに戻る
注: このシミュレーションは、PVLV の axon バージョンを使用して後で更新されます。これは大幅に改善されていますが、現在 Web プラットフォームでは利用できません。
# 導入
このシミュレーションでは、古典的な条件付けタスク モリックら、2020 における報酬と罰についての学習中に、ドーパミン細胞の発火を制御する際のさまざまな脳領域の役割を考慮した PVLV (一次値、学習値) 学習アルゴリズムを検討します。 これは、rl_cond モデルで検討された計算に対する、より柔軟で生物学的に詳細なアプローチを表します。
ドーパミンの位相的発火には多くの脳領域が関与している
VTA (腹側被蓋野) および SNc (黒質、
網状部)。 PVLV モデルは、これらの領域の最も重要な部分からの貢献を、一貫した全体的な計算体系内に統合します。
以下を含むフレームワーク: 1) 扁桃体の複数のサブ領域、領域
ポジティブな感情とネガティブな感情の両方の処理に長い間関与してきた
感情。 2) 腹側線条体 (VS、側坐核、NAc を含む) 内の複数の経路
感情表現の多くの側面において重要です。 3) 側面
手綱核 (LHb) 経路は、ドーパミン ニューロン活動 松本&彦坂、2007。松本&彦坂、2009 の抑制的な一時停止 (ディッピング) の原因となる基質として最近特定されました。
モデルの基本的な機能は、パブロフの条件付けタスクで見ることができます。中立的な手がかり (条件付き刺激、CS) が報酬または罰 (無条件刺激、US) とペアになっており、結果として条件付き反応 (CR) が獲得されます。たとえば、パブロフの有名な犬のおいしい食べ物の報酬を期待して唾液を分泌するベルの音や、身体が冷える前に凍りつく光の発生などです。ショックを受けた。重要なことに、最初は予期せぬ US で発生する一時的なドーパミン反応が、代わりに CS の時点で発生するようになります。 PVLV は、ドーパミンシグナル伝達の変化を引き起こす神経生物学的メカニズムをモデル化し、このシステムがパブロフ条件付けの行動発現の多くを説明できることを提案しています。また、被験者は特定の CS を経験した後、「特定の」US の差し迫った発生を予期するようになり、眼窩前頭皮質 (OFC) における作業記憶のような目標状態の形で予期される US を表すという考えも重要です。これは、PVLV フレームワークを、感情的な結果を単に良いものとして扱うより抽象的なモデルとは区別します。
悪い。
PVLV ネットワークの概要
PVLV モデル OReilly 他、2007 の背後にある包括的な考え方は、報酬学習の 2 つの個別の側面の基礎となる 2 つの個別の脳システム、つまり Primary Value (PV) システムと Learned Value (LV) システムが存在するということです。具体的には、腹側線条体は US 結果を期待することを学習し (PV 学習)、この期待と経験した実際の US 結果値との差異を反映する相性ドーパミン信号を引き起こします。この差は、報酬予測誤差またはRPEと呼ばれます。同時に、扁桃体は CS を米国の結果 (報酬と罰) に関連付けることを学習し、新しい CS 値の関連付け (LV 学習) を獲得します。この分業は、かなりの量のデータ ヘイジーら、2010 と一致します。現在のモデルは、扁桃体と腹側線条体の回路を非常に精巧に表現しており、これには食欲処理と嫌悪処理の経路を明確に分けているほか、予想よりも悪い結果をもたらすドーパミン細胞の発火(ディッピング)の停止を促す側手綱(LHb)の中心的な役割も組み込まれている。図 1 は、モデルの全体像を示しています。

図 1: 扁桃体の LV 学習値コンポーネントと腹側線条体 (主に側坐核、NAc) の PV 主要値コンポーネントを含む、PVLV モデルの主要コンポーネントの簡略図。 LHb: 外側手綱核、RMTg: RostroMedial Tegmentum、PPTg: PendunculoPontine Tegmentum、LHA: 外側視床下部、PBN: 腕傍核。
実装の詳細な図と説明については、PVLVコード を参照してください。
基本的な食欲のコンディショニング
私たちは、古典的な条件付けの最も単純なケースである、基本的な食欲条件付けから調査を開始します。 Stim_In 層で表される中立刺激は、PosPV 層の報酬 (米国) とペアになっています。 1 つの CS (A; Stim_In の 1 番目のユニット) は 100% の確率で報酬 (たとえば、一定量の H2O) とペアになりますが、2 番目の CS (B; 2 番目のユニット) の後に同じ量の報酬が続くのは 50% の確率だけです。学習を通じて、PVLV ネットワークの層は、VTAp 層と VTAn 層のドーパミン細胞の発火レベルを変更することを学習します。 VTAp 層は、VTA および SNc で通常応答するドーパミン細胞を表し、PVLV モデルの主な焦点です。 VTAn は、明確なバーストで嫌悪性 US に反応することが最近示されたドーパミン細胞の小さなサブセットを表しますが、その機能的挙動はこれまでのところ十分に特徴付けられておらず、現時点では PVLV の学習に影響を与えていません。シミュレーション中、トレーニングの初期段階では、当初予期せぬ報酬に対して VTAp で大規模なドーパミン バーストが発生しますが、トレーニングを続けるとこの反応は減少し、LV (扁桃体) システムが CS-US 偶発性を学習するにつれてドーパミン バーストが徐々に CS の時間に移動することがわかります。
ヒント: このシミュレーションでは、ユーザーがステップ サイズの Grain (例: Cycle、Quarter など) と一度に実行するステップ数 N の両方を設定できる柔軟なステップ メカニズムが使用されています。たとえば、Grain を Trial および N 10 に設定すると、クリックごとに 10 回の試行が実行されてから停止します。
- まず、タスク バーの左端のボタンで
PosAcq が選択されていることを確認します (他のものが表示されている場合は、ボタンをクリックしてドロップダウン メニューから PosAcq を選択します)。 また、タスク バーで StepGrain ボタンを見つけ、それが AlphaFull に設定され、StepN が 1 に設定されていることを確認します。 [NetView] タブがアクティブで、ビジュアライザ パネルにネットワークが表示されていることを確認します。 Init をクリックしてから StepRun を 1 回クリックして、1 アルファ サイクル (= 100 サイクル) をステップ実行します。 StepRun をもう一度クリックすると、Stim_In および Context_In 入力層がアクティブになることが確認できます (t1 タイムステップ)。 StepRun をさらに 2 回クリックして、t3 タイムステップに移動します。
これで、PosPV レイヤーの最初のユニットがアクティブになり (A トライアルを想定しています。B トライアルの場合は PosPV がオンになっていない可能性があります)、ネットワークに与えられる特定の種類の報酬を表します。また、報酬が提示されたときに、水平 (時間) 次元に沿ってどの USTime_In ユニットがアクティブであるかにも注目してください。 USTime の各水平行は、眼窩前頭皮質 (OFC) にあると仮定される時間的に進化する表現をエンコードします。これにより、ネットワークは CS と個々の報酬または罰の間の特定の時間的偶然性について学習できます。全体として、このスキームは、
rl_condモデル。
StepRun をさらに数回クリックして、A (報酬 100%) と B (50%) のトライアルを十分に実行し、入力がどのように異なるかをよく理解します。
特に、アクティブな USTime_In ユニットが、実際の報酬配信後のタイムステップで最下位/前景の行に「ジャンプ」していることが観察される場合があります。これは、米国自身がその後の米国の出来事を予測できるという考えを反映した、その米国の「次の」出来事を予想してストップウォッチをリセットするようなものと考えることができます。結局のところ、いくつかの果実があるところには、さらに多くの果実がある可能性が高いのです。
- ビジュアライザの [
TrialTypeData] タブの表示に切り替えて、タスク バーの Run (今回は StepRun ではありません) をクリックしてトレーニングの実行を完了します。
いくつかの主要な層 (さまざまな脳領域) に対してプロットされたアクティビティが表示されます。 3 つのトライアル タイプが一緒に表示され、学習が進むにつれてトライアルの各ブロックの後に更新されます。 CS A が報酬の確率を 100% と予測した試験を左側に示します。 CS B が 50% の確率でのみ報酬を受け取る場合、2 つの試行タイプがあります。1) 報酬が省略された場合。 2) 報酬が配達されたとき。
ネットワークがトレーニングされるにつれて、まず左側の CS A (100%) トライアルに注目し、特に VTAp アクティビティ (黒い実線) に注目してください。報酬 (US) が提供されると、最初に大きなピーク (相性ドーパミン) が見られるはずです (A_Rf_POS_t3; CS A = 正の強化、タイム ステップ 3)。時間の経過とともに、VSPatchPosD1 (緑の実線) のアクティビティが増加するにつれて、このピークは減少します。これは腹側線条体のプライマリバリュー(PV)基質がUSを予期することを学習しており、VTAにシャントのような抑制を送り、バーストを軽減します。この基本的なダイナミクスは、本章で説明した標準的な Rescorla-Wagner デルタ学習ルールを反映しています。
また、VTAp アクティビティが徐々に増加することにも注意してください。
A_Rf_POS_t1 タイムステップ。これは、A スティミュラス (CS) がオンになるときです。 CEl_Acq_Pos_D1 活動 (扁桃体の一部、赤い実線) もそのタイム ステップで増加することに注意してください。これが CS 発症時の VTAp バーストを引き起こし、CS と US を関連付ける扁桃体での学習値 (LV) 学習を反映しています。この学習は、US の時点で相性ドーパミン信号によって促進され、腹側線条体での PV 学習によりその信号が減少するため、LV 経路での学習も減少します。
したがって、rl_cond モデルの 1 つの TD 方程式から生じる、段階的ドーパミン発火の 2 つの基本的な側面は、実際には、協調して動作する 2 つの脳システムから現れます。これらは、正の価数を獲得するための重要な経路です。一部の層の名前にある「D1」は、シナプス後ドーパミン受容体のD1クラスが、直前にたまたま活性化していたグルタミン酸作動性シナプスを強化することによってドーパミンの増加に反応するという事実を反映していることは注目に値します。
次に、50%報酬の場合を詳しく見てみましょう。
※ネットワークが自動停止していない場合は、ツールバーのStopをクリックしてください。 TrialTypeData がまだ表示されている状態で、ネットワークに Init が表示され、次に Run が表示されるので、今度は 50% のトライアルを視聴できます。
今回は右側の 2 つのトライアルに焦点を当て、2 つのトライアル タイプについて時間の経過に伴う VTAp アクティビティの進行を観察します。どちらの場合も、t3 でいずれかのトライアルで低下が見られる前に、t1 タイムステップで VTAp アクティビティが増加し始めることがわかります。これは、ディップを引き起こす報酬への期待を育むまでに時間がかかるためです。これは、B トライアルの CS 発症 VTAp アクティビティが、報酬が半分しか得られず、最初は報酬の大きさだけを反映しているにもかかわらず、最初は A トライアルの VTAp アクティビティを反映している理由でもあります。トレーニングが進行するにつれて両方のトライアル タイプを観察し、報酬の期待値を反映してシグナリングのバランスがどのように変化するかに注目してください。 CS B の開始によって駆動される VTAp アクティビティは約 0.5、つまり CS A の半分に落ち着きます。同様に、タイムステップ t3 での報酬の配信では VTAp アクティビティが約 0.5 になりますが、報酬の省略では -0.5 のディップが生成され、どちらも報酬確率が 50% であるため、期待値 0.5 を反映しています。
- 必要に応じて
Stop をもう一度表示し、その後 NetView の表示に切り替えて、学習された重みの一部を調べることができます。左側の境界線に沿った垂直リボンで r.Wt をクリックし、次にネットワーク自体で、表示の右下にある VSPatchPosD1 レイヤーの最初のユニット (4 つのうち) をクリックします。つまり、LHbRMTg のすぐ上です。
質問 8.7: VSPatchPosD1 は USTime_In 層のどのユニットから重みを受け取りますか?また、これらは報酬が提示されたときにアクティブだったユニットと同じですか?これらの重み (USTime_In から VSPatchPosD1 まで) により、ネットワークはどのようにして報酬が期待される時点でのドーパミン バーストを軽減できるのでしょうか?
* 完了したら、`NetView` ディスプレイでの `Act` 変数の表示に戻ります。
# 絶滅
消去学習では、以前に報酬を与えられた CS は、その後は報酬なしとペアになります。重要な考え方は、絶滅は単に CS と US の間の以前の関連性の「未学習」ではなく、最初の学習に重ね合わされた一種の第 2 レベルの学習であり、元の学習はほとんど保存されているということです。 2 番目の重要なアイデアは、最初のアイデアに関連していますが、消去学習は特に *コンテキスト* の影響を受けるということです。多くの場合、期待された結果が生じない理由は、報酬または罰の省略が現在発生しているより広範な設定、つまりコンテキストを含む他の要因に起因する可能性があります。このような状況に応じた偶然性について学ぶことは、期待を適切に調整するために重要です。
次のシミュレーションでは、以前と同様に CS A と B を報酬と再びペアにしますが、その後、報酬が常に保留されるトレーニングが続きます。その後、消去学習におけるコンテキストの異なる役割を具体的に調査するシミュレーションを検討します。
* タスクバーで、`PosExt` を選択し、次に `Init` を選択します。次に、`StepGrain` パラメーターを `Block` に変更します。 名前が示すように、これはステップ サイズを変更して、毎回試行の完全なブロックを実行します。 さらに、取得フェーズの最後に到達するには、クリックごとに実行するステップの数を変更する必要があります。 「`StepN`」をクリックし、「50」に続いて「`Enter`」と入力します。 `StepRun` をクリックして取得フェーズを開始し、ビジュアライザで `TrialTypeData` タブを選択します。
前と同じ 3 つのトライアル タイプが表示されます。常に報酬が得られる 1 つの CS A トライアルです。そして、2 つの CS B トライアル、1 つは報われ、もう 1 つは報われませんでした。ここで、`TrialTypeData` 表示を編集して、消滅フェーズ中のいくつかの追加レイヤーのアクティビティを追跡できるようにしたいと思います。これは、ネットワークの実行中であっても行うことができます。
* `TrialTypeData` 表示で、`LHbRMTg_act` の横のチェック ボックスをオンにすると、そのレイヤーのアクティビティが表示されます。
グラフに青い実線が表示されるはずです。これは、トレーニングが進むにつれて `LHbRMTg` 活動を示します。これは、主に外側手綱核の機能に対応しています (LHb = 外側手綱核、RMTg = 吻側被蓋、LHb と VTA の間の中間体)。トレーニングの後半では、t3 タイムステップでのアクティビティが、2 種類の B トライアルで多かれ少なかれ対称的に報酬の提供 (下方への偏向) または省略 (上方へ) を反映するようになったことに注目してください。対照的に、`LHbRMTg` 活動は A 試験のベースラインに近づくようになります。これは、負の結果 (つまり、報酬の省略) がまったくなく、報酬の提供に対する最初の大きな負の反応が系統的に予測されるためです。次に、絶滅の際に何が起こるかを見てみましょう。
消滅フェーズも 50 エポック続きますが、最初に、ネットワークが何をしているかを理解するために、消滅初期のネットワークをタイムステップごとに観察したいと思います。その後、再び [`TrialTypeData`] タブに切り替えて、基本的な絶滅の展開を観察します。
* `TrialTypeData` が表示されている状態で、`StepN` を 1 (`Enter`) に変更します。次に、`StepRun` を 1 回クリックして 1 ブロックを実行し、消滅フェーズに進みます。
**ヒント:** 表示が 3 つのトライアル タイプから 2 つのトライアル タイプに変わらない場合は、消滅フェーズに移行するための追加のブロックがある可能性があるため、変更されるまで `StepRun` をもう一度クリックしてください。
`TrialTypeData` の表示が変更され、トライアルには 2 種類しかないという事実が反映されます (A 省略、B 省略)。
* `TrialTypeData` の表示が切り替わったら、[`NetView`] タブを選択して、消滅トレーニングの初期段階でネットワークのタイムステップごとに監視できるようにします。タスク バーで `StepGrain` を `AlphaFull` に戻し、一度に 1 タイムステップずつステップを進めます。 `StepRun` を 1 回クリックし、NetView 表示の下部にあるフィールドでトライアル名が「_t0」で終わっていることを確認します。そうでない場合は、そうなるまで `StepRun` を一度に 1 タイムステップ実行します。 トライアルタイプ(AまたはB)は関係ありません。 `StepRun` をもう一度実行すると、`Stim_In` および `Context_In` 入力層が t1 タイムステップでアクティブになることがわかります。 `StepRun` をさらに 2 回クリックし、トライアル名に「_t3」が付いていることを確認します。
現在、`PosPV` レイヤーはどちらのトライアル タイプでもアクティブではないことに注意してください。また、`VTAp` は、期待される報酬の欠落を示す大幅にマイナス (青) であるのに対し、その隣の `LHbRMTg` レイヤーは大幅にプラス (赤-黄色) であることに注意してください。これは、外側手綱核が、期待される報酬の省略に応じてドーパミン細胞の発火を一時停止させることが示されているという事実を反映している。
* A タイプと B タイプの両方の試験例をいくつか確認するまで、`StepRun` をクリックし続けます。
2 つの試行タイプの異なる期待値を反映して、位相的ドーパミンの低下 (t3 タイム ステップでの `VTAp` 活動) が A 試行よりも B の試行の方が弱い (明るい青) ことがわかるはずです。 2 つのトライアル タイプでどの `Context_In` ユニットがオンになっているかに注目してください。特に A トライアル (1 番目のユニット、1 行目) に注目します。これは取得フェーズ中に同じユニットがアクティブです。後で、取得と比較して消去中にさまざまなコンテキスト ユニットがアクティブ化されたときに何が起こるかを見ていきます。
* ビジュアライザの [`TrialTypeData`] タブに戻ります。 `Run` をクリックして、消滅トレーニングが完了に進むにつれて変化する層のアクティビティを観察します。
消去が進行するにつれて `TrialTypeData` グラフを観察しながら、報酬が省略された時点の `VTAp` アクティビティ (黒) が徐々にマイナスでなくなり、最終的には両方の試行タイプでゼロのベースラインに戻ることに注意してください。これは、`LHbRMTg` アクティビティ (青色) 自体もベースラインに戻るためです。同時に、CS 発症時の陽性の VTAp 活性が徐々に減少し、陰性になることもあります。これは、一部のドーパミン細胞が消去訓練後に一時停止を獲得することが判明した、基礎的な神経生物学を反映しています。一部のバーストが残るものもあります。そして、さらに他のものは、バーストと一時停止の二相性の発火パターンを示します。 PVLV モデルでは、CS 発症時の負のドーパミン信号は LHbRMTg 層の正の活動によって駆動され、さらに `VSMatrixPosD2` 層の学習によって駆動されます。
※`VSMatrixPosD1_act`と`VSMatrixPosD2_act`のチェックボックスをONにします。
`TrialTypeData` グラフに 2 つの新しい線が表示されるはずです。濃い青 = `VSMatrixPosD1_act`;ターコイズ = `VSMatrixPosD2_act`。 VSMatrixPosD1 と比較して、VSMatrixPosD2 の活性が大きいことに注目してください。これが、正味の負のドーパミン シグナルを駆動する正の LHbRMtg 活性 (青) の原因となっています。また、CElAcqPosD1 活性 (赤) が両方の試験タイプで陽性を維持していることにも注目してください。これは、ドーパミン細胞に対する何らかのポジティブな駆動が依然として存在することを意味し、休止を示すドーパミン細胞に加えて、一部のドーパミン細胞ではバーストが、多くの場合、二相性のバーストと休止のパターンとして、消滅後も持続することを示す経験的データと一致しています。したがって、PVLV は二相性反応を示す時間分解能を持っていませんが、ドーパミン反応の 3 つのパターンすべてを生成できる基質を反映する挙動を示します。
* 消去トレーニングが完了したら、[`NetView`] タブをクリックし、左境界線に沿った垂直リボンの [`r.Wt`] をクリックして、個々の受信ウェイトの強度を確認します。 `BLAmgPosD1` レイヤーの最初 (左端) のユニット プール内のいくつかのユニットと、`CElAcqPosD1` の最初のユニットをクリックして、どの送信ユニットが重要な重みを表示しているかをメモします。
> **質問 8.8:** これらのユニットが依然として `Stim_In` からの強力な重みを持っているのはなぜだと思いますか?これは、獲得時の元の学習が消滅後に完全には消去されないという考えをどのように説明できるでしょうか?これらの重みが依然として強い場合、条件付き反応はどのようにして消滅する (表現されない) のでしょうか?ヒント: `BLAmygPosD2` 活性は `BLAmygPosD1` 活性を阻害します。
* 完了したら、`NetView` 表示での `Act` 変数の表示に戻ります。
## 更新: 消滅におけるコンテキストの特別な役割
条件付け文献の重要な結論は、消去学習は単に獲得の消去ではないということです。消滅した行動を回復できる状況はいくつかあります。たとえば、*自然回復*では、セッションの終わりまでに完全に消えた条件反射は、通常、翌日に被験者が再検査されると、元の形より弱いとはいえ再び現れます。さらなる消去トレーニングの後には、通常、自然回復も続きますが、消去/回復/消去のサイクルごとに回復は徐々に弱くなります。同様に、自然回復の兆候が事実上全く残っていない数回の消去/回復/消去トレーニングサイクルの後でも、その後の元の US (ただし CS なし) への曝露は、その後の元の CS への曝露に応じて、消去された行動の再出現を、多くの場合非常に強力に引き起こす可能性があります。この米国によって引き起こされる効果は*復元*として知られており、大規模な絶滅訓練の後でも元のCS-USペアの重要な痕跡が残っていることを示しています。
自然回復と復元に加えて、*更新*と呼ばれる 3 番目の消去関連現象は、消去学習 [ブトン、2004](#references) においてコンテキストが果たす特別な役割を強調することにより、消去学習の理解を深める上で特に独創的であることが証明されています。簡単に説明すると、元の取得コンテキスト (A) とは異なるコンテキスト (B) で消去を実行し、その後、元のコンテキスト A に戻って CS でテストを実行すると、消去されたばかりの条件付き応答が活発に表現されることがわかります。 *ABA 更新* として知られるこのパターンは、消滅が表現されるかどうかをコンテキストが調節していることを示唆しています。しかし、なぜ元の取得の表現ではなく、*消滅*の表現において文脈が特に重要であると言えるのでしょうか?その答えは、ABC リニューアルと呼ばれるリニューアル パラダイムのバリエーションを使用した実験から得られます。
絶滅後のテストが元の取得コンテキストに戻るのではなく、まったく異なる 3 番目のコンテキスト (C) で実行された場合はどうなるでしょうか?最初の獲得とその後の消滅のどちらの学習が勝つでしょうか?つまり、本来の条件反射が発現するかどうか?絶滅の学習はより最近のものであるため、おそらくそれが勝つだろうと期待するのは合理的であるように思われるかもしれません。しかし、第 3 の新しい状況で元の CS にさらされると、元の条件反応が活発に発現されることが判明しました。これは、文脈が元の獲得の表現を調節している以上に、消滅の表現を調節していることを示しています。さらに説得力があるのは、いわゆる AAB 更新のケースです。この場合、取得と消去は *同じ* コンテキスト (A) で実行されますが、その後、新しいコンテキスト (B) が導入されたときにテストが行われます。新しいコンテキスト B では条件付き応答が大幅に表現されていることがわかり、元の取得フェーズではコンテキストが比較的重要ではなかったが、消去学習フェーズでは非常に重要になったことを示しています。
最近の経験的発見は、基底外側扁桃体複合体 (BLA) が状況依存の消去学習に特に関与していることを示しています。簡単に説明すると、扁桃体基底外側には 2 つのニューロン集団があり、関連付けが学習されると活動が増加するニューロン (獲得ニューロン) と、消去トレーニング [ヘリー他、2008](#references) に応答して活動が増加する別の集団 (消去ニューロン) があります。重要なことに、これらの研究者らは、消滅ニューロンが内側 PFC からの文脈入力によって優先的に神経支配されていることも発見しました。これらの結果は、別個の BLAmygPosD1 (取得) レイヤーと BLAmygPosD2 (消滅) レイヤーの形式で PVLV モデルにキャプチャされます。
次のシミュレーションでは、ABA 更新を検討して、この種のきめの細かい識別を実行するためにコンテキスト情報が全体的なフレームワークにどのように統合されるかを示します。 PVLV は ABC と AAB の両方の更新を直接再現しますが、関係する原則は同じであるため、これらをシミュレートしません。今回は CS A (報酬 100%) トライアルのみでトレーニングします。
* タスクバーで `AbaRenewal` を選択し、次に `Init` ネットワークを選択します。 `StepGrain` を `Block` に設定/確認し、`StepN` を 25 (`Enter`) に変更します。 `StepRun` をクリックして、最初の取得フェーズを開始します。
`NetView` 表示でしばらく取得トレーニングを観察し、特にどの `Context_In` ユニットがアクティブであるかに注目してください。
* [`TrialTypeEpochFirst`] タブに切り替えると、LV と PV の学習曲線が並行して展開されるのを観察できます。
`TrialTypeBlockFirst` グラフは、トレーニングの進行に応じて、タイムステップごとに段階的ドーパミン シグナル伝達 (VTAp アクティビティ) を個別に追跡します。最も関連性の高い 2 つのタイム ステップは、当然 t1 (CS 開始 = 紫色の線) と t3 (US 開始 = 濃い赤色) です。 LV 学習 (t1) と PV 学習 (t3) を反映して、両方の曲線が反対方向に漸近していることに注目してください。ネットワークは、消去トレーニングに移行する直前の 25 ブロック後に停止します。
* 25 ブロック後にネットワークが停止したら、[`NetView`] タブに戻って、ネットワークが消滅フェーズに移行するのを監視する準備をします。 `Run` をクリックして消去フェーズを完了します。
**ヒント:** 必要に応じて、`StepN` を「1」に設定し、最初に `StepRun` を数回クリックすると、遷移を確認しやすくなります。
非常にすぐに、獲得フェーズと消滅フェーズの間の層内のさまざまな `Context_In` ユニットのアクティビティの遷移が確認できるはずです。そしてもちろん、`PosPV` 層は移行後に再びアクティブになることはありません。ネットワークの入力に対する変更はこれらのみです。
* `TrialTypeBlockFirst` に戻り、消去が進むにつれて CS 開始 (薄紫) と US 開始 (ベージュ) のドーパミン シグナルの変化を観察します。 消去トレーニングが完了した後、ネットワークを CS に 2 回公開する 2 つの更新テスト トライアルが実行されます (コンテキスト A で 1 回、コンテキスト B で 1 回)。これらは TrialTypeblockFirst グラフでは解釈できないため、[`TrialTypeData`] タブに戻ります。
`TrialTypeData` グラフでは、CS がコンテキスト A (左側のトライアル) とコンテキスト B で提示されたときの CS 開始ドーパミン シグナル (`VTAp` 活動、黒線、タイムステップ t1) の顕著なコントラストに注目してください。ネットワークは、消去学習のコンテキスト特異性を強調する ABA 更新効果のバージョンを再現しました。
> **質問 8.9:** 進化の観点から見ると、元の学習の消去型メカニズムよりも別個の消去メカニズムの方が好ましいのはなぜですか?あなたの答えを、文脈に対する絶滅学習の特別な感度に関連付けてください。
# 嫌悪条件付け
最後の PVLV シミュレーションでは、食欲条件付けに含まれる同じ基本メカニズムが嫌悪条件付けもどのようにサポートできるか、つまり、痛み、ショック、吐き気などの否定的な主要結果の文脈での学習を検討します。嫌悪条件付けにおける一時的なドーパミンシグナル伝達は、食欲条件付けの一種の鏡像と考えることができますが、脅威下に関係する生態学的偶然性の基本的な違いを反映するいくつかの重要な異常を伴います。これらの中で最も重要なのは、単一のイベント中に関係する賭け金の明らかな違いです。報酬を獲得できなかった場合はがっかりするかもしれませんが、一般的にはより多くのチャンスがあります。 一方で、捕食者を避けられなかった場合は、文字通り明日がないことを意味します。したがって、脅威は機会よりも体系的に優先される必要があります。
このシミュレーションでは、1 つの CS (D) が 100% の確率で負の US とペアになり、別の CS (E) は 50% の確率でのみペアになります。
* タスク バーで `NegAcq` を選択し、次にネットワークの `Init` を選択します。 `StepGrain` を `AlphaFull` に設定し、`StepN` を 1 に設定します。`NetView` が表示されている状態で、`StepRun` を 1 回クリックし、右上のフィールドでトライアル名を確認します。 D トライアルではなく E トライアルの場合は、D トライアルの t0 タイムステップ (トライアル名: D_Rf_NEG_t0) が取得されるまでクリックし続けます。ここでもう一度 `StepRun` をクリックして `Stim_In` 層と `Context_In` 層をアクティブにし、どのユニットがアクティブになるかを確認します。次に、`USTime_In` レイヤーを観察し、`StepRun` をさらに 2 回クリックして、t3 タイムステップに移動します。
食欲旺盛なケースで見たのと同じように (単位は異なりますが)、`USTime_In` 単位アクティビティがタイムステップごとに進行していることが観察できたはずです。ネットワークは t3 タイムステップで `NegPV` 層でペナルティを受信していることに注意してください。また、罰が与えられたとき `VTAp` アクティビティはマイナス (青) であり、`LHbRMTg` はプラス (赤-黄) であり、後者が前者の [松本&彦坂、2007](#references) を駆動する責任があるという事実を反映していることに注意してください。最後に、LHbRMTg の右側にある `VTAn` レイヤーを見つけて、これにも陽性 (赤-黄色) アクティビティがあることに注意してください。 VTAn は、嫌悪の結果に対して明確なバーストで反応することが示されている少数のドーパミン細胞に相当します。
* [`TrialTypeData`] タブに切り替えて、[`Run`] をクリックして、トレーニングの進行に伴うネットワーク アクティビティの進化を観察します。
D (左) と E トライアル タイプの両方で、最初はマイナスの US への大きなドーパミン ディップ (`VTAp`; 黒線) が観察されるはずですが、これはネットワークが学習するにつれて時間の経過とともに徐々に減少します。食欲の場合の PV 学習を担当する主要な基質 (VSPatchPosD1) に対応して、対応する `VSPatchNegD2` ユニットは、罰 US に対する LHbRMTg 反応を緩和するために、罰 US を予測することを学習しており、その結果、ドーパミンの低下が起こります。ただし、100% 罰 (D) トライアルの場合でも、米国で開始されたドーパミン シグナルがトレーニングの終了までに完全になくなるとは決して予測されないことに注意してください。これは、[松本&彦坂、2009](#references) が完全に期待されている場合でも、嫌悪性の主要結果に対するドーパミン反応が完全には消失しないように見えるという経験的発見を反映しています。このアイデアは、VSPatchNegD2 からの予測入力に適用されるゲイン係数 (< 1) によって PVLV に実装されます。この利得係数の効果は、50% 罰 (E) トライアルでも非対称として現れます。広範なトレーニング後でも、罰を与える際のディップが罰を省略した場合のバーストよりも比例的に大きいことに注目してください。
並行して、ネットワークは両方の CS に応答してドーパミン ディップを獲得し、それに対応して `LHbRMTg` アクティビティ (青) が増加します。後天的なドーパミンの低下が、E (50%) CS よりも D (100% 罰) CS の方がどのように大きいかに注目してください。これは、手綱核の活動 (およびドーパミン細胞の停止) が罰の確率の増加に応じて変化し、期待値 [松本&彦坂、2009](#references) を効果的に近似していることを示す電気生理学的データと一致しています。ここで、これらの結果を生み出すためにネットワークで何が起こっているのかをもう少し詳しく見てみましょう。
※ `TrialTypeData` グラフが表示された状態で、VSPatchPosD1 層と VSPatchPosD2 層の表示のチェックを外します。ついでに言っておきますが、これらの層は負の主要結果の処理に関与していないため、これらの層の活動レベルはとにかくゼロです。 同様に、VSMatrixPosD1 レイヤーと VSMatrixPosD2 レイヤーをクリックしてオフにします。ここで、`VSPatchNegD2_act`、`VSPatchNegD1_act`、`VSMatrixNegD2_act`、および `VSMatrixNegD1_act` のチェック ボックスをオンにします。
**ヒント:** 表示が更新されない場合は、`TrialTypeData` 表示自体をクリックし、F5 ファンクション キーを押して表示を更新します。
まず、t3 タイムステップでの強い `VSPatchNegD2` アクティビティ (茶色と赤の線) に注目してください。これは、ネガティブな US に対する `LHbRMT` の反応を軽減し、したがって `VTAp` のネガティブな活動の量を軽減します。次に、VSMatrixNegD2 層 (ベージュの線) のアクティビティ レベルに注目してください。食欲の場合とは明らかに対照的に、CS 発症に対する獲得反応は扁桃体によって駆動されるのではなく、代わりに LHbRMTg を介してこの層で獲得された活性によって駆動されます。それにもかかわらず、たとえドーパミンシグナル伝達を直接駆動しないとしても、扁桃体は嫌悪条件付けの多くの側面に決定的に関与していることを理解することが重要です(たとえば、強い`CElAcqNegD2`活性を参照、赤)。最後に、`VTAn` レイヤー (ピンク) のアクティビティ レベルが VTAp の正確な鏡像であることに注目してください。どちらもモデル内の LHbRMTg アクティビティによって駆動されています。
> **質問 8.9a:** 進化の観点から見ると、嫌悪性と食欲性の主要結果を学習するための別々の経路が、両方に対して単一のシステムよりも好ましいのはなぜですか? 逆に、ドーパミンシグナル伝達の観点から、`VTAn` 層の一次嫌悪結果に対する肯定的な反応が、同様に `VTAp` からのシグナルを受信する下流のユニットに伝達された場合、どのような問題が生じる可能性があるでしょうか?
------------------------------------------------------------------------
# (オプション) 高度な探索
パブロフ条件付けの基本のいくつかを学習したので、このオプションのセクションでは、この分野にさらに深い関心を持つ人のために、さらに高度な学習をいくつか行います。これらは、PVLV モデルの多くの機能のほんの一部にすぎません。
## 条件付き抑制
条件付き抑制は、報酬の減少がいつ起こるかを確実に示す刺激 (*条件付き抑制剤*) の存在に関連する、負の予測誤差 (報酬が予想より少ない場合に発生する) に焦点を当てた、興味深い十分に研究されていない現象です。この期待された報酬の欠落は、ドーパミンの低下(負の刺激に対して発生するのと同じ信号)を引き起こすことがわかっています。条件付き抑制は、報酬と関連付けられている CS が、報酬の省略または減少とともに、抑制剤 CS と同時に提示されるときに発生します。これにより、通常は報酬が提示されたときにドーパミンの低下が引き起こされ、阻害剤に対する負の関連付けが訓練されます。重要なことに、条件付き抑制を何度も試行した後、抑制剤の提示だけでドーパミン ディップ [トブラー他、2003](#references) が引き起こされます。この直感的な例の 1 つは、ソーダ マシンに行ったときに「OUT OF ORDER」の標識が表示され、ソーダが手に入らないことを意味します。 「OUT OF ORDER」のサインは、ソーダマシンで通常期待されるソーダが手に入らないことを意味するため、ネガティブなイメージを抱き、次にソーダマシンでそれを見たときにがっかりするかもしれません。このシミュレーションでは、条件付けされた阻害剤に対するドーパミンの低下を脳が学習できるようにするメカニズムに迫ります。
この条件付き抑制現象は、条件付けのモデルにとって特に興味深く、挑戦的なものです。なぜなら、この現象は、以前は中性だった刺激を、*明白な否定的な結果を提示することなく、負の価数の刺激に変えるからです!* 抑制剤が明白な否定的な結果 (痛みなど) に関連した CS のように振る舞うという事実は、失望に関連するドーパミンの低下が、基本的にそれ自体でこれらの否定的な学習経路を駆動できることを意味します。
条件付き抑制のモデルでは、以前にトレーニングされた CS (A) を取得し、それを常に報酬の省略を予測する *条件付き抑制剤* (X) と組み合わせます。
※タスクバーで`PosCondInhib`を選択し、`StepGrain`~`Block`を設定します。 「`Init`」をクリックし、`StepN:` を「25」に設定します。 `StepRun` を 1 回クリックして、初期取得フェーズを実行します。 実行中、`NetView` が表示されていることを確認してください。 停止したら、`StepN` を「1」に戻し、`StepRun` をクリックし始めます。`Stim_In` レイヤーで 2 つのユニットがアクティブになっているトライアルが表示され始めるはずです。 2 つのアクティブなユニットの表示を開始するには、`StepRun` を最大数回クリックする必要がある場合があります。 これら 2 つの活性単位は、条件刺激 (A) と条件抑制因子 (X) を表します。次に、`StepGrain` を `AlphaFull` に変更し、ネットワークが AX トライアル中 (2 つの Stim_In ユニットがアクティブ) であり、`USTime_In` 層の 2 番目の位置 (タイムステップ t3) で 2 つのユニットがオンになっていることを確認するまで、`StepRun` を一度に 1 タイムステップずつクリックします。
`LHbRMTg` レイヤーは正のアクティビティ (赤から黄色) を持ち、`VTAp` は負のアクティビティ (青) であることに注意してください。
* `NetView` 表示の左側にある `r.DWt` をクリックします。 最初の `VSMatrixPosD2` ユニットをクリックします。
A 刺激と X 刺激を表す `Stim_In` ユニットが強調表示され、これらのユニットから `VSMatrixPosD2` への重みの正の変化を表していることがわかります。ドーパミンの低下は、これらの刺激から D2 単位への重みの増強を引き起こし、D2 MSN 上の皮質線条体のシナプスがドーパミンの減少によって *強化される*という生物学的発見を反映しています - [ゲルフェン&シュルマイヤー、2011](#references) を参照。これは、これらの刺激と報酬の欠落との関連を表していると解釈できます。
* `TrialTypeData` タブの表示に戻ります。 `Run` をクリックすると、条件付き抑制トレーニングが終了するまでの学習の進行を確認できます。
X 条件付き阻害剤自体によって予測される報酬の省略が予想されるようになり、負の `VTAp_act` (黒) および正の `LHbRMTg_act` (青) 活性が時間の経過とともに徐々に減少することに注目してください。
**ヒント:** `NetView` タブを前後に切り替えて、刺激が提示されているときのレイヤーのアクティビティを観察することもできます。その場合は、`TrialTypeData` に戻って続行します。
条件付き抑制トレーニングの最後に、A 単独、X 単独、および AX の 3 つのテスト トライアルが実行されます。 (いかなる場合でも報酬は提示されません)。 [トブラー他、2003](#references) データによれば、ネットワークは条件付き阻害剤 (X) に対するドーパミンの低下を示しており、これは負の価数を獲得したことを意味します。これは `LHbRMTg` の活性によって引き起こされ、X 条件付き阻害剤と報酬の欠落との関連を学習した `VSMatrixPosD2` の活性を反映しています。ネットワーク内のさまざまな腹側線条体層と扁桃体層の計算について詳しく知りたい場合は、[PVLVコード](https://github.com/emer/leabra/tree/main/pvlv) を参照してください。
> **任意の質問** A 刺激が単独で提示された場合、ネットワークはなぜ A 刺激に対する部分的なドーパミンバーストを示し続けるのですか?ヒント: ネットワークが再度実行されるのを観察し、さまざまな試用タイプに注目するとよいでしょう。 A_Rf トライアルと AX トライアルをインターリーブする目的は何ですか?
## ブロッキング
学習全般、特にドーパミン系に関する研究の重要な分野は、ブロック効果 [(Waelti 他、2001)](#references) です。ブロッキング実験では、報酬関連付けを使用して以前にトレーニングされた CS (A) を取得し、その後のトレーニング セッションでブロックされる別の CS (B) を提示し、再び同じ量の報酬を与えます。 A CS は報酬との組み合わせについて完全に訓練されているため、米国へのドーパミンバーストを予測します。
ただし、US ドーパミンが残っていない場合、たとえ報酬とペアになっているとしても、他の CS (B) についての学習に使用することはできません。これは、その 2 番目の CS への学習が、報酬の完全な予測をすでに持っている CS (A) によってブロックされるため、「ブロック」と呼ばれます。興味深いことに、与えられる報酬のサイズや種類を変更すると、2 番目の CS (これを「ブロック解除」と呼びます) [(マクダンナルド他、2011)](#references) について知ることができます。
PVLV では、`VSPatchPosD1` レイヤーを使用して US のドーパミンを制御します (US が `USTime_In` からタイミング信号を受信していることを覚えているでしょう)。学習済みの A CS を提示すると、これらの `VSPatchPosD1` 重みは US ドーパミンを完全にブロックするように学習しているため、報酬が急増することはありません。
* タスク バーで `PosBlocking` を選択し、`TrialTypeData` で `VTAp_act` を除くすべてのレイヤー表示をオフをクリックします。次に、`Init` および `Run` をクリックして、最初の A+ トレーニングがブロッキング トレーニング フェーズ (AB+) に移行するタイミングを監視するネットワークを表示します。
予備的な獲得フェーズと AB+ ブロック トレーニング フェーズが開始された後、A と AB のドーパミンはまったく同じに始まり、トレーニング中に実質的に変化がないことに注意してください。これは、両方の試行タイプの予測と期待の間に差がないことを示しています。 AB+ トレーニングの最後に、ブロックされた CS (B) のみがネットワークに提示されるテスト トライアルが実行されます。 `VTAp` 活動は本質的に平坦な線であることに注意してください。これは、ブロックされた CS によって獲得されたドーパミンシグナル伝達がほとんどなかったことを示しており、
Waelti et al.、2001 年のデータ。
## 安全信号学習: ネガティブ条件付き抑制
負の価数学習について考えるとき、罰が起こらないと予測するものがしばしば正の関連性を獲得することは興味深いことです。冬に家で、冷たい雪を遮断してくれる暖かい暖炉の前に座って感じる、暖かくてふわっとした感覚を思い出してください。罰が起こらないことを示すこれらの兆候は「安全信号」と呼ばれ、いくつかのデータは、ドーパミンニューロンが罰の相殺に対してバーストで反応することを示しています(Brischoux et al、2009)。私たちはこのデータを利用して、罰を怠ったことでドーパミンが爆発すると、これらの安全信号に対するポジティブな関連付けを訓練できることを示しました。私たちのシミュレーションでは、ネガティブに訓練された CS (D) を取得し、それを罰の省略を予測する別の刺激 (U) と組み合わせます。
※タスクバーの`NegCondInhib`を選択し、`TrialTypeData`で`VTAp`以外の全てのレイヤーの表示をOFFにします。 `Init` および `Run` をクリックして、完全なシミュレーションを実行します。
完全なシミュレーションは、*嫌悪獲得* -> *安全信号トレーニング* -> *テスト*という 3 つの連続したフェーズを経ます。ネットワークが停止すると、次の 3 つのテスト トライアルが表示されます。 D単独。あなたは一人です。罰の省略を予測する U CS へのドーパミンのバーストに注目してください。これは、ドーパミンが正の価数を獲得したことを意味します。食欲の場合の条件付き阻害剤について学ぶために `VSMatrixPosD2` 経路を使用したことを覚えているかもしれません。ここで、安全信号の場合、対応する `VSMatrixNegD1` 経路での学習は、同様の逆の効果を生み出します。
# 参考文献
*ブートン、M.E. (2004)。消滅する状況と行動のプロセス。学習と記憶、11(5)、485–494。 http://dx.doi.org/10.1101/lm.78804
* Brischoux, F.、Chakraborty, S.、Brierley, D.I.、Ungless, M. A. (2009)。有害な刺激による腹側{VTA}のドーパミンニューロンの位相興奮。米国科学アカデミー紀要、106(12)、4894–4899。 http://www.ncbi.nlm.nih.gov/pubmed/19261850
* Gerfen, C.R.、Surmeier, D.J. (2011)。ドーパミンによる線条体投影システムの調節。神経科学の年次レビュー、34、441–466。 http://www.ncbi.nlm.nih.gov/pubmed/21469956
* ヘイジー、T.E.、フランク、M.J.、オライリー、R.C. (2010)。学習における後天性のドーパミン応答の神経機構。神経科学と生物行動のレビュー、34(5)、701–720。 http://www.ncbi.nlm.nih.gov/pubmed/19944716
* Herry, C.、Ciocchi, S.、Senn, V.、Demmou, L.、Müller, C.、および Lüthi, A. (2008)。恐怖のオンとオフの切り替えは、異なる神経回路によって行われます。自然、454(7204)、1–7。 http://www.ncbi.nlm.nih.gov/pubmed/18615015
* 松本正史・彦坂央 (2007)ドーパミンニューロンの負の報酬信号源としての側手綱核。自然、447、1111–1115。 http://www.ncbi.nlm.nih.gov/pubmed/17522629
* 松本 央・彦坂正史 (2009)霊長類の側手綱核における負の動機付け値の表現。 Nature Neuroscience、12(1)、77–84。 http://www.citeulike.org/user/nishiokov/article/3823302
* McDannald, M. A.、Lucantonio, F.、Burke, K. A.、Niv, Y.、および Schoenbaum, G. (2011)。腹側線条体と眼窩前頭皮質はどちらもモデルベースの強化学習に必要ですが、モデルフリーの強化学習には必要です。神経科学ジャーナル、31(7)、2700–2705。 https://doi.org/10.1523/JNEUROSCI.5499-10.2011
* Mollick, J.A.、Hazy, T.E.、Krueger, K.A.、Nair, A.、Mackie, P.、Herd, S.A.、および O’Reilly, R.C. (2020)。相性ドーパミンのシステム神経科学モデル。心理学的レビュー、オンライン出版を先行。 https://doi.org/10.1037/rev0000199
* オライリー、R.C.、フランク、M.J.、ヘイジー、T.E.、ワッツ、B. (2007)。 PVLV: プライマリ値と学習値のパブロフ学習アルゴリズム。行動神経科学、121(1)、31–49。 http://www.ncbi.nlm.nih.gov/pubmed/17324049
* Tobler, P.N.、Dickinson, A.、および Schultz, W. (2003)。条件付き抑制パラダイムにおけるドーパミンニューロンによる予測される報酬の欠落のコード化。神経科学ジャーナル、23、10402–10410。 http://www.ncbi.nlm.nih.gov/pubmed/14614099
* Waelti, P.、Dickinson, A.、および Schultz, W. (2001)。ドーパミン反応は、正式な学習理論の基本的な仮定に準拠します。自然、412、43–48。 http://www.ncbi.nlm.nih.gov/pubmed/11452299
</section>