compcogneuro 翻訳ページ

compcogneuro/web: bg-dorsal-simulation

このページは外部資料の日本語訳です。原文の見出し順と本文順を保ち、コード・URL・出典表記はできるだけ原形のまま残しています。

種別

翻訳資料

更新日

2026-05-20

対象

外部資料を日本語で原文順に読みたい読者

目安

原文量に依存

確認メモ

機械翻訳をベースにした日本語訳です。実装手順や引用は必ず原典も確認してください。

出典とライセンス

原典: https://github.com/compcogneuro/web/blob/main/content/bg-dorsal-simulation.md

ライセンス: Text: CC BY 4.0; code: BSD 3-Clause。このページは日本語翻訳であり、変更点は翻訳とサイト内整形です。

+++ Name = “BG dorsal simulation” Categories = [“Rubicon”, “Simulations”] bibfile = “ccnlab.json” +++

このシミュレーションでは、背外側線条体および関連する BG 経路によってサポートされる、運動制御のコンテキストにおける [[basal ganglia]] (BG) 機能の PCore モデルを調査します。 PCore モデルの基本機能を理解するには、最初に [[BG ventral simulation]] を実行するのが最善です。 * `MotorBS` の最終的なモーター出力はソフトマックスによって決定されます。選択は BG 自体ではなく、脊髄で非常に「遅く」行われます。 ※終了時の一部報酬、報酬の確率とその大きさは正解アクションの数によって決まります。 TODO: 黒幕の例 -- 部分的な情報でも、非常に有益な情報が得られる可能性があります。これがなくても学習できますが、シーケンスがはるかに短いだけです。 * 層には、皮質の [[inhibition]] 機能がアクティブになっておらず、すべて直接抑制性シナプス伝達に基づいています。 ※TD比較モデルについて説明します。 Readme からのメモ: DS は大脳基底核の一次運動制御部分の入力層であり、このモデルは強化学習 (RL) を通じて一連の運動動作を実行することを学習し、正しい動作には正の強化が得られ、間違った動作には強化が得られません。重要なことに、全能の「教師」入力は存在しません。モデルは純粋に試行錯誤、つまり「オンライン」学習を通じて正しいアクションシーケンスを発見する必要があります (つまり、モデルは動作しながらトライアルごとに学習します)。これは生物学的/生態学的に現実的な唯一の RL 形式です。このモデルには、脳幹および脊髄運動系から深部小脳核 (DCN) を介して視床の CL (中央外側) 核までの上行性経路によって駆動される、DS における可能な運動動作とそのパラメータ化の空間について学習するメカニズムも備えています。この経路は現時点ではモデルに有益ではなく、[[cerebellum]] の単純なモデルが実装されたら、よりきめ細かいパラメータ化されたモーター制御のコンテキストで再検討されます。運動皮質からの下行経路も有用な運動信号情報を伝達し、これらの皮質の繰り返しは同じ上行運動信号によって直接形成されます。このモデルは、コード (`mseq_env.go`) で実装された単純なドーパミン (DA) 「クリティカル」システムを使用します。単純な学習率 (`RewPredLRate=0.01`) を使用して、報酬が処理されるたびに `RewPred` 予測を適応させるだけです。 `RewPredMin=0.1` は、障害に対して負の DA 信号を維持するために重要であるため、障害を完全に予測することはできません。部分的に正しいシーケンス出力には部分的なクレジットが与えられます。これは長さ 3 のシーケンスにとって重要ですが、実際には長さ 2 の場合には多少有害です。部分クレジットは、正しいアクションの数の関数として報酬の *確率* として計算されます: `p = NCorrect / SeqLen`。報酬値が与えられた場合、その値もこの `p` 値と等しくなります。一定の `p` 値の部分的なクレジットを継続的に与えると、モデルはこれを予期することを学習し、それ以上進むことができなくなります。これらは、報酬が努力によって割り引かれ、ランダムな行動の選択が良い結果をもたらすこともありますが、一般に不必要な手順が追加されるという前提の下では、生態学的に合理的な特性です。 GPU (NData > 1) で使用される並列データ処理全体で一貫したモーターシーケンスの使用を簡略化するために、ターゲットシーケンスを 0、1、2 などのままにします。これは、モデルにはそれ以上の知識がなく、ランダムな初期重みにもバイアスがないためです。 </section>