compcogneuro 翻訳ページ

compcogneuro/web: categorization

このページは外部資料の日本語訳です。原文の見出し順と本文順を保ち、コード・URL・出典表記はできるだけ原形のまま残しています。

種別

翻訳資料

更新日

2026-05-20

対象

外部資料を日本語で原文順に読みたい読者

目安

原文量に依存

確認メモ

機械翻訳をベースにした日本語訳です。実装手順や引用は必ず原典も確認してください。

出典とライセンス

原典: https://github.com/compcogneuro/web/blob/main/content/categorization.md

ライセンス: Text: CC BY 4.0; code: BSD 3-Clause。このページは日本語翻訳であり、変更点は翻訳とサイト内整形です。

+++ Categories = [“Activation”, “Learning”, “Cognition”] bibfile = “ccnlab.json” +++ 認知レベルでは、[[neocortex]] の機能を [[neuron detector]] モデルの観点から理解することができます。このモデルでは、そのような検出器の複数の層がますます抽象化されたカテゴリを構築し、生物が新しい刺激に対してより体系的に [[generalize]] できるようにします。たとえば、生の「ピクセル」入力の点では、顔は互いに大きく異なって見える可能性がありますが、これらの多様な入力をさまざまな方法で分類して、男性と女性、若者と老人、幸せと悲しい、「母親」と「他の人」など、いくつかのパターンを他のパターンよりも類似しているものとして扱うことができます。この原則を示す簡単なモデルについては、[[faces simulation]] を参照してください。

これらのカテゴリーを形成することは、私たちが適切な行動的および認知的反応（近づくか避けるか、お金を借りるなど）を行えるようにするために不可欠です。このようなカテゴリの利点を活用せずに、顔の視覚画像のすべての生の入力を適切な行動反応に関連付けようとすることを想像してみてください。ピクセルと反応の間の関係 (「マッピング」) があまりにも複雑すぎます。これらの中間的な抽象的なカテゴリは、ファイルフォルダーがコンピューター上のドキュメントを整理して簡素化するのと同じように、認知を整理して簡素化します。知性の多くは、これらの抽象的なカテゴリーを正しい方法で開発し、使用することに相当すると主張する人もいるでしょう。

また、処理の各段階でどれだけの数の個々の神経検出器が連携して、[[distributed representations]] の形式で複雑な概念的カテゴリをエンコードするために必要な繊細さと複雑さを把握できるかを理解することも重要です。これらの分散表現は、入力を同時にアクティブに分類する複数の異なる方法を可能にするためにも重要です。たとえば、特定の顔が女性、老人、幸せであると同時に認識できます。人間の脳の [[emergent]] 知能の大部分は、複数の連続したレベルのカスケード分散表現から生じ、皮質で一緒に働く何十億ものニューロンの集合的な活動を構成しています。

分類プロセス

{id=”figure_hierarch-dist-reps” style=”height:30em”} 顔入力刺激を処理するカテゴリ表現の階層シーケンスの概略図。表現は各レベルに分散されます (複数の神経検出器がアクティブです)。最下位レベルには、基本的な特徴検出器 (指向性エッジ) があります。次に、これらを線の接合部に結合し、さらに複雑な視覚的特徴を続けます。個々の顔は次のレベルで認識されます (ここでも、人々の見た目の類似度に応じて段階的に複数の顔ユニットがアクティブになります)。最後に、最も高いレベルには、ユーザーが実行するアクションの優れた基礎として機能する重要な機能的な「意味論的」カテゴリがあります。このような高レベルのカテゴリを開発できることは、インテリジェントな行動にとって重要です。

[[#figure_hierarch-dist-reps]] は、ビジュアルシステム内の複数のレベルの [[neuron detector]] がピクセル化されたイメージを高レベルのカテゴリ表現にどのように変換できるかを示します。 [[categorization philosophy

Philosophically]]、それは私たちの心のカテゴリーがどこから来るのかという興味深い質問です—私たちの心のカテゴリーの根底に客観的に現実的な何かがあるのでしょうか、それともそれらは私たちが現実に押し付けている単なる幻想なのでしょうか？「椅子」という概念は_現実世界_に本当に存在するのでしょうか? それとも、それは私たちが生きていくため(そして疲れた足を休めるため)に私たちの脳が構築したものにすぎないのでしょうか?この問題は、哲学の黎明期から考えられてきました。たとえば、プラトンは、私たちは洞窟の中に住んでいて、洞窟の向こうにある真の現実の壁の影だけを認識しているという考えを示しました。

椅子について、椅子をそのように分類できる「何か」「客観的」があることはもっともらしいように思えますが（つまり、椅子は単なる集団的幻覚ではありません）、厳密で正確な定義を提供することは、非常に困難な取り組みであるようです（試してみてください！段ボール箱、雪の塊、ドールハウスのミニチュア椅子、美術館にある誰も座ったことのない椅子を忘れないでください）。私たちの概念のほとんどが、自然界に非常に正確な根拠を持つ真の「自然の種類」であるとは思えません。ニュートンの物理法則のようなものは、強力な客観的根拠があるように見えますが、ほとんど明確に定義されていない椅子のような日常的なものに比べれば、おそらく矮小化されているでしょう（そして物理学の「素朴な」理解も、多くの場合、実際には正しくないことがよくあります）。

概念的カテゴリーの存在論的状態が乱雑であることは、私たちにはあまり気にされません。 [[Neuron]] は、何千もの異なる入力信号を統合できる非常に有能な検出器であり、それによって複雑で不定形なカテゴリを処理できます。さらに、学習により、これらのカテゴリー表現を形成して、行動に関連するものをピックアップできることがわかります。これらのものが何であるかを定義する際に形式や厳密さを必要としません。つまり、私たちの心のカテゴリーは、何らかの形で私たちに役立つために発達し、外界は私たちの探知機がこれらのものを感知するのに十分な信頼できる信号を生成します。

重要なのは、これらのカテゴリーを学習するための主な推進力は社会的および言語的相互作用であり、これにより非常に複雑で曖昧なものを学習および共有できるようになります。実際、最も奇妙なことは社会的交流を通じて学ぶことができます。たとえば、Rich Hall の好意により、ポテトチップスの袋にあるかなりの余分なスペースが「スナックモスフィア」と呼ばれていることがわかりました。このように、私たちの文化的環境は、私たちの精神的表象を形成する上で重要な役割を果たしており、私たちが同じくらい知的であることを可能にする大きな力であることは明らかです（私たちは、「スナックモスフィア」などと一緒にいくつかの有用なアイデアを拾うことがあります）。

{id=”figure_face-dim-prjn”} 特定の次元またはベースに沿って入力パターンを投影するためにシナプスの重みがどのように作用するか。この場合は、感情と性別の次元に沿って入力を投影します。左側のパネルでは、非常に高次元の顔入力 (16x16 イメージの場合は 256 次元) が 2 つのランダムな重みベクトルに沿って投影され、この高次元の入力空間を 2D プロットで視覚化できます。右側のパネルでは、感情と性別の次元に沿って区別するために訓練された特定のシナプス重みが、入力空間をより体系的でよく組織された低次元空間に変換または回転させています。これは基本的にニューロンが行うことです。関連する次元に沿って入力パターンを組織化し、変換します。これは、ニューロンがこれらの次元に沿って刺激を検出することを示す別の方法です。

[[#figure_face-dim-prjn]] は、高次元空間の特定の次元に沿って入力パターンを投影することで、ニューロンとその重みの補完的なビューを提供します。_数学的には、1 つの受信ニューロンのシナプス重みは、_ドット積_を使用してニューロン活動信号の高次元の_入力ベクトル_を乗算する_ベクトル_であり、重みと活性化を乗算して合計するだけです。合計。

これは、入力空間の重みベクトル次元への投影としても知られています。この投影操作は、行動の重要性の次元に沿って入力を整理および体系化します。たとえば、図に示すケースでは、感情と性別の次元に沿って顔入力を投影します。これについては、[[faces simulation]] で調べることができます。

[[linear algebra]] の用語では、ニューラルウェイトは、新しい basis set に沿って入力空間を_回転_します。ここで、basis set とは、入力を encoding する異なる方法を提供する、異なる axes (X 軸と Y 軸など) または次元のコレクションです。さらに、これらの用語では、学習は入力をエンコードするための適切な基底セットを見つけるプロセスです。これは、[[abstract neural networks]] が多くの連続する「深い」層にわたって何を行っているかを記述する標準的な方法であり、各層はそのような異なる「回転」を適用します。このようなネットワークの「最上位」の結果は、通常、オブジェクトカテゴリなど、いくつかの有益な次元です。

ニューロンを検出器で観察する方法は、前の章で見たように、抑制の役割とニューロンの発火閾値を理解するのに役立ちます。検出されたアイテムの「アクティブ」発火と、それ以外のすべての発火しないことを具体的に区別し、ニューロンが行っていることのより「個別の」ビューを提供します。対照的に、寸法投影フレームワークは、より連続的な数学的ビューを提供します。どちらも脳内で何が起こっているかを理解するのに役立つ方法です。

適切なカテゴリを持つこと (そして、与えられた状況に応じてそれらを適切に選択すること) の重要性を理解する直観的な方法の 1 つは、洞察問題から得られます。これらの問題は、多くの場合、状況を分類する通常のデフォルトの方法が間違った方向に導くように設計されており、問題を解決するには新しい方法 (つまり、「既成概念にとらわれずに考える」) で問題を「再表現」する必要があります。

たとえば、次の「難問」について考えてみましょう。「森の中の小屋で男性 2 人が死亡しています。何が起こったのでしょうか?」このゲームのルールには、一連の正誤質問をすることが含まれており、最終的にはパズルを解くために「キャビン」という単語を分類する別の方法を選択する必要があることに気づくことが目的です。以下は、これらの種類の難問のリストです (外部リンク)。

コンピュータープログラマーにとって、最も重要な教訓の 1 つは、正しい表現を選択することが、特定の問題を解決するための最も重要なステップであるということです。簡単な例として、「ヒープ」の概念を使用すると、並べ替えの問題に対する特に洗練された解決策が可能になります。二分木は広く使用されている表現形式でもあり、さまざまな問題の計算時間を大幅に短縮することがよくあります。一般に、必要なことを簡単に実行できる表現を見つけたいだけです。これはまさに脳の働きです。

物事をカテゴリー的に符号化する脳の傾向の一般的な例の 1 つは、ステレオタイプ です。ステレオタイプとは、実際には、人々のグループに適用される単なる精神的なカテゴリーです。誰もがそれらを持っているように見えるという事実は、これが脳の基本的な仕組みであることを示す強力な証拠です。私たちはこのような抽象的なカテゴリーで考えざるを得ません。上で議論したように、カテゴリーは一般に、私たちが世界に賢く対処できるようにするために不可欠です。

しかし、ステレオタイプ的思考に伴う明らかな問題は、これらのカテゴリーにも問題があり得ることを示しており (特にステレオタイプ的思考、より一般的にはカテゴリー的思考にとって)、特定の個人や状況の詳細を正確に表現する私たちの能力が制限されます。多くの異なるカテゴリ表現を同時にアクティブにする利点については、[[distributed representations]] の説明を参照してください。これにより、これらの問題が軽減される可能性があります。このような複数の潜在的なカテゴリを同時に楽しむ能力は、政治的信念や宗教的信念などに関連する個人差変数である可能性があります ([[@CritcherHuberHoEtAl09]]; [[@NamJostBavel13]])。こういうのは面白くなりそうですね！