オペラント条件づけ・道具的条件づけとは
自発的行動に対して、報酬などの刺激(強化子)を受けると、行動の頻度が増える(強化される)学習の手続き。
徹底的行動主義を構築したバラス・スキナーによって研究が進んだことから、スキナー型条件づけとも呼ぶ。
学習理論としては、刺激と反応の結合によって成立する連合学習に分類される。
猫の問題箱の実験(ソーンダイク)
バラス・スキナーより以前に、アメリカのエドワード・ソーンダイクも、オペラント条件づけ・道具的条件づけについて、猫の問題箱の実験を行った。
空腹の猫を問題箱(紐を引くなどすると脱出できる)に閉じ込めて外に餌を置き、試行錯誤によって偶然脱出できることを繰り返すと、次第に脱出成功までの時間が短くなっていく。(試行錯誤学習)
この場合、刺激(餌)によって、行動(紐を引く)を引き起こす頻度が増えた(強化された)ことになる。
エドワード・ソーンダイクが試行錯誤説の中で用いた効果の法則は、のちのオペラント条件づけ・道具的条件づけにおける強化とほぼ同じことを説明しようとしている。
以下の図は、エドワード・ソーンダイクが行った猫の問題箱(パズルボックス)の実験の様子と学習結果のグラフ(横軸は試行回数、縦軸は脱出時間)。
スキナー箱の実験(スキナー)
アメリカのバラス・スキナーは、オペラント条件づけ・道具的条件づけについて、スキナー箱の実験を行った。
空腹のネズミをスキナー箱(レバーを押すと餌が出る)に閉じ込めておき、偶然レバーを押して餌を得ると、次第にレバーを押す行動が増える。
また、空腹のハトをスキナー箱(キイをつつくと餌が出る)に閉じ込めておき、偶然キイ(円形の発光板)をつついて餌を得ると、次第にキイをつつく行動が増える。
この場合、刺激(餌)によって、行動(レバーを押す、キイをつつく)を引き起こす頻度が増えた(強化された)ことになる。
以下の図は、レバーを押すと餌が出てくるネズミのスキナー箱。
オペラント条件づけ・道具的条件づけとの違い
以下の動画は、古典的条件付けとオペラント条件付けの違いを説明するTED-Ed動画。(英語音声、日本語字幕、4:12)
レスポンデント条件づけ・古典的条件づけは、筋肉の動きや腺の分泌など末梢的な条件反射の学習で、刺激-反応の関係(S-R結合・S-R連合)だけでほぼ説明できる。(S-R理論)
それに対し、オペラント条件づけ・道具的条件づけは、自発的に行動する中枢的な内的過程(心や意識など)を考慮する必要が出てくる。
以下の表は、レスポンデント条件づけ・古典的条件づけとオペラント条件づけ・道具的条件づけの比較。
レスポンデントはレスポンス、オペラントはオペレーションと覚える。
条件づけ | 人物 | 実験 | 学習の流れ | 学習の結果 | 内的過程 |
---|---|---|---|---|---|
レスポンデント条件づけ 古典的条件づけ パブロフ型条件づけ | パブロフ ワトソン | パブロフの犬 アルバート坊や | 刺激に対して反応する反射的行動 (刺激→反応、受動的) | 反応する刺激が増える | なし (末梢的・不随意的) |
オペラント条件づけ 道具的条件づけ スキナー型条件づけ | ソーンダイク スキナー | 猫の問題箱 スキナー箱 | 自発的行動(反応)に対して受ける結果(刺激) (反応→刺激、能動的) | 刺激によって反応が増える | あり (中枢的・随意的) |
強化子(好子・報酬刺激)とトークン(引換券)
目標となる行動を増やす(強化する)ための報酬などの刺激のこと。
動物に対する餌、子供に対するお菓子や褒めることなどが一般的な強化子として用いられるが、結果的に行動が増えることが強化子の定義であり、行動が増えなければそれは強化子ではない。
強化子は、数をためると報酬と交換できるトークン(引換券)でも強化が成立することがわかっている。(トークン・エコノミー法による二次的強化)
弱化子・罰子(嫌子・嫌悪刺激)と逃避学習・回避学習
目標となる行動を減らす(弱化する)ための罰などの刺激のこと。
動物や子供を叱ることなどが一般的な弱化子として用いられるが、結果的に行動が減ることが弱化子の定義であり、行動が減らなければそれは弱化子ではない。
弱化子は、行動を減らす(弱化)だけでなく、刺激から逃げたり(逃避学習)、回避したり(回避学習)する行動を増やす(強化)ことにもつながるため、その用法には十分注意する必要がある。
弁別学習・弁別刺激と約束的信号
例えば、キイの光る色によって餌を出し分けることで、ハトはキイの色(弁別刺激)に応じて行動を変える(つつく、つつかない)ようになる。
この現象を弁別学習(弁別訓練)という。
スキナー箱の実験では、キイの光(弁別刺激)が餌(強化子)の出現を約束する約束的信号となって働いている。
弁別刺激を考慮すると、オペラント条件づけ・道具的条件づけは弁別刺激(S)における反応(R)を強化刺激(S)で強化するS-R-Sの関係で説明することができ、これは行動分析学の三項随伴性(ABC分析)につながる。
般化(刺激般化と反応般化)と般化勾配
例えば、キイの光る色(弁別刺激)を変えた場合でも、似た色であればハトの反応行動(つつく)が起こる。
この現象を刺激般化という。(汎化ではなく般化と書くのが一般的。)
般化には、似た刺激ほど反応し、違いが大きくなるほど反応が弱まる般化勾配がある。
逆に、同じ弁別刺激でも強化された反応と似た反応が起こることがある。
この現象を反応般化という。
消去と部分強化(間欠強化)
一度学習が行われても、報酬などの刺激(強化子)がなくなれば学習の消去が起こる。(実際には消去というより、新たな学習による抑制である。)
消去したあとも、しばらく時間を空けると自発的回復が見られることがある。
毎回報酬などの刺激(強化子)を受けなくても、ときどき刺激を与えれば学習は維持される。
これを部分強化(間欠強化)という。(毎回刺激を与えることを連続強化という。)
毎回強化子(報酬などの刺激)を与える連続強化よりも、ときどき強化子を与える部分強化(間欠強化)の方が学習の消去(抑制)が起こりにくい(消去抵抗が大きい)。
これを部分強化効果(間欠強化効果)という。(ギャンブル依存やゲーム依存などが典型例。)
強化スケジュールと強化履歴
強化子(報酬などの刺激)をどのような間隔や時間で与えるかの配分方法を強化スケジュールと呼ぶ。
強化スケジュールの以前には、すでに様々な強化学習が行われていると考えることができ、これを強化履歴と呼ぶ。
反応形成(シェーピング)と自動反応形成(オートシェーピング)
オペラント条件づけ・道具的条件づけを成立させるには、レバーを押す、キイ(円形の発光板)をつつくなどの行動が偶然起こる必要があるため時間がかかる。
そこで、最初はレバーやキイに近づいただけで餌を与えるようにして行動を誘導することがある。
このように、段階的に条件づけを行う手法を反応形成(シェーピング)という。
キイ(円形の発光板)が点灯したら餌を与えるようにすると、ハトは餌だけでなく点灯したキイもつつくようになる。(つつかなくても餌が出てくるにも関わらず。)
人が介在していないのに反応形成(シェーピング)が起こるため、これを自動反応形成(オートシェーピング)と呼ぶ。
特殊なオペラント条件づけ・道具的条件づけ
短期間の経験でも学習されてしまう刷り込み(刻印づけ)がある。
レスポンデント条件づけ・古典的条件づけ(恐怖条件づけ)によって発生して(発生要因)、オペラント 条件づけ・道具的条件づけの負の強化(回避学習・逃避学習)で維持される(維持要因)ものに、不安障害(不安症)がある。
おまけ
動機づけ(モチベーション)は、外的なもの(餌など)だけでなく、内的なもの(好奇心など)でも成立する。
そして、外発的動機づけよりも、内発的動機づけのほうが、持続しやすい。(好きこそ物の上手なれ)
参考
関連する心理学用語
連合学習
効果の法則
新行動主義
徹底的行動主義
行動分析学
応用行動分析(ABA)
三項随伴性(ABC分析)
強化履歴
恐怖条件づけ
不安障害(不安症)
コメント