본문 바로가기
Psychology/PSYC1504

6.3 オペラント条件付け- 強化と罰

by 하나는외계인 2021. 7. 7.
반응형

 

オペラント条件付け operant conditioning

生物は行動とその結果を関連付ける。楽しい結果は、その行動が将来繰り返される可能性を高める。例:イルカが笛の合図を聞いてジャンプ芸をする。

 

 

効果法則law of effect

生物に満足のいく結果が続く行動は繰り返される可能性が高くなり、不快な結果が続く行動は繰り返される可能性が低くなる。

 

スキナーはソーンダイクの効果の法則Thorndike’s law of effectを基礎として、動物(主にラットとハト)で科学実験を開始し、オペラント条件付けを通じて生物がどのように学習するかを決定した。

 

彼はこれらの動物を「スキナーボックス」として知られるようになったオペラント条件付けチャンバーで実証した。スキナーボックスには、動物がディスペンサーを介して餌の報酬を押すかつつくことができるレバー(ラットの場合)またはディスク(ハトの場合)が設置されている。スピーカーとライトは、特定の動作に関連付けることができ、レコーダーは、動物によって行われた応答の数と内容を記録する。

 

 

 

 

ポジティブは何かを追加していることを意味し、ネガティブは何かを削除していることを意味する。

強化は行動を増やしていることを意味し、はあなたが行動を減らしていることを意味する。強化は正または負の場合があり、罰も正または負の場合がある。

 

 

 

 

 

 

ポジティブおよびネガティブな強化と罰

  強化
ポジティブ() 行動の可能性を高めるために何かが追加される。 動作の可能性を減らすために何かが追加される。
ネガティブ() 動作の可能性を高めるために何かが削除される。 動作の可能性を減らすために何かが削除される。

 

 

 

 

強化reinforcement

 

正の強化positive reinforcement 

望ましい刺激が行動を増加された例

部屋を掃除するとおもちゃがもらえると言われ、ジェロームは新しいアートセットが欲しいので、すぐに部屋を掃除した。

平均以下の読解スコアを持つ学区で達成度を高めるために子供たちに読解料を支払う。

ダラスの2年生は、本を読み、その本に関する簡単なクイズに合格するたびに2ドルの支払いを受けた。その結果、読解力が大幅に向上した。

 

 

負の強化 negative reinforcement 望ましくない刺激を与え、正しい行動を促す。

車のシートベルトを締めるまで「ビープ音、ビープ音、ビープ音」を鳴らす。希望の動作をすると迷惑な音が止まり、将来的に座屈する可能性が高くなる。負の強化は、調教でも頻繁に使用される。ライダーは、手綱を引っ張ったり、足を絞ったりして圧力をかけ、馬が曲がったりスピードを上げたりするなどの目的の行動をとったときに圧力を取り除く。馬は圧力を取り除きたくて正しい行動をするようになる。

 

 

 

Punishment

罰は常に行動を減少させる。

 

正の罰positive punishment

望ましくない行動を減少させるために望ましくない刺激を追加する。生徒に授業中にテキストメッセージの送信をやめさせるように生徒を叱ることです。この場合、行動(クラスでのテキストメッセージ)を減らすために刺激(叱責)が追加される。4歳の息子のブランドンが弟を殴った時に、ブランドンに「弟を殴らない」と100回書かせる。

 

 

負の罰negative punishment

ふさわしくない行動を減らすために心地よい刺激を取り除きくこと。子供が不正行為をした場合、親はお気に入りのおもちゃを取り上げること。この場合、行動を減らすために刺激(おもちゃ)が取り除かれる。

 

 

罰は、望ましくない行動を取った時、即時に与えるなら効果的である。

しかし罰は教育者に対する恐怖を植え付けることがある。また、罰は子供たちをより攻撃的にし、反社会的行動や非行を起こしやすくするかもしれないので注意が必要。

 

今日の心理学者と子育ての専門家は、罰よりも強化を好み推奨する。特に子供が何か良いことをしているのを見つけて、それに対して報酬を与えることを勧めている。

 

 

シェーピングShaping

ターゲットの動作のみに報酬を与えるのではなく、ターゲットの動作の連続した近似に報酬を与える。

強化が機能するためには、生物は最初に行動を示さなければならないため、動作は多くの小さな達成可能なステップに分解し、褒美を与えることによって行動を誘発する。

最終目標の芸に徐々に近づけていくというアプローチ方法で、動物調教によく用いられ、複雑な芸を教えるのに役立つ。

 

 

一次・二次補強材

ご褒美・報酬のこと。

 

一時補強材primary reinforcer

一次補強材は、水、食物、睡眠、避難所、性別、および触覚は、主要な強化因子生来の補強特性を持つ補強材である。例:サッカー選手のシドニーがゴールを決めるたびにシドニーにキャンディーを与える。

喜びはまた、主要な強化剤である。例)非常に暑い日に涼しい湖に飛び込むこと。水は人を冷やし(身体的な必要性)、喜びを提供する。

 

二次補強材secondary reinforcer

愛情を込めた賞賛など。

トークンエコノミーとして知られる行動管理システム全体は、これらの種類のトークン強化機能の使用を中心に構築されている。学校、刑務所、精神病院などのさまざまな環境での行動を修正するのに非常に効果的であることがわかっている。また自閉症の児童のグループで適切な社会的行動が増加し、不適切な行動が減少することがわかっている。

 

ステッカーチャートは、トークンエコノミーの一形態である。子供たちは行動を起こすたびにステッカーを受け取り、一定数のステッカーを貼った後、賞品または補強材を受け取る。一定数のステッカーを獲得すると、更なる報酬を得られる。

 

タイムアウトは動作修正方法の一つである。複数人で遊んでいる時に不正を犯した子供が望ましい活動から外され、あまり望ましくない場所で一人で待機すること。基本的には子供の年齢の年齢につき1分。子供にタイムアウトを指示するときは落ち着いて、タイムアウト中は子供を無視する(介護者の注意が不正行為を強化する可能性があるため)。タイムアウトが終わったら、子供に抱擁または親切な言葉を掛ける。

 

 

 

 

補強スケジュール

 

継続的な強化continuous reinforcement

生物が行動を示すたびに強化剤を受け取ること。

ネズミが箱を探索しているときにランダムにレバーを叩くと、餌のペレットが出てくる、ペレットを食べた後、空腹のネズミは再びレバーを叩き、別の餌のペレットを受け取った。ネズミがはレバーを押すたびに、餌のペレットが出てくることを学習する。

、誰かに行動を教える最も速い方法であり、新しい行動を訓練するのに特に効果的である。タイミングが重要であり、直後に提示する必要がある。

 

部分的強化 partial reinforcement

固定または可変のいずれか、および間隔または比率のいずれかである。

固定Fixed 補強間の応答の数、または補強間の時間の長さを指し、変化しない

可変Variable 応答の数または補強間の時間の長さを指し、変化する。

間隔interval 増援間の時間に基づいている

比率ratio スケジュールが増援間の応答の数に基づいている

 

 

 

補強スケジュール

補強スケジュール 説明 結果
固定間隔 補強材は、予測可能な時間間隔に設置(5分後)。 強化後の大幅な一時停止を伴う中程度の応答率 入院患者は、患者が管理し、医師がタイミングを合わせた鎮痛剤を使用する
可変間隔 補強材は、予測できない時間間隔に設置(5710、および20分後)。 中程度でありながら安定した応答率 Facebookをチェックする
固定比率 増援は、予測可能な数の応答の後(たとえば、246、および8の応答の後)に配信されます。 補強後の一時停止による高い応答率 出来高給製造されたアイテムのx個ごとに支払いを受ける工場労働者
可変比率 増援は、予測できない数の応答の後(たとえば、145、および9の応答の後)に配信されます。 高く安定した応答率 ギャンブル

 

 

固定間隔強化スケジュールvariable ratio reinforcement schedule

1時間に1回の投与。痛みが困難になったとき、患者はボタンを押し自ら薬を投与する。報酬(痛みの軽減)は一定の間隔でのみ発生するため、報酬が与えられないときに行動を起こしても無駄(ボタンを押しても薬は投与されない)

 

可変間隔強化スケジュールvariable interval reinforcement schedule

人や動物が予測できない時間の変化量に基づいて、強化する。ファーストフード店のマネージャー。たまに品質管理部門の誰かがレストランに確認にやってくる。レストランが清潔でサービスが速い場合、そのシフトの全員が$ 20のボーナスを獲得することができる。品質管理担当者がいつ現れるかわからないため、常にレストランを清潔に保ち、従業員が迅速かつ丁寧なサービスを提供できるように努めている。

 

固定比率強化スケジュール fixed ratio reinforcement schedule

売った分だけ歩合が出る。商品の品質や客に本当に必要かどうかは考慮にない。

 

変動比率強化スケジュールvariable ratio reinforcement schedule

一度利益が出ると、次の利益がいつ出るかわからないので、スロットマシンにお金を入れ続ける。彼女は、50ドル、100ドル、またはそれ以上を獲得できると考え続けている。人々は次に大きな勝利を収めることを期待して努力を続ける。これが、ギャンブルが中毒性が高い理由である。

 

強化スケジュールの中で、可変比率が最も生産的で最も消滅しにくく、固定間隔は生産性が最も低く、消滅しやすい。

 

 

 

 

 

 

認知と潜在学習

ワトソンやスキナーのような厳格な行動主義者は、認知(思考や期待など)ではなく行動の研究に専念した。実際、スキナーは非常に頑固な信者で、彼のアイデアは過激な行動主義radical behaviorismと見なされていた。

 

ラットを使ったトールマンの実験は、生物がすぐに強化を受けなくても学習できることを発見した。この発見は、学習が起こるためには強化が即時でなければならないという当時の一般的な考えと矛盾していた。

 

実験では、トールマンは空腹のネズミを迷路の中に置いたが、それを通り抜ける道を見つけることに対する報酬なかった。強化されていないラットが迷路を探索するにつれて、彼らは認知地図 cognitive map迷路を作成した。ラットが餌に気付くと、ずっと餌を与えられていた比較グループと同じくらい早く、迷路を通り抜ける道を見つけることができた。 潜在学習latent learning

 

 

 

 

 

潜在学習の例

 

子供たちは両親の行動を見ることで学ぶことができる。たとえば、ラビのお父さんが彼を毎日学校に送り迎えしている。ラヴィは自分の家から学校までのルートを学んだが、自分でそこに運転したことは一度もない。ラヴィは彼のお父さんが車に乗ったのと同じルートを自転車でたどることができた。

 

반응형

'Psychology > PSYC1504' 카테고리의 다른 글

6.4 観察学習  (0) 2021.07.08
6.2 古典的条件付け  (0) 2021.07.07
6.1 学習とは何か  (0) 2021.07.07
5.6 ゲシュタルト知覚の原則  (0) 2021.07.07
5.5 味覚・嗅覚・触覚・前庭感覚  (1) 2021.07.07

댓글