Se está nesta página, provavelmente está a fazer alguma pesquisa sobre B.F. Skinner e o seu trabalho sobre o condicionamento operante! Poderá ficar surpreendido ao ver a quantidade de condicionamento a que está sujeito todos os dias! Somos condicionados a comportarmo-nos de determinadas formas todos os dias. Os nossos cérebros gravitam naturalmente em direção às coisas que nos dão prazer e afastam-se das coisas que nos causam dor. Quando relacionamos os nossos comportamentos comprazer e dor, ficamos condicionados.

Quando as pessoas são sujeitas a reforços (prazer) e castigos (dor), estão a ser submetidas a um condicionamento operante. Este artigo descreve o condicionamento operante, como funciona e como diferentes esquemas de reforço podem aumentar a taxa de execução de um determinado comportamento.

O que é o condicionamento operante?

O condicionamento operante é um sistema de aprendizagem que ocorre através da alteração de variáveis externas denominadas "castigos" e "recompensas". Ao longo do tempo e da repetição, a aprendizagem ocorre quando é criada uma associação entre um determinado comportamento e a consequência desse comportamento (boa ou má).

Este segundo termo vem de BF Skinner, o behaviorista que descobriu o condicionamento operante através do seu trabalho com pombos.

A caixa continha uma alavanca, um disco ou outro tipo de mecanismo. Quando as alavancas eram puxadas ou os discos pressionados, algo acontecia. Apareciam alimentos, luzes piscavam, o chão ficava elétrico, etc.

Skinner colocou pombos dentro destas caixas para registar as suas respostas com base no facto de estarem ou não condicionados às respostas que ocorriam depois de completarem uma determinada tarefa.

Com base na forma como os pombos compreendiam as consequências das suas acções e as mudanças no seu comportamento, Skinner desenvolveu a ideia de condicionamento operante.

Como é que o condicionamento operante funciona?

Skinner definiu um operante como qualquer "comportamento ativo que actua sobre o ambiente para gerar consequências". Digamos que recebemos um grande abraço sempre que dizemos à nossa mãe que ela está bonita. Esse elogio é um operante.

No condicionamento operante, é possível alterar duas variáveis para atingir dois objectivos.

As variáveis que podem ser alteradas são a adição de um estímulo ou a remoção de um estímulo.

Os objectivos que podem ser alcançados são o aumento ou a diminuição de um comportamento.

Dependendo do objetivo que se está a tentar alcançar e da forma como se manipula a variável, existem quatro métodos de condicionamento operante:

  • Reforço positivo
  • Reforço negativo
  • Punição positiva
  • Punição negativa

Condicionamento operante

Aumentar o comportamento

Diminuir o comportamento

Adicionar estímulo Reforço positivo Punição positiva

Remover o estímulo

Reforço negativo

Punição negativa

Tentar recordar os tipos de condicionamento operante pode ser difícil, mas aqui está uma simples cábula para o ajudar.

Reforço está a aumentar um comportamento.

Punição está a diminuir um comportamento.

O positivo prefixo significa que está a adicionar um estímulo.

O negativo O prefixo significa que está a remover o estímulo.

Reforço

O reforço positivo parece redundante - não é todo o reforço que é positivo? Em psicologia, a palavra "positivo" não significa exatamente o que pensa que significa. O termo "reforço positivo" refere-se simplesmente à ideia de que adicionou um estímulo para tentar aumentar um comportamento. A sobremesa depois de terminar as suas tarefas é um reforço positivo.

O reforço negativo é a remoção de um estímulo para reforçar um comportamento. Nem sempre é uma experiência negativa. Remover uma dívida da sua conta é considerado um reforço negativo. Uma noite sem tarefas também é um reforço negativo.

Sob a égide do reforço negativo encontram-se dois conceitos: fuga e evitamento ativo. Estes tipos de reforço negativo condicionam o seu comportamento através da ameaça ou da existência de um estímulo "mau".

Aprendizagem de fuga

A fuga ocorre quando um sujeito "escapa" a um estímulo mau. Nas primeiras experiências sobre o desamparo aprendido, Martin Seligman colocou cães numa sala e submeteu-os a choques recorrentes. Se os cães atravessassem para o outro lado da sala, deixavam de levar choques. Esta é uma forma de fuga - o sujeito pode escapar a estímulos maus com os seus comportamentos.

Aprendizagem por evitamento ativo

Se saíssemos ao frio sem casaco, seríamos confrontados com um castigo: estaríamos gelados e desconfortáveis! Da próxima vez que saíssemos ao ar livre e vestíssemos um casaco, sentir-nos-íamos confortáveis e quentes. O comportamento de vestir o casaco permite-nos evitar ativamente o "mau estímulo" e encoraja-nos a usar um casaco.

Este exemplo mostra que nem todas as formas de condicionamento operante se devem às intenções ou à manipulação de alguém. Aprendemos a evitar ou a convidar estímulos que ocorrem naturalmente com base no que observamos na sequência dos nossos comportamentos.

Antes de passar para a próxima forma de condicionamento operante, deixe-me resumir o reforço. Lembre-se, todos os tipos de reforço encorajam-no a repetir as acções que levaram a esse reforço.

Punição

No condicionamento operante, a punição é descrita como a alteração de um estímulo para diminuir a probabilidade de um comportamento. Tal como o reforço, existem dois tipos de punição: positiva e negativa.

O castigo positivo não é uma experiência positiva - desencoraja o sujeito de repetir os seus comportamentos através da adição de estímulos.

Em A Teoria do Big Bang, Sheldon e o grupo tentam conceber um plano para evitar que se desviem do tema e decidem introduzir um castigo positivo para desencorajar esse comportamento.

As personagens decidem colocar pedaços de fita-cola nos braços. Quando uma delas se desvia do assunto, outra pessoa do grupo arranca a fita-cola do braço dessa pessoa como forma de condicionamento operante. A adição desse sentimento doloroso torna o seu esquema uma forma de punição positiva.

Se os seus pais alguma vez lhe retiraram o acesso a jogos de vídeo ou brinquedos porque se estava a portar mal, estavam a utilizar um castigo negativo para o desencorajar de um mau comportamento.

Medição das taxas de resposta e de extinção

O facto de levar uma palmada por um mau comportamento uma vez não o vai impedir de continuar a tentar ter um mau comportamento. Sentir frio lá fora e ficar mais quente quando se veste um casaco não o vai ensinar a vestir um casaco sempre que sai à rua.

Os investigadores utilizam duas medidas para determinar a eficácia de diferentes esquemas de condicionamento operante: taxa de resposta e taxa de extinção.

A taxa de resposta é a frequência com que o sujeito executa o comportamento para receber o reforço.

A taxa de extinção Se o sujeito não confia que vai receber um reforço pelo seu comportamento, ou não faz a ligação entre o comportamento e a consequência, é provável que deixe de o fazer. A taxa de extinção é a taxa a que esse comportamento termina depois de não serem dados reforços.

Horários de reforço

A resposta varia consoante o momento e a razão em que se recebe o reforço.

Skinner compreendeu-o. Ao longo da sua investigação, observou que o momento e a frequência do reforço ou da punição tinham um grande impacto na rapidez com que o sujeito aprendia a executar ou a abster-se de um comportamento. Estes factores também têm impacto na taxa de resposta.

Os diferentes momentos e frequências em que o reforço é aplicado podem ser identificados por um de muitos esquemas de reforço. Vejamos esses diferentes esquemas e a sua eficácia.

Reforço contínuo

Se pensar na forma mais simples de condicionamento operante, está provavelmente a pensar no reforço contínuo. Quando o sujeito executa um comportamento, ganha um reforço, o que ocorre sempre.

Embora a taxa de resposta seja bastante elevada no início, a extinção ocorre assim que o reforço contínuo pára. Se ganhar a sobremesa sempre que limpar o quarto, limpará o quarto quando quiser a sobremesa. Mas se um dia limpar o quarto e não ganhar a sobremesa, perderá a confiança no reforço e é provável que o comportamento pare.

Os quatro esquemas de reforço seguintes são designados por reforço parcial. Os reforços não são distribuídos de cada vez que um comportamento é efectuado. Em vez disso, os reforços são distribuídos com base na quantidade de comportamentos efectuados ou no tempo decorrido.

Reforço de rácio fixo

O "rácio" refere-se à quantidade de respostas. O "fixo" refere-se a uma quantidade consistente. Junte os dois e obtém um plano de reforço com uma quantidade consistente de respostas. Os programas de recompensas utilizam frequentemente planos de reforço de rácio fixo para encorajar os clientes a voltarem sempre. Por cada dez batidos, ganha um grátis.

O smoothie gratuito e as compras reduzidas são ambos reforços distribuídos após uma quantidade consistente de comportamentos. Um sujeito pode levar dois anos ou duas semanas para chegar ao décimo smoothie - de qualquer forma, o reforço é distribuído após a décima compra.

A taxa de resposta torna-se mais rápida à medida que os sujeitos suportam um reforço de rácio fixo. Pense nas pessoas que trabalham em vendas e que recebem uma comissão. Elas sabem que vão receber um cheque de $1.000 por cada cinco artigos que venderem - pode apostar que estão a esforçar-se muito para vender esses cinco artigos e ganhar esse reforço mais rapidamente.

Reforço em intervalos fixos

Enquanto que "rácio" se refere à quantidade de respostas, "intervalo" refere-se ao momento da resposta. Os sujeitos recebem reforço após um determinado período de tempo. Se receber um cheque de ordenado nos dias 15 e 30 de cada mês, está sujeito a um reforço de intervalo fixo. Não importa quantas vezes executa um comportamento.

A taxa de resposta é tipicamente mais lenta em situações com reforço em intervalos fixos. Os indivíduos sabem que receberão uma recompensa independentemente da frequência com que realizam um comportamento. Muitas vezes, as pessoas com empregos com salários estáveis e consistentes são menos propensas a esforçar-se e a vender mais produtos porque sabem que receberão o mesmo salário independentemente do número de artigos que vendam. Outros factores, comobónus ou reprimendas verbais, podem ter impacto na sua motivação, mas esses factores extra não existem no reforço puro de intervalo fixo.

Reforço de rácio variável

Quando falamos de esquemas de reforço, "variável" refere-se a algo que varia depois de um reforço ser dado.

Voltemos ao exemplo do cartão de recompensas. Numa programação de reforço de rácio variável, o sujeito receberia o seu primeiro batido grátis depois de comprar dez batidos. Depois de receber esse primeiro batido grátis, só tem de comprar sete batidos para receber outro batido grátis. Depois de distribuído esse reforço, o sujeito tem de comprar 15 batidos para receber um batido grátis. O rácio deo reforço é variável.

Este tipo de calendário nem sempre é utilizado porque pode ser confuso - em muitos casos, o sujeito não sabe quantos batidos tem de comprar antes de receber o seu gratuitamente.

No entanto, as taxas de resposta são elevadas para este tipo de programação. O reforço depende do comportamento do sujeito. Ao realizar mais um comportamento, ele sabe que está um passo mais perto da sua recompensa. Se não receber o reforço, pode realizar mais um comportamento e ficar novamente um passo mais perto de receber o reforço.

Pense nas slot machines. Nunca sabe quantas vezes terá de puxar o nível antes de ganhar o jackpot. Mas sabe que, com cada puxão, está um passo mais perto de ganhar. A dada altura, se continuar a puxar vezes sem conta, ganhará o jackpot e receberá um grande reforço.

Reforço em intervalos variáveis

A última programação de reforço identificada por Skinner foi a do reforço de intervalo variável. Neste momento, já deve estar a adivinhar o que isto significa. O reforço de intervalo variável ocorre quando os reforços são distribuídos após um determinado período de tempo, mas esse período varia após a distribuição de cada reforço.

Neste exemplo, digamos que trabalha numa loja de retalho. A qualquer momento, entram na loja compradores secretos. Se conseguir executar os comportamentos correctos e vender os artigos certos ao comprador secreto, os superiores dão-lhe um bónus.

Este tipo de horário mantém as pessoas atentas, encorajando uma elevada taxa de resposta e uma baixa taxa de extinção.

FAQs sobre o condicionamento operante

O condicionamento operante é uma tentativa e erro?

Não exatamente, embora a tentativa e o erro tenham ajudado os psicólogos a reconhecer o condicionamento operante. Através da tentativa e do erro, descobriu-se que os reforços e as recompensas ajudavam a manter os comportamentos. Estes reforços (elogios, guloseimas, etc.) são a chave para que os comportamentos sejam realizados e até repetidos.

O condicionamento operante é behaviorismo?

O behaviorismo é uma abordagem à psicologia; pense no condicionamento operante como uma teoria sob a égide do behaviorismo. B.F. Skinner é considerado um dos behavioristas mais importantes da história da psicologia. Teorias como o condicionamento operante e o condicionamento clássico ajudaram a moldar a forma como as pessoas abordam o comportamento durante décadas.

Diferenças entre o condicionamento operante e o condicionamento clássico

O condicionamento clássico associa comportamentos existentes (como salivar) a estímulos (como uma campainha). "Ligações Clássicas". O condicionamento operante treina um animal ou um ser humano a realizar ou a abster-se de determinados comportamentos. Não se treina um cão a salivar, mas pode treinar-se um cão a sentar-se dando-lhe guloseimas quando ele se senta.

Condicionamento Operante vs. Condicionamento Instrumental

O condicionamento operante e o condicionamento instrumental são dois termos para o mesmo processo. É mais provável que ouça o termo "condicionamento operante" em psicologia e "condicionamento instrumental" em economia! No entanto, diferem de outro tipo de condicionamento: o condicionamento clássico.

O condicionamento operante pode ser utilizado na sala de aula?

Sim! Recompensar intencionalmente os alunos pelo seu comportamento é uma forma de condicionamento operante. Se um aluno receber um elogio cada vez que tira um A, por exemplo, é mais provável que se esforce por tirar um A nos testes e nos exames.

Exemplos quotidianos de condicionamento operante

Os utilizadores do Reddit vêem o condicionamento operante nos jogos de vídeo, no treino de animais de estimação, no treino de crianças, ...

Postagem de iurichibaBR em r/FFBE (Final Fantasy Brave Exvius)

Quando pensa em FFBE, qual é a primeira coisa que lhe vem à cabeça? A maioria de vós responderia provavelmente CRISTAIS, PUXÕES, ARCO-ÍRIS, VÉSPERAS! Este é um exemplo claro de Condicionamento Operante. Queres jogar o jogo todos os dias e obter aquele summon diário, porque sabes que podes obter algo espetacular! E essa é também a razão pela qual as taxas de Rainbow são baixas - se as ganhasses com demasiada frequência, perderia o seu efeito.

Um exemplo giro de condicionamento operante de Narwahl_in_spaze em r/ABA (Análise Comportamental Aplicada)

Post de barbiegoingbad em r/Diabla

Agora que Mary sabe que o jogador de basquetebol está no jogo pela fama, ela usa isso em seu proveito. Sempre que ele faz algo desejável, ela usa isso como um reforço para ele não só continuar esse comportamento, mas também melhorá-lo. Depois de o primeiro encontro ter corrido bem, foram juntos a um evento. Ela sabe que ele quer adulação e sentir-se importante, por isso coloca os holofotes sobre ele e fazIsto faz com que, subconscientemente, ele se sinta bem, pelo que continua a dar-lhe o que ela quer e precisa (no caso dela, presentes, dinheiro e afeto).

Usar o condicionamento operante em si mesmo

Estamos habituados a formas de condicionamento operante criadas pelo mundo natural ou por figuras de autoridade, mas também podemos utilizar o condicionamento operante em nós próprios ou com um accountabilibuddy.

Eis como pode fazê-lo. Estabelece um programa de reforço de rácio fixo: por cada 10 cartões de notas que escreve ou memoriza, dá a si próprio uma hora de jogos de vídeo. Pode estabelecer um programa de reforço de intervalo fixo: após cada semana de exames finais, tira férias.

Os amigos contabilistas são os melhores para estabelecer horários de reforço de rácio variável e de intervalo variável. Dessa forma, não sabe quando o reforço está a chegar. Diga ao seu amigo para lhe devolver o comando do videojogo após uma quantidade aleatória de cartões de notas que escrever. Ou peça-lhe para entrar no seu quarto em intervalos de tempo aleatórios. Se estiver a estudar, ele dá-lhe uma cerveja,sem reforço.