Seis mitos sobre el entrenamiento con refuerzo positivo

Mitos

Seis mitos sobre el entrenamiento con refuerzo positivo
Publicado el 20 de mayo 2015 por Eileen Anderson

El adiestramiento con refuerzo positivo está sujeto a una gran cantidad de malentendidos y falsas declaraciones. Muchas personas realmente no entienden cómo funciona, y otros parecen tergiversarlo deliberadamente. Algunos de estos malentendidos y tergiversaciones pueden ser muy “dañinos”.

Hablaré hay seis que son bastante comunes, pero hay muchos más. Ni siquiera me centraré en los típicos que dicen “los perros entrenados con R+ son obesos”, “Entrenar con R+ solo funciona para trucos y perros fáciles” o “Entrenar con R+ es sobornar al perro”. Los seis siguientes intentarán aclarar algunos malentendidos comunes sobre el adiestramiento con refuerzo positivo.

1. El adiestramiento con refuerzo positivo es permisivo.

Creo que éste es un verdadero malentendido para un montón de gente. Antes de estudiar teoría del aprendizaje, sin duda, no habría tenido ni idea de cómo se puede utilizar el refuerzo positivo como parte de un plan de formación, por ejemplo, para deshacerse de un comportamiento no deseado. Todo lo que podía imaginar era a alguien repartiendo galletas por las buenas conductas. Pero ¿qué harías con una galleta si el perro hizo algo “malo”? Lo que no sabía era que los entrenadores que utilizan el refuerzo positivo no sólo reforzaban los comportamientos deseados, sino que también tienen varias técnicas humanas para interferir con el refuerzo de los comportamientos no deseados por lo que dejan de tener valor para el animal. Estos incluyen la anticipación, el refuerzo de comportamientos alternativos, y en algunos casos, el castigo negativo (C-). El adiestramiento con refuerzo positivo, especialmente cuando se aplica a problemas de comportamiento, toma una cuidadosa reflexión y planificación. Es preciso, deliberado, y no tiene nada que ver con “trabajar en la tierra del arco iris feliz de las hadas”.

2. Los adiestradores que utilizan el refuerzo positivo simplemente ignoran el mal comportamiento.

Algo que ya trae una muy mala imagen a la mente: Dueño de una mascota cariñosa dejando que su mascota salte sobre la abuela, nos robe la comida y nos vacíe la papelera. Pero la realidad es muy diferente. Lo que realmente hacemos acerca de la conducta no deseada es
1) evitar que suceda en el primer lugar;
2) enseñar al perro algo aceptable para hacer en su lugar; y ocasionalmente,
3) castigarlo utilizando castigo negativo.

Sabemos que haciendo caso omiso de las conductas que han sido reforzadas no harán que desaparezcan. Sin embargo, para hacer las cosas un poco más complicadas para el perro hay dos situaciones en las que “el ignorar” se utiliza como método. Una es con la construcción de nuevos comportamientos y/o asociando una señal verbal con un nuevo comportamiento. En estos casos, si el perro comete un error, no pasa nada. Nosotros no le recompensamos. Esto siempre y cuando no se trate de un comportamiento habitual o peligroso que esté siendo reforzado de alguna otra manera. Se convertirá en un juego donde el perro tiene que descubrir cómo conseguir el refuerzo. La otra situación en la que “ignorar” podría ser utilizado como una parte del enfoque de la modificación de conducta es cuando el comportamiento del animal se está reforzando con nuestra atención. Pero incluso en esa situación no nos limitaríamos a ignorar únicamente.

3. Los adiestradores que trabajan con refuerzo positivo creen que nada desagradable debe suceder en la vida del perro, jamás, y tratan de proteger a sus perros de todo aversivo.

En primer lugar, esto es imposible. Siempre habrá desde leves a moderados estímulos aversivos a nuestro alrededor, en todo momento, y nosotros y nuestros animales realizaremos un montón de conductas para evitarlos o disminuirlos. Tal vez el perro tenga demasiado calor. Eso es aversivo. Tal vez haya una mosca zumbando alrededor de su cabeza. Eso es aversivo. Tal vez al perro le tengan que poner una vacuna en el veterinario. ¡Eso es aversivo! La verdad es que evitaremos entrenar con aversivos, incluso con los más leves. Como alguna vez ya he escrito, si un perro tiene fobia a los truenos y se escapa de la casa cuando hay tormentas, esto se llama refuerzo negativo automático. El perro se refuerza corriendo para alejarse del ruido del trueno. El trueno es un inevitable aversivo en la vida. (Ayudo a los perros con otras maneras de gestionar el trueno y no solo la evasión). Pero jamás utilizaría un fuerte ruido en una sesión de entrenamiento, ni utilizaría el miedo de un perro para obtener un comportamiento. Y en cuanto a los más típicos aversivos (pensando en la visita al veterinario otra vez) lo que hacemos es preparar al perro para que se acostumbren a ellos lo mejor que podamos para minimizar su impacto (desensibilización). Esto es justo lo contrario a utilizar sus cualidades aversivas.

4. Debido al punto 3, los entrenadores que utilizan el refuerzo positivo harán cosas como dejar a su perro correr cuando hay tráfico para evitar tirones de correa, o evitar “hacerle daño.”

Éste es absurdo. Estoy bastante seguro de que cualquiera haría lo que fuera para evitar que nuestros perros se lastimen. En caso de emergencia sacaremos al perro de esa situación como sea, como lo haría cualquier otro ser humano que se preocupe por su perro. Sí, esto es usar un aversivo. Pero no es parte de un escenario de enseñanza. En situaciones complicadas se necesitan diferentes comportamientos. Por ejemplo, una amiga podría pedirme que utilizara una aguja para extraerle una astilla que no puede quitarse. Haría lo que me pide, aunque eso pudiera suponer lastimarla. Pero hacer esto no tiene nada que ver con que luego vaya a adiestrar a mi amiga y la pinche cada vez que cometa un error.

5. Los entrenadores que utilizan el refuerzo positivo usan el castigo, pero simplemente no lo saben (o simplemente no lo admiten).

Esto es otra tontería. En general, estamos haciendo todo lo posible para dejar la mitología detrás y aprender de la ciencia mediante una buena formación. Pero, de nuevo, la información puede llegar de alguien que no entiende qué es lo que estamos haciendo; ¡alguien que busca que tiene que existir un castigo en alguna parte! Una variante común de esta afirmación es: “Cuando entrenas, no siempre se le da el perro el premio. Usted está reteniendo la recompensa y eso es castigo”. En realidad no lo es. Mientras no haya ninguna consecuencia que equivoque al perro no es un castigo. Es el trabajo de extinción. La extinción por sí misma no es nada fácil para el perro, pero en general, no la usamos porque sí. Por lo general, otra conducta o varios comportamientos se estarán reforzando, y ayudaremos al animal a hacer la transición hacia esos otros comportamientos. También sabemos y admitimos abiertamente que ciertas herramientas pueden caer fácilmente en el uso aversivo. No es algo nuevo que el collar de toda la vida puede incomodar a un perro. Es por eso que cuando empezamos a utilizar cualquier material con un perro, utilicemos el contracondicionamiento para ayudar al perro a construir asociaciones agradables, y enseñamos los comportamientos con el fin de minimizar la posibilidad de molestar. Esto es lo contrario del uso de las propiedades aversivas del material canino.

6. El entrenamiento con refuerzo positivo es tan estresante para los perros como un entrenamiento basado en aversivos.

El entrenamiento con refuerzo positivo sin duda puede ser estresante. Pero como he escrito en otro lugar, los factores de estrés en general tienen que ver con la falta de habilidad (errores por el entrenador), o una situación aversiva añadida que no estuviese planeada. No es razonable argumentar que un método que consiste en dar comida al perro o jugar con ella cuando realiza una conducta deseable es parecido a un método en el que se utilicen aversivos que dependan de la aplicación de malestar, dolor, o intimidación.

Aspectos comunes

Cada uno de estos puntos se centra en el castigo o en los estímulos aversivos. Está claro que son una dificultad en la comprensión de lo que es un adiestramiento con refuerzo positivo. Estas “afirmaciones” también encajan perfectamente en las dos categorías. Los primeros cuatro puntos falsos sobre el entrenamiento con refuerzo positivo los pintan como algo que es imposible o ineficaz. Los dos últimos puntos desdibujan las líneas entre lo que es un entrenamiento con refuerzo positivo y lo que es un entrenamiento que implique el uso deliberado de aversivos.

En términos retóricos, los cuatro primeros son argumentos falsos y en los dos últimos se usa la “apelación al ridículo” además de un “polisilogismo“.

Pero tan irritante como es leer y escuchar estos argumentos una y otra vez, trato de tener en cuenta qué se pueden hacer desde la ignorancia en lugar de desde la malicia. Esto se describe muy bien en la “falacia del hombre de paja“. Cada uno de nosotros crecimos en una cultura que nos enseñó a utilizar aversivos para tratar de cambiar el comportamiento.

Estoy seguro de que muchas de las personas que hacen estos argumentos están completamente desfamiliarizados con la planificación y la precisión que se necesita en los planes de trabajo con refuerzo positivo.

Fuente: http://ppgworldservices.com/2015/05/20/six-myths-about-positive-reinforcement-based-training/