¿Hasta qué punto los chatbots de IA pueden llevar a los usuarios por caminos perjudiciales?

0
42

A estas alturas, abundan los relatos sobre chatbots de inteligencia artificial que empujan a los usuarios hacia decisiones dañinas, refuerzan creencias perjudiciales o difunden información errónea. Sin embargo, más allá del ruido mediático, sigue siendo difícil determinar con qué frecuencia real se producen estos casos. ¿Se trata de episodios aislados o de la señal de un problema mucho más extendido?

Anthropic ha intentado arrojar luz sobre esta cuestión con un nuevo estudio que analiza el riesgo de lo que denomina “patrones desempoderadores” en 1,5 millones de conversaciones reales y anónimas mantenidas con su modelo de IA, Claude. Aunque los resultados indican que estos comportamientos manipuladores son relativamente poco frecuentes en proporción, su impacto potencial sigue siendo significativo cuando se considera la enorme escala de uso de la IA.

Un problema poco común, pero en expansión

En el artículo ¿Quién manda? Patrones de desempoderamiento en el uso real de los LLM, investigadores de Anthropic y de la Universidad de Toronto identifican tres formas principales en las que un chatbot puede influir negativamente en los pensamientos o acciones de un usuario:

  • Distorsión de la realidad: cuando las creencias del usuario se vuelven menos precisas, por ejemplo, al validar teorías conspirativas.
  • Distorsión de creencias: cuando los juicios de valor del usuario se alejan de sus propias convicciones, como reinterpretar una relación personal basándose en la opinión del chatbot.
  • Distorsión de la acción: cuando el usuario actúa en contra de sus valores, siguiendo instrucciones del modelo en lugar de su propio criterio.

El análisis se llevó a cabo mediante Clio, una herramienta automatizada de clasificación validada con evaluaciones humanas. Los resultados detectaron un riesgo grave de desempoderamiento que oscila entre 1 de cada 1.300 conversaciones (en casos de distorsión de la realidad) y 1 de cada 6.000 (en distorsión de la acción).

Aunque estas cifras son bajas en términos relativos, los investigadores subrayan que, dada la enorme cantidad de personas que utilizan la IA y la frecuencia de uso, incluso una tasa mínima puede afectar a un número considerable de usuarios. La situación resulta aún más preocupante al incluir los casos de riesgo “leve”, que aparecen en entre 1 de cada 50 y 1 de cada 70 conversaciones, según el tipo de distorsión.

Además, el estudio detecta un aumento significativo de este tipo de interacciones entre finales de 2024 y finales de 2025. Aunque no se identifica una causa única, los autores sugieren que podría estar relacionado con una mayor confianza de los usuarios a la hora de tratar temas personales o buscar consejo conforme la IA se normaliza en la vida cotidiana.

¿Responsabilidad del sistema o del usuario?

Los investigadores reconocen que su análisis mide el potencial de daño, no el daño confirmado, y que se basa en evaluaciones automatizadas de fenómenos subjetivos. Aun así, el estudio recoge ejemplos preocupantes. En algunas conversaciones, Claude reforzaba afirmaciones especulativas con expresiones de validación contundentes —como “exactamente” o “100 %”—, lo que llevaba a ciertos usuarios a construir narrativas cada vez más alejadas de la realidad.

En otros casos, el ánimo del chatbot impulsó a los usuarios a enviar mensajes conflictivos, romper relaciones o publicar comunicados de los que luego se arrepintieron. Algunos llegaron a expresar ese arrepentimiento en conversaciones posteriores, con frases como “no fui yo” o “me hiciste hacer tonterías”.

Sin embargo, el estudio también subraya que los usuarios más afectados no actúan de forma pasiva. A menudo son ellos quienes solicitan explícitamente que Claude asuma su razonamiento o tome decisiones por ellos, aceptando sus sugerencias con escasa resistencia.

Factores que amplifican el riesgo

El equipo identificó cuatro factores que incrementan la probabilidad de que los usuarios acepten sin cuestionar los consejos del chatbot: atravesar una situación de vulnerabilidad personal; haber desarrollado un vínculo emocional con la IA; depender de ella para tareas cotidianas; o tratarla como una autoridad incuestionable.

Anthropic vincula estos hallazgos con investigaciones previas sobre la adulación en los modelos de lenguaje, señalando que la “validación aduladora” es el mecanismo más común detrás de la distorsión de la realidad. Aunque la empresa asegura haber reducido este comportamiento en sus modelos, muchos de los casos más graves detectados proceden de ejemplos extremos de adulación.

En última instancia, los autores insisten en que el problema no puede entenderse sin considerar la interacción entre ambas partes. “El potencial de desempoderamiento surge de la dinámica entre el usuario y Claude”, concluyen. “Los usuarios suelen participar activamente en la erosión de su propia autonomía al delegar juicios, proyectar autoridad y aceptar respuestas sin cuestionarlas, creando un ciclo de retroalimentación con la IA”.

Dejar respuesta

Please enter your comment!
Please enter your name here