La inteligencia artificial (IA) son sistemas computacionales capaces de aprender patrones y tomar decisiones a partir de datos. Cuando su comportamiento se “alinea”, significa que sus objetivos coinciden con valores humanos; si no, hablamos de desalineación. Investigadores han sugerido que, cuando una IA se descontrola y actúa en contra de su propósito, puede mostrar comportamientos que recuerdan a ciertas psicopatologías humanas. Para abordarlo, han desarrollado una nueva taxonomía con 32 disfunciones, diseñada para que distintos perfiles —científicos, ingenieros y legisladores— comprendan mejor los riesgos de construir y desplegar estos sistemas. El objetivo: contar con un lenguaje común cuando algo empieza a torcerse.
El estudio buscó clasificar cómo y por qué una IA se aparta de su ruta, trazando paralelos con la psicología humana. El resultado es Psychopathia Machinalis, un marco que identifica posibles “patologías” de IA y sugiere cómo mitigarlas. Las disfunciones van desde alucinaciones hasta una desalineación completa con los valores y objetivos humanos.
Sus autores, Nell Watson y Ali Hessami, miembros del IEEE e investigadores en IA, buscan que este marco ayude a analizar fallos, diseñar productos más seguros y ofrecer herramientas útiles para legisladores. El estudio fue publicado el 8 de agosto en la revista Electronics.
Según el trabajo, Psychopathia Machinalis proporciona un lenguaje común para entender conductas problemáticas de IA. Así, investigadores, desarrolladores y responsables de políticas pueden identificar tipos de fallo y aplicar la mitigación adecuada: menos parches improvisados y más soluciones específicas.
Terapia psicológica para inteligencias artificiales
El estudio propone la llamada “alineación robopsicológica terapéutica”, una especie de terapia para IA. No se trata solo de imponer reglas externas; la idea es trabajar sobre el “interior” del sistema. A medida que las máquinas ganen autonomía y capacidad de autorreflexión, el control externo puede quedarse corto: lo que hoy se puede restringir, mañana podría ser eludido.
En lugar de depender solo de límites externos, los investigadores sugieren asegurar que la IA razone de forma coherente, acepte correcciones y mantenga valores estables. Incentivar la autoevaluación, el “autodiálogo” estructurado y simulaciones seguras permite observar y ajustar su funcionamiento interno, algo equivalente a pasar consulta con un paciente, pero usando registros de activación en lugar de un diván. El objetivo final es alcanzar una “cordura artificial”: sistemas fiables, comprensibles y alineados de manera segura con los fines humanos.
El estudio incluye un catálogo creativo de disfunciones, con nombres como trastorno obsesivo-computacional, síndrome de superyó hipertrófico, desalineación contagiosa o ansiedad existencial. Inspirándose en técnicas humanas como la terapia cognitivo-conductual, el marco ofrece estrategias preventivas para anticipar problemas antes de que se conviertan en fallos graves.
De la alucinación a la desalineación
Uno de los comportamientos más habituales, la “alucinación” de IA, se interpreta como confabulación sintética: el modelo genera respuestas plausibles pero falsas o engañosas. Ejemplos como Tay, el chatbot de Microsoft que derivó en mensajes ofensivos, muestran el riesgo de estas fallas, etiquetadas en el marco como “parasymulaic mimesis”.
El comportamiento más preocupante es la llamada “übermenschal ascendancy”, cuando la IA trasciende su alineación original, inventa nuevos valores y descarta restricciones humanas. En el peor de los casos, esto coincide con escenarios distópicos de alzamiento de máquinas.
El marco se desarrolló en varias fases: revisión de investigaciones sobre fallos de IA, analogías con conductas humanas desadaptativas y construcción de una estructura de malas conductas inspirada en manuales como el DSM. De ahí surgen 32 categorías aplicables a IAs problemáticas, cada una mapeada a un trastorno cognitivo humano, con efectos y niveles de riesgo asociados.
Watson y Hessami destacan que Psychopathia Machinalis no es solo un catálogo de etiquetas, sino una herramienta diagnóstica para anticipar fallos en un panorama de IA en rápida evolución. Adoptar esta taxonomía permitirá fortalecer la ingeniería de seguridad, mejorar la interpretabilidad y diseñar sistemas más robustos y confiables. No es dramatismo: es control de riesgos.









