Resolver sudokus revela una de las grandes carencias de la IA: sabe acertar, pero no explicar
Hacer un sudoku en el metro puede parecer un pasatiempo trivial, pero para la inteligencia artificial es mucho más que un juego. Un equipo de la Universidad de Colorado Boulder utilizó más de 2.000 rompecabezas para evaluar a los modelos de lenguaje más avanzados, con un objetivo que va más allá de medir su capacidad lógica: comprobar si son capaces de explicar sus propias decisiones.
El hallazgo fue revelador. Algunos sistemas lograron resolver los sudokus con cierta eficacia, pero casi ninguno pudo justificar los pasos que había seguido. Esta brecha entre acertar y razonar plantea un dilema crucial en el desarrollo de IAs confiables, especialmente en ámbitos sensibles como la salud, las finanzas o el derecho, donde una respuesta correcta no basta: también debe ser comprensible.
Sudokus como banco de pruebas
Para el experimento se usaron versiones de 6×6 casillas, lo bastante complejas como para exigir razonamiento lógico sin requerir matemáticas avanzadas. Todos los rompecabezas fueron generados con el sistema formal Z3, garantizando soluciones únicas y sin ambigüedades, lo que permitió medir con precisión los fallos de cada modelo.
El sistema o1-preview de OpenAI, lanzado en 2023, resolvió alrededor del 65 % de los sudokus, muy por encima de alternativas abiertas como Llama o Mistral, que apenas rozaron el 1 %. Sin embargo, cuando se pidió a la IA que explicara sus soluciones, los resultados se desplomaron: solo un 5 % de las justificaciones fueron consideradas válidas por evaluadores humanos. En claridad apenas llegó al 7,5 % y en valor educativo al 2,5 %.
La importancia de explicar
Los investigadores subrayan que el reto no es solo obtener el número correcto en una casilla, sino exponer las deducciones que llevan a esa decisión. De lo contrario, la máquina puede estar imitando patrones en lugar de razonar de verdad.
En la práctica, esto significa que una IA puede diagnosticar correctamente una enfermedad o recomendar una inversión, pero sin poder explicar por qué, lo que mina la confianza en su uso real. De hecho, los evaluadores detectaron respuestas confusas, reglas inventadas e incluso desvaríos fuera de contexto, lo que confirma que los errores no son anecdóticos, sino sistemáticos.
Mirando hacia adelante
El estudio apunta a la necesidad de modelos híbridos, capaces de combinar el lenguaje natural de los LLM con la solidez de sistemas lógicos formales como los SMT solvers. Así podrían ofrecer explicaciones claras y accesibles sin perder rigor.
La conclusión es clara: una respuesta correcta no es suficiente si no viene acompañada de una justificación transparente. Y ahí, los sistemas de IA actuales todavía están lejos de estar a la altura.









