
Ideado por el matemático británico Alan Turing en 1950, el test de Turing es una célebre prueba que busca determinar si una máquina puede imitar el comportamiento humano. El experimento consiste en una conversación por texto entre un evaluador humano y dos interlocutores —uno humano y otro una inteligencia artificial— sin que el evaluador sepa quién es quién. Si la máquina logra engañar al evaluador, se considera que ha superado la prueba. No se trata de medir inteligencia en sentido estricto, sino la capacidad de simular una conversación humana de forma convincente.
En un reciente estudio aún pendiente de revisión por pares, el modelo de lenguaje GPT-4.5 de OpenAI logró superar con éxito el test, engañando a evaluadores humanos en un notable 73 % de los casos cuando se le asignaba una personalidad específica. El experimento, desarrollado por investigadores del Laboratorio de Lenguaje y Cognición de la Universidad de California en San Diego, destaca el nivel de sofisticación que han alcanzado las IA conversacionales.
Esta versión moderna del test involucró a unos 300 participantes que interactuaron en línea con dos interlocutores —uno humano y otro artificial— y debían adivinar cuál era la persona real. En ocho rondas, los voluntarios fueron asignados aleatoriamente como interrogadores o como uno de los dos “testigos”, uno de ellos siempre una IA. Se evaluaron distintos modelos, incluidos GPT-4.5, GPT-4o, LLaMA 3.1-405B de Meta y el clásico ELIZA, creado hace más de 80 años.
El elemento clave del éxito de GPT-4.5 fue el uso de «prompts con personalidad», donde se le pedía asumir identidades como la de un joven experto en internet y cultura popular. Con este enfoque, el modelo no solo superó la prueba, sino que fue confundido con un humano incluso más veces que los propios humanos. Los evaluadores fallaron con tanta frecuencia que sus decisiones fueron menos acertadas que si hubieran elegido al azar.
El autor principal del estudio, Cameron Jones, comentó en X (antes Twitter): «Las personas no fueron mejores que el azar para distinguir humanos de GPT-4.5 y LLaMA cuando usaban personalidad. ¡Y 4.5 fue juzgado como humano incluso más veces que los humanos reales!»
La diferencia entre usar o no una personalidad fue determinante. Sin ese «disfraz», GPT-4.5 solo engañó al 36 % de los participantes, mientras que GPT-4o —el modelo que actualmente impulsa a ChatGPT— apenas alcanzó un 21 %, e incluso el antiguo ELIZA lo superó con un 23 %. Esto revela que no solo importa la tecnología subyacente, sino también cómo se le instruye al modelo para interactuar.
Aunque emblemático, el test de Turing no es necesariamente una medida definitiva de inteligencia artificial. Como recordaba el ingeniero de Google François Chollet en Nature (2023), fue concebido más como un experimento mental que como una prueba concreta para aplicar a las máquinas. Aun así, su valor simbólico sigue siendo relevante.
Los modelos de lenguaje —o LLMs, por sus siglas en inglés— están diseñados para predecir palabras a partir de grandes volúmenes de texto. Su habilidad con el lenguaje es tal que, incluso sin comprender a fondo las preguntas, pueden generar respuestas verosímiles. Esto los convierte en expertos en imitación, aunque no necesariamente en comprensión profunda. Por ello, muchos expertos cuestionan si el test de Turing sigue siendo útil como medida de inteligencia, o si ya ha quedado obsoleto frente a las capacidades actuales.
Para Cameron Jones, el estudio no responde a la pregunta de si las IA “piensan” como los humanos. «Creo que es una cuestión muy compleja», señala. «Pero sin duda esto aporta una pieza más al rompecabezas sobre el tipo de inteligencia que muestran los modelos de lenguaje.»
Lo que sí le resulta preocupante es otra implicación: «Los resultados indican que los modelos de lenguaje pueden reemplazar a personas en interacciones breves sin que nadie lo advierta». Esto podría tener consecuencias significativas en el ámbito laboral, la ciberseguridad y en nuestras relaciones sociales.
Jones concluye que el test de Turing no solo pone a prueba a las máquinas, sino también a los humanos: nuestros prejuicios, expectativas y capacidad de adaptación a las nuevas tecnologías. En una era donde las inteligencias artificiales se vuelven cada vez más creíbles, quizá ha llegado el momento de replantearnos qué significa realmente “ser humano”.