La fiabilidad de ChatGPT en entredicho: el 66% de sus citas son inventadas o erróneas

0
306

Tanto investigadores como otros profesionales recurren cada vez más a la inteligencia artificial para gestionar grandes cargas de trabajo, especialmente en tareas como la búsqueda de bibliografía. Estos modelos están entrenados con una amplia variedad de textos y bases de datos con licencia, lo que les permite producir contenidos que parecen escritos por personas. Por ejemplo, pueden redactar un correo electrónico o resumir un documento casi igual que un humano.

Sin embargo, también sabemos que estas herramientas tienen limitaciones. En ocasiones generan errores o incluso se inventan información. Un ejemplo reciente es el informe presentado en junio por el Secretario de Salud de EE. UU., Robert F. Kennedy Jr., que estaba repleto de citas inexistentes y parecía elaborado rápidamente con un modelo de IA. Esto llevó a un grupo de investigadores de la Facultad de Psicología de la Universidad de Deakin, en Australia, a examinar este problema dentro del ámbito de la salud mental.

No puedes fiarte de ChatGPT para generar referencias académicas

Para analizar esta cuestión, los investigadores diseñaron un experimento que evaluara si los fallos de la IA dependían del tema o del nivel de profundidad requerido en la revisión científica. Su objetivo era medir la tasa de referencias falsas y ver si variaba según el área de estudio.

El experimento utilizó ChatGPT con GPT-4o, un modelo de OpenAI, para revisar seis bibliografías distintas. Se seleccionaron tres trastornos de salud mental con diferentes niveles de investigación disponible: trastorno depresivo mayor, bulimia y trastorno dismórfico corporal. Esta combinación permitía comparar el rendimiento de la IA en temas más y menos estudiados.

Para cada uno de los temas se pidieron dos tipos de revisión: una descripción general de síntomas, impacto social y tratamientos, y otra centrada en la evidencia sobre intervenciones de salud digital. Además, se solicitó un texto de 2.000 palabras que incluyera 20 citas académicas.

Referencias erróneas o directamente inventadas

Cuando la IA generó los textos, los investigadores verificaron todas las referencias en bases de datos fiables como Google Scholar, Scopus y PubMed. Clasificaron los resultados en tres categorías: citas falsas, citas reales con errores y citas precisas.

Las conclusiones fueron claras: dos tercios de las referencias generadas por GPT-4o eran inventadas o contenían errores. Además, la fiabilidad variaba en función del tema. En el trastorno depresivo mayor, el más investigado, solo un 6% de las referencias eran falsas. Este porcentaje subió al 28% en bulimia y al 29% en el trastorno dismórfico corporal. Cuanta menos información tiene la IA sobre un tema, menos fiables son sus resultados.

También se observó que, al pedir una revisión más especializada sobre bulimia, el porcentaje de información incorrecta aumentó hasta el 46%, frente al 17% en la revisión general. Se detectó un patrón similar en los otros trastornos: los textos generales eran más precisos que los específicos.

Cuando un tema es menos conocido, la IA falla más

Estos resultados corresponden únicamente al modelo GPT-4o de OpenAI y al análisis de los tres trastornos mencionados. Futuras investigaciones podrían explorar otros modelos y temas para comprobar si el patrón se repite.

En cualquier caso, la recomendación es clara: la información generada por IA debe utilizarse con cautela y siempre ser revisada por una persona para garantizar su exactitud.

Dejar respuesta

Please enter your comment!
Please enter your name here