Un estudio demuestra que el modelo actual de ChatGPT no es fiable para generar citas bibliográficas
Cada vez más investigadores y profesionales recurren a la inteligencia artificial para agilizar tareas exigentes, como la búsqueda y organización de bibliografía. Estos sistemas están entrenados con grandes volúmenes de textos y bases de datos con licencia, lo que les permite producir contenidos con apariencia humana: pueden redactar un correo electrónico, resumir un documento complejo o preparar una revisión básica de literatura.
Sin embargo, también conocemos sus limitaciones. Con cierta frecuencia, estos modelos proporcionan respuestas incorrectas o directamente inventadas. Un ejemplo reciente fue el informe presentado el pasado junio por el Secretario de Salud de EE.UU., Robert F. Kennedy Jr., que incluía numerosas citas falsas y parecía redactado apresuradamente con ayuda de un sistema de IA. Precisamente por este tipo de problemas, un equipo de la Facultad de Psicología de la Universidad de Deakin (Australia) decidió analizar la fiabilidad de la IA en el ámbito de la salud mental.
ChatGPT falla con frecuencia al generar referencias
Para estudiar esta cuestión, los investigadores llevaron a cabo un experimento destinado a comprobar si los errores dependían del tema tratado o del nivel de conocimiento científico disponible. Así buscaban medir la tasa de invenciones y errores en las citas ofrecidas por la IA y ver cómo variaba según el área analizada.
El experimento se realizó con ChatGPT (modelo GPT-4o), al que se le pidió revisar seis bibliografías distintas. Seleccionaron tres trastornos de salud mental bien documentados —trastorno depresivo mayor, bulimia y trastorno de dismorfia corporal— que representan diferentes niveles de investigación acumulada. Esto permitía comparar el rendimiento del modelo según la cantidad de información disponible en su entrenamiento.
Para cada trastorno se solicitaron dos tipos de revisión:
- Una descripción general de síntomas, impacto social y tratamientos.
- Un análisis de la evidencia disponible sobre intervenciones de salud digital.
La IA debía redactar unas 2.000 palabras e incluir 20 citas académicas por revisión.
Referencias falsas o con errores: dos tercios de las generadas
Una vez obtenidas las revisiones, los investigadores comprobaron cada referencia en bases de datos fiables como Google Scholar, Scopus y PubMed. Clasificaron los resultados en tres categorías: citas inventadas, citas reales con errores y citas correctas.
Los datos fueron claros: dos tercios de las referencias generadas por GPT-4o eran falsas o contenían errores bibliográficos. Además, la fiabilidad variaba notablemente según el tema.
- En el trastorno depresivo mayor —el más investigado— solo un 6% de las citas eran falsas.
- En bulimia el porcentaje subió al 28%.
- En el trastorno de dismorfia corporal alcanzó el 29%.
Cuanto menos estudiado era el tema, peor era el rendimiento: la IA simplemente tenía menos información sólida en la que apoyarse.
También observaron diferencias según el tipo de revisión. En el caso de la bulimia, la revisión especializada contenía un 46% de información incorrecta, frente al 17% de la revisión general. Este patrón se repitió en los tres trastornos analizados.
Temas poco estudiados, más errores de la IA
Los autores del estudio señalan que estos resultados se refieren específicamente al modelo GPT-4o de OpenAI y a los tres trastornos seleccionados. Futuras investigaciones podrían ampliar el análisis a otros modelos de IA y a diferentes áreas científicas para comprobar si la tendencia se mantiene.
Aun así, la conclusión general es clara: las referencias generadas por IA deben ser verificadas por un humano. La IA puede ser una herramienta útil, pero no sustituye la revisión académica ni garantiza precisión bibliográfica.









