ChatGPT superó a los médicos residentes en enfermedades como la fibrosis quística, el asma y las infecciones torácicas, según un estudio presentado en el Congreso de la Sociedad Respiratoria Europea (ERS) en Viena. El estudio también mostró que el chatbot Bard de Google obtuvo mejores resultados que los residentes en algunos aspectos, mientras que Bing de Microsoft se desempeñó al mismo nivel que ellos.
La investigación sugiere que los grandes modelos de lenguaje (LLM) podrían ser útiles para apoyar a médicos en formación, enfermeros y médicos generalistas en la clasificación de pacientes de manera más rápida, ayudando a reducir la presión sobre los sistemas de salud.
El estudio fue liderado por el Dr. Manjith Narayanan, especialista en neumología pediátrica del Royal Hospital for Children and Young People de Edimburgo y profesor clínico honorario en la Universidad de Edimburgo (Reino Unido). Según el Dr. Narayanan, «los grandes modelos de lenguaje, como ChatGPT, han ganado relevancia recientemente por su capacidad de interpretar el lenguaje natural y generar respuestas que imitan conversaciones humanas. Mi objetivo con esta investigación fue evaluar su potencial para ayudar a los médicos en situaciones reales.»
Para llevar a cabo el estudio, la Dra. Narayanan utilizó escenarios comunes en la medicina respiratoria pediátrica, elaborados por seis expertos en la materia, abordando temas como fibrosis quística, asma, trastornos del sueño, disnea e infecciones torácicas. Estos escenarios presentaban casos sin diagnósticos claros y sin evidencia o guías publicadas que ofrecieran una solución específica.
Competencia entre médicos residentes y chatbots
Diez médicos residentes con menos de cuatro meses de experiencia en pediatría tuvieron una hora para resolver cada escenario con respuestas de 200 a 400 palabras, utilizando solo Internet, pero sin acceso a chatbots. Los mismos escenarios fueron presentados a tres chatbots. Seis expertos en neumología pediátrica evaluaron las respuestas en base a corrección, exhaustividad, utilidad, verosimilitud y coherencia, además de identificar si las respuestas provenían de un humano o de un chatbot, con una puntuación máxima de nueve.
ChatGPT 3.5 obtuvo una media de siete sobre nueve, destacándose como el más «humano». Bard alcanzó seis sobre nueve, siendo más coherente que los residentes, pero no superior en otros aspectos. Bing, junto con los residentes, obtuvo una media de cuatro sobre nueve. Los expertos identificaron con claridad las respuestas de Bing y Bard como generadas por chatbots.
La Dra. Narayanan señaló que este es el primer estudio en enfrentar LLM contra médicos residentes en escenarios clínicos reales, permitiendo a los médicos usar todos los recursos de Internet. «Nos enfocamos en el uso práctico de los LLM, mostrando lo cerca que estamos de su aplicación en la práctica clínica diaria», afirmó.
Aunque no se evaluó el uso directo de los LLM con pacientes, se sugiere que podrían apoyar a enfermeras de triaje, médicos en formación y médicos de atención primaria, quienes son los primeros en evaluar a los pacientes.
En cuanto a los riesgos, los investigadores no encontraron ejemplos evidentes de «alucinaciones» de información en ninguno de los chatbots, pero la Dra. Narayanan advirtió sobre la importancia de tener medidas preventivas contra este tipo de errores.
El equipo ahora planea extender el estudio a médicos con más experiencia y a residentes más avanzados, pero subrayan que, antes de integrar la IA en la práctica clínica rutinaria, es esencial asegurar que no genere errores debido a información inventada o sesgos en los datos de entrenamiento. La IA tiene el potencial de transformar la medicina, pero requiere una evaluación exhaustiva en términos de precisión, seguridad y eficiencia organizativa, además de considerar sus implicaciones sociales.