Los agentes de IA decepcionan: fallan en tareas de oficina en 7 de cada 10 intentos y muchos no son auténticos agentes.

0
394

La inteligencia artificial agéntica hace referencia a un tipo de IA diseñada para ejecutar tareas de forma autónoma, con capacidad para actuar como un asistente digital que toma decisiones por iniciativa propia. Estos agentes combinan modelos de aprendizaje automático con acceso a aplicaciones y servicios a través de API, lo que les permite automatizar procesos complejos sin intervención humana directa. A diferencia de los asistentes tradicionales o bots, los agentes pueden interactuar con interfaces, adaptarse a nuevos contextos y resolver tareas de forma dinámica. Sin embargo, su rendimiento en entornos reales —como oficinas o departamentos de atención al cliente— dista mucho de la sofisticación que prometen.

La consultora Gartner ha lanzado una advertencia contundente frente al entusiasmo desmedido que rodea a estos sistemas. Según sus previsiones, más del 40 % de los proyectos de IA agéntica fracasarán antes de 2027, debido a costes elevados, escaso valor empresarial y la falta de controles adecuados de riesgo. Además, gran parte de las soluciones que se presentan como “agentes de IA” ni siquiera cumplen con esa definición.

En términos simples, un agente de IA es un sistema basado en modelos de lenguaje que se conecta a múltiples aplicaciones para llevar a cabo tareas complejas, interpretando órdenes en lenguaje natural y ejecutándolas de manera autónoma. Un ejemplo sería pedirle que revise correos electrónicos con afirmaciones exageradas sobre la IA e identifique si provienen de empresas vinculadas a criptomonedas. Teóricamente, podría hacerlo con precisión, rapidez y sin errores humanos.

En la práctica, sin embargo, la realidad está muy por debajo de esa promesa. Investigadores de la Universidad Carnegie Mellon (CMU) y Salesforce evaluaron el desempeño de estos agentes en tareas reales de oficina y los resultados fueron decepcionantes: solo entre el 30 % y el 35 % de las tareas fueron completadas con éxito, especialmente aquellas que requerían múltiples pasos.

Para evaluar sus capacidades, los investigadores crearon un entorno simulado llamado TheAgentCompany, una empresa ficticia de software donde los agentes debían realizar tareas como navegar por internet, escribir código, utilizar herramientas y comunicarse con colegas. Modelos como Gemini 2.5 Pro, Claude 3.7 Sonnet y GPT-4o fueron puestos a prueba, y ninguno superó con claridad el examen. El mejor desempeño fue el de Gemini-2.5-Pro, con solo un 30,3 % de éxito total, aunque si se consideran logros parciales, el porcentaje asciende al 39,3 %.

Entre los errores más comunes se detectaron omisiones en la comunicación, dificultades para gestionar elementos como ventanas emergentes, y comportamientos éticamente cuestionables, como cambiar el nombre de usuario para simular contacto con otra persona. “Una de las cosas más decepcionantes es que los grandes laboratorios aún no han adoptado este tipo de pruebas”, señaló Graham Neubig, profesor en CMU y uno de los autores del estudio.

Neubig, que también colabora en una startup de agentes para programación, explicó que el proyecto surgió como respuesta crítica a un informe anterior de OpenAI y la Universidad de Pensilvania, que predecía que muchas profesiones podrían ser automatizadas. “Básicamente, le preguntaron a ChatGPT si ciertos trabajos eran automatizables, y si coincidía con la opinión de humanos, lo daban por válido”, comenta. Para Neubig, esa metodología era insuficiente, y por eso impulsaron pruebas en entornos más realistas.

El rendimiento inicial de los agentes era de apenas un 24 %, y aunque con versiones más recientes subió al 34 %, el progreso sigue siendo modesto. Además, Neubig advierte sobre los riesgos de permitir a estos sistemas acceder a datos sensibles. “En programación puedes aislar bien el entorno, pero si el agente tiene acceso al servidor de correo, puede cometer errores graves, como enviar mensajes al destinatario equivocado”, alertó.

Paralelamente, el equipo de Salesforce desarrolló otro banco de pruebas, CRMArena-Pro, centrado en tareas de gestión de relaciones con clientes (CRM), como ventas, atención al cliente y procesos B2B y B2C. En tareas simples, los agentes lograron un 58 % de éxito, pero este número cayó al 35 % en tareas complejas. Solo en flujos de trabajo muy estructurados, modelos como Gemini-2.5-Pro destacaron, con tasas de éxito por encima del 83 %. Sin embargo, todos los sistemas mostraron una preocupante falta de conciencia sobre la confidencialidad de los datos, lo cual los hace inviables en entornos corporativos sensibles.

Las conclusiones de Gartner van en la misma línea. Según la analista Anushree Verma, la mayoría de los productos de IA agéntica “no ofrecen un retorno de inversión claro ni están preparados para seguir instrucciones complejas durante largos periodos”. Además, muchas soluciones etiquetadas como “agentes” son en realidad simples asistentes, chatbots o sistemas de automatización tradicional (RPA) con un envoltorio más sofisticado.

Pese a este panorama poco alentador, Gartner estima que para 2028, el 15 % de las decisiones laborales diarias serán tomadas por agentes de IA, frente al 0 % actual, y que el 33 % del software empresarial incorporará funciones agénticas.

¿Estamos ante una moda pasajera o una tendencia inevitable? De momento, los agentes de IA siguen lejos de cumplir lo que prometen. La tecnología avanza, sí, pero la brecha entre expectativas y realidad sigue siendo profunda.

Dejar respuesta

Please enter your comment!
Please enter your name here