Agentes de IA en 2025: Capacidades y Tendencias Futuras Definitorias

Marktechpost

En 2025, los agentes de IA han trascendido los constructos teóricos para convertirse en herramientas prácticas, remodelando fundamentalmente cómo las empresas automatizan tareas complejas. En su esencia, un agente de IA es un sistema avanzado impulsado por grandes modelos de lenguaje (LLM), a menudo multimodales, diseñado para percibir información, planificar acciones, utilizar diversas herramientas y operar dentro de entornos de software, todo mientras mantiene un estado consistente para lograr objetivos predefinidos con una supervisión humana mínima. A diferencia de un simple asistente de IA que solo responde consultas, un agente ejecuta activamente flujos de trabajo de varios pasos a través de diversos sistemas de software e interfaces de usuario. Este ciclo dirigido a objetivos típicamente implica percibir y ensamblar contexto de varios tipos de datos, planificar acciones utilizando razonamiento sofisticado, emplear herramientas para interactuar con APIs o sistemas operativos, mantener la memoria y observar continuamente los resultados para corregir el rumbo o escalar problemas.

Hoy en día, estos agentes manejan de manera fiable flujos de trabajo estrechos y bien instrumentados, demostrando una rápida mejora en la interacción con computadoras, tanto en escritorios como en la web, y al abordar procesos empresariales de varios pasos. Su punto fuerte radica en operaciones de alto volumen y ligadas a esquemas, como herramientas para desarrolladores, gestión de datos, autoservicio al cliente e informes internos. Las capacidades específicas incluyen la operación de navegadores y aplicaciones de escritorio para el llenado de formularios y el manejo de documentos, especialmente donde los flujos son predecibles. En contextos de desarrollador y DevOps, los agentes pueden clasificar fallos de pruebas, redactar parches de código para problemas sencillos y automatizar comprobaciones estáticas. Las operaciones de datos se benefician de su capacidad para generar informes rutinarios y redactar consultas SQL con conciencia de esquema, mientras que las operaciones de clientes ven mejoras en la búsqueda de pedidos, las verificaciones de políticas y la iniciación de autorizaciones de devolución de mercancías (RMA), particularmente cuando las respuestas están basadas en plantillas. Sin embargo, su fiabilidad disminuye en escenarios que involucran elementos de interfaz de usuario inestables, autenticación compleja, CAPTCHAs, políticas ambiguas o tareas que requieren conocimiento tácito del dominio no disponible explícitamente a través de herramientas o documentación.

El rendimiento en los puntos de referencia ha evolucionado significativamente, reflejando ahora mejor el uso de computadoras y la web de principio a fin. Los sistemas líderes alcanzan tasas de éxito verificadas del 50-60% en tareas complejas de escritorio y web, mientras que los agentes de navegación web superan el 50% en asignaciones con mucho contenido, aunque persisten los desafíos con formularios intrincados, muros de inicio de sesión y defensas anti-bot. Para tareas orientadas al código, los agentes pueden resolver una fracción significativa de problemas en repositorios curados, aunque la interpretación de estos resultados requiere precaución con respecto a la construcción del conjunto de datos y la posible memorización. En última instancia, los puntos de referencia sirven como herramientas valiosas para comparar estrategias, pero la validación en el mundo real en distribuciones de tareas específicas sigue siendo crucial antes de la implementación en producción.

Los avances en 2025 con respecto al año anterior son notables. Ha habido una convergencia significativa en protocolos estandarizados de llamada a herramientas y kits de desarrollo de software (SDK) de proveedores, lo que reduce la necesidad de código personalizado frágil y simplifica el mantenimiento de flujos de trabajo multitarea. El advenimiento de modelos multimodales de contexto largo, ahora capaces de manejar millones de tokens, soporta tareas complejas de múltiples archivos y análisis de grandes registros, aunque con preocupaciones persistentes sobre el costo y la latencia. Además, la madurez del uso de computadoras ha crecido, con una instrumentación más sólida para las interacciones del Modelo de Objeto de Documento (DOM) y del sistema operativo, una mejor recuperación de errores y estrategias híbridas que evitan las interfaces gráficas de usuario (GUI) con código local cuando es seguro.

Las empresas que adoptan agentes de IA están experimentando beneficios tangibles, particularmente cuando las implementaciones tienen un alcance limitado y están bien instrumentadas. Los impactos reportados incluyen ganancias de productividad en tareas de alto volumen y baja varianza, y reducciones de costos a través de la automatización parcial y tiempos de resolución más rápidos. Sin embargo, son esenciales barreras de seguridad robustas, con muchas implementaciones exitosas que aún incorporan puntos de control de intervención humana (HIL) para pasos sensibles y rutas claras de escalada. La automatización amplia e ilimitada a través de procesos heterogéneos sigue siendo menos madura.

Arquitectar un agente de grado de producción requiere una pila mínima y componible. Esto típicamente implica un tiempo de ejecución de orquestación o de grafo para gestionar pasos, reintentos y lógica de ramificación. Las herramientas se integran mediante esquemas estrictamente tipados, que abarcan búsqueda, bases de datos, almacenamiento de archivos, entornos aislados de ejecución de código, controladores de navegador/SO y APIs específicas de dominio, todo con acceso de menor privilegio. La gestión de la memoria está estratificada, incluyendo borradores efímeros, hilos a nivel de tarea y perfiles de usuario o espacio de trabajo a largo plazo, complementados con generación aumentada por recuperación (RAG) para la fundamentación y la frescura. Un principio clave de diseño es preferir las APIs sobre las interacciones de GUI, reservando el uso de GUI solo donde no exista una API, y empleando “código como acción” para acortar rutas de clic complejas. Los evaluadores rigurosos, incluyendo pruebas unitarias, suites de escenarios fuera de línea y despliegues canary en línea, son vitales para medir continuamente las tasas de éxito, los pasos hacia el objetivo, la latencia y las señales de seguridad. La ética general es un planificador pequeño y enfocado apoyado por herramientas potentes y evaluaciones robustas.

A pesar de sus capacidades, los agentes de IA presentan varios modos de fallo y riesgos de seguridad. Estos incluyen la inyección de prompt y el abuso de herramientas, donde el contenido no confiable manipula al agente, y el manejo inseguro de la salida que lleva a la inyección de comandos o SQL. La fuga de datos es una preocupación debido a ámbitos demasiado amplios, registros no saneados o retención excesiva de datos. Los riesgos de la cadena de suministro de herramientas y plugins de terceros, así como el escape del entorno cuando la automatización del navegador o del SO no está debidamente aislada, también plantean amenazas. Finalmente, los bucles patológicos o contextos sobredimensionados pueden llevar a la denegación de servicio (DoS) del modelo y a disparos de costos. Las mitigaciones implican listas de permitidos, esquemas tipados, envoltorios de herramientas deterministas, validación de salida, entornos aislados, credenciales con ámbito, límites de velocidad, registros de auditoría exhaustivos, pruebas adversarias y red-teaming periódico.

El panorama regulatorio en 2025 está moldeando cada vez más la implementación de agentes. Las obligaciones de IA de propósito general (GPAI) están entrando progresivamente en vigor, influyendo en la documentación del proveedor, las metodologías de evaluación y la notificación de incidentes. Las líneas base de gestión de riesgos se están alineando con marcos ampliamente reconocidos que enfatizan la medición, la transparencia y la seguridad por diseño. Incluso para organizaciones fuera de las jurisdicciones más estrictas, el cumplimiento temprano puede reducir el retrabajo futuro y mejorar la confianza de las partes interesadas.

Evaluar agentes más allá de los puntos de referencia públicos requiere un enfoque de cuatro niveles. El nivel cero implica pruebas unitarias para esquemas de herramientas y barreras de seguridad. El nivel uno utiliza simulaciones, ejecutando tareas de referencia estrechamente alineadas con un dominio específico. El nivel dos emplea pruebas en la sombra o por proxy, reproduciendo tickets o registros reales en un entorno aislado para medir el éxito, los pasos, la latencia y las intervenciones humanas. Finalmente, el nivel tres implica una implementación controlada en producción con tráfico canary, rastreando métricas como tasas de desviación, satisfacción del cliente (CSAT), presupuestos de error y costo por tarea resuelta. La clasificación continua de fallos y la retropropagación de correcciones a los prompts, herramientas y barreras de seguridad son esenciales para la mejora continua.

En cuanto a la gestión del contexto, tanto la Generación Aumentada por Recuperación (RAG) como los modelos de contexto largo ofrecen ventajas distintas y se utilizan mejor en conjunto. Si bien los contextos largos son convenientes para manejar artefactos grandes y trazas extendidas, pueden ser costosos y más lentos. RAG, por el contrario, proporciona fundamentación, asegura la frescura de los datos y ofrece un mejor control de costos. El patrón óptimo implica mantener los contextos ligeros, recuperar información con precisión y persistir solo lo que demostrablemente mejora el éxito de la tarea.

Los casos de uso iniciales sensatos para los agentes a menudo comienzan internamente, abarcando búsquedas de conocimiento, generación de informes rutinarios, higiene de datos, clasificación de pruebas unitarias y garantía de calidad de documentos. Externamente, pueden gestionar verificaciones de estado de pedidos, respuestas ligadas a políticas, iniciación de garantías y revisión de documentos de Conozca a su Cliente (KYC) con esquemas estrictos. La estrategia recomendada es comenzar con un flujo de trabajo de alto volumen y luego expandirse por adyacencia.

Las organizaciones se enfrentan a una decisión de construir, comprar o híbrido. Comprar agentes de proveedores es aconsejable cuando se integran sin problemas con los servicios de Software como Servicio (SaaS) y las pilas de datos existentes. Un enfoque “construir” delgado es adecuado para flujos de trabajo propietarios, utilizando un planificador pequeño, herramientas tipadas y evaluaciones rigurosas. Un modelo híbrido, que combina agentes de proveedores para tareas comunes con agentes personalizados para diferenciadores clave, a menudo logra el equilibrio adecuado. En última instancia, comprender el modelo de costo y latencia es crucial: el costo de la tarea está impulsado principalmente por los tokens de prompt, las llamadas a herramientas y el tiempo de interacción del navegador, mientras que la latencia está influenciada por el tiempo de pensamiento y generación del modelo, los tiempos de ida y vuelta de las herramientas y el número de pasos del entorno, siendo los reintentos, los recuentos de pasos del navegador y el ancho de recuperación los principales impulsores. El “código como acción” puede acortar significativamente las rutas de clic largas, mejorando la eficiencia.