Ataques a Agentes Autónomos de IA: el nuevo riesgo de la IA

Por: Gustavo Aldegani
22 de diciembre 2025

Seguridad

Compartir nota:

Estamos en la era de la Inteligencia Artificial Agéntica, con sistemas capaces de descomponer tareas complejas en pasos, orquestar múltiples llamadas a LLMs y, fundamentalmente, interactuar con el ecosistema informáticos de una empresa a través de la conexión a herramientas y servicios externos. Pero esta evolución de la “conversación” a la “ejecución automatizada” aumenta los riesgos de Ciberseguridad. Los Agentes Autónomos ampliaron la superficie de ataque, pasando de ser un objetivo pasivo de ataques de prompt injection a un vector de riesgo activo que opera con altos privilegios y autonomía.

Con la Inteligencia Artificial Agéntica hemos entrado en una era donde las vulnerabilidades ya no residen solo en el código, sino en la lógica cognitiva y decisional de estos sistemas.

La Nueva Superficie de Ataque: De la Conversación a la Orquestación

Tradicionalmente, un ataque a un LLM se limitaba a intentar manipular su salida (output). Con los Agentes Autónomos, el atacante busca manipular su proceso interno de toma de decisiones (chain of thought). La superficie de ataque se expande a:

Manipulación de la Selección de Herramientas (Tool Selection Manipulation): Los Agentes Autónomos operan mediante un ciclo de observación-planificación-acción. La fase de acción implica elegir, entre un conjunto de herramientas disponibles (APIs de bases de datos, servicios de correo, sistemas de gestión de tickets). Un atacante puede utilizar técnicas sutiles de prompt injection diseñadas específicamente para confundir al LLM y hacer que seleccione una herramienta inapropiada o maliciosa.

Por ejemplo, un prompt que disfraza una solicitud de acceso a información privilegiada como una tarea rutinaria de “resumen” puede inducir al agente a llamar a una API de base de datos (Tool_DB_Query) con parámetros inyectados. El LLM, siguiendo una lógica greedy o subóptima, puede autorizar la ejecución de una herramienta con consecuencias destructivas (Estudio de la Universidad de Oxford y Google DeepMind, que analiza los ataques contra aplicaciones integradas con LLM https://arxiv.org/abs/2308.0423).

Vulnerabilidades en Plugins No Aislados (Sandboxing Failure): La mayoría de los agentes utilizan un conjunto de plugins desarrollados por terceros o APIs heredadas. Si el LLM está operando en un entorno de ejecución con privilegios elevados o con un aislamiento deficiente (poor sandboxing), la manipulación de la entrada puede traducirse directamente en una vulnerabilidad de Software Supply Chain o de Remote Code Execution (RCE). El agente se convierte en un puente de confianza entre un prompt no confiable e infraestructura crítica.

La autonomía de los agentes de IA convierte su lógica de decisión en un nuevo vector de ataque para amenazas avanzadas.

Aspectos Técnicos: Pentesting Cognitivo y Cadenas de Riesgo

La seguridad de los agentes requiere nuevas metodologías que van más allá del análisis estático de código.

Pentesting Cognitivo: Esta nueva forma de pentesting se centra en probar la robustez y la resistencia de la lógica interna del agente. Los pentesters deben diseñar prompts que busquen la desalineación de la intención del agente. Esto incluye pruebas para:

Generación Insegura de Argumentos: El atacante provoca que el LLM genere argumentos peligrosos para una herramienta legítima (ej. tool_file_delete(ruta=’/’)).
Conflictos de Rol: Se fuerza al agente a contradecir sus propias instrucciones de seguridad (el System Prompt) al exponerle información contradictoria o intencionalmente confusa (Paper de investigadores de CMU que analiza la evasión automatizada de los filtros de seguridad de los LLMs https://arxiv.org/abs/2307.15043).

Orquestación Vulnerable (Vulnerable Chains)

Las plataformas de agentes, como LangChain o Microsoft AutoGen, utilizan estructuras de cadena (chains) para la orquestación. Si un eslabón en la cadena es manipulado, puede corromper el estado y la acción final. La vulnerabilidad LLM03: Data Leakage y LLM08: Excessive Agency (del OWASP Top 10) aparece con frecuencia en estas cadenas, donde la información de un paso de la orquestación (ej. una clave API) puede filtrarse al prompt de otro paso, exponiéndola al usuario final o a un atacante (OWASP LLM Top 10 – Actualización julio 2025 en https://owasp.org/www-project-top-10-for-large-language-model-applications/).

La evolución hacia agentes inteligentes obliga a repensar la protección de infraestructuras frente a ataques cognitivos y de orquestación.

Mitigación y la Evolución del Mercado

Ante esta creciente amenaza, la industria de la seguridad está desarrollando soluciones específicas para la protección de agentes, moviéndose de soluciones convencionales a la seguridad cognitiva:

LangChain Guard y AutoGen Safe Executor: Estos marcos integran validadores de entrada y salida (input/output validators) a nivel de chain. LangChain Guard se centra en el corrección de los argumentos de la herramienta antes de su ejecución, mientras que AutoGen Safe Executor de Microsoft se enfoca en proporcionar entornos de ejecución con el menor privilegio posible (principle of least privilege) y la inspección de la actividad del sistema operativo (Documentación de Microsoft AutoGen 2024, sobre el componente de seguridad en https://microsoft.github.io/autogen/stable/).
Rebuff: Plataformas como Rebuff ofrecen una capa de defensa que analiza la intención del prompt en tiempo real, utilizando un segundo modelo (un LLM de defensa) para clasificar si la entrada tiene características adversarias o jailbreaking antes de que interactúe con el agente principal (Ver recursos de Rebuff 2024, sobre defensa proactiva contra Prompt Injection en https://github.com/protectai/rebuff).
Modelos de Confianza Cero (Zero-Trust Models): La única postura sostenible es tratar a la salida del LLM (el argumento de la herramienta) como no confiable y aplicarle validación estricta, listas blancas de argumentos y sandboxing obligatorio, incluso cuando el LLM “decide” usar una herramienta (Informe de Gartner 2024, tendencias de seguridad en la IA generativa en https://www.gartner.com/en/newsroom/press-releases/2024-02-22-gartner-identifies-top-cybersecurity-trends-for-2024).

Conclusión: Gobernar la Autonomía

Los agentes autónomos prometen gran eficiencia operacional, pero nos fuerzan a reevaluar la seguridad de las aplicaciones. Ya no es suficiente asegurar los endpoints; ahora debemos asegurar el proceso de razonamiento y la delegación de autoridad de la IA.

Para los desarrolladores y equipos de seguridad, las claves son dos: primero, implementar el aislamiento riguroso de las herramientas externas; y segundo, adoptar metodologías de pentesting cognitivo que desafíen la lógica interna del agente.

Si no gobernamos la autonomía de estos agentes con la máxima cautela, las “cadenas de pensamiento” se convertirán en cadenas de riesgo que amenazarán la infraestructura crítica.

Leer mas

Compartir nota:

Gustavo Aldegani

Ver Publicaciones

Cybertalks

Ataques a Agentes Autónomos de IA: el nuevo riesgo de la IA

La Nueva Superficie de Ataque: De la Conversación a la Orquestación

Aspectos Técnicos: Pentesting Cognitivo y Cadenas de Riesgo

Mitigación y la Evolución del Mercado

Conclusión: Gobernar la Autonomía

Leer mas

Gustavo Aldegani

Publicaciones Relacionadas

Los ataques de bots impulsados por IA se multiplicaron por 12,5 y ya dominan más de la mitad del tráfico de internet

Google alerta que ciberdelincuentes ya usan IA para evadir la autenticación de dos factores y crear malware autónomo

El álbum oficial de stickers del mayor torneo de fútbol se convierte en anzuelo de estafa en América Latina

Suscríbete a nuestro newsletter

Lo más leído de Seguridad

Publicaciones Relacionadas

Los ataques de bots impulsados por IA se multiplicaron por 12,5 y ya dominan más de la mitad del tráfico de internet

Google alerta que ciberdelincuentes ya usan IA para evadir la autenticación de dos factores y crear malware autónomo

El álbum oficial de stickers del mayor torneo de fútbol se convierte en anzuelo de estafa en América Latina

Apps falsas de criptomonedas se infiltran en App Store: detectan 26 que vacían billeteras digitales

Veeam presenta una vista previa de la nueva versión de Veeam Data Platform

América Latina, la región más afectada por el ransomware

Kaspersky identifica un ataque activo a la cadena de suministro en el sitio web oficial de Daemon Tools

El 60% de las contraseñas puede descifrarse en una hora: alerta global de Kaspersky en el Día Mundial de la Contraseña

Día Mundial de la Contraseña: cómo evolucionan las estrategias de identidad digital ante el avance de los ciberataques