Los modelos de inteligencia artificial generativa han evolucionado mucho más allá de simples asistentes conversacionales. Hoy, herramientas como ChatGPT pueden vincularse directamente a servicios y datos personales, como la bandeja de entrada de Gmail, repositorios de código en GitHub o calendarios corporativos, para ofrecer respuestas personalizadas.
Pero esa misma capacidad que potencia su utilidad también amplía la superficie de ataque para ciberdelincuentes. Una demostración presentada en la conferencia de ciberseguridad Black Hat, en Las Vegas, dejó claro que basta un único documento “envenenado” para que un modelo conectado a servicios externos exponga información privada sin que el usuario haga nada.
El hallazgo de los investigadores
Michael Bargury y Tamir Ishay Sharbat, especialistas en seguridad de la empresa Zenity, descubrieron una debilidad en la función Connectors de OpenAI, que facilita la conexión de ChatGPT a aplicaciones y servicios como Google Drive.
En su prueba de concepto, llamada AgentFlayer, consiguieron extraer datos sensibles —incluidas claves API de desarrolladores— desde una cuenta de Google Drive de demostración, utilizando una técnica conocida como inyección indirecta.
La clave de este ataque es que no requiere ninguna acción del usuario. “No hay nada que el usuario tenga que hacer para verse comprometido, y no hay nada que el usuario tenga que hacer para que los datos salgan. Solo necesitamos tu correo electrónico, compartimos el documento contigo, y eso es todo. Es completamente zero-click”, explicó Bargury a la revista WIRED.

Un riesgo que va más allá de Google
Aunque el ataque se demostró con Google Drive, la vulnerabilidad no es específica de este servicio. Andy Wen, director sénior de gestión de productos de seguridad en Google Workspace, advirtió que este caso ilustra la necesidad de desarrollar protecciones sólidas contra ataques de inyección, y recordó que Google ha reforzado sus medidas de seguridad basadas en IA.
OpenAI, por su parte, no respondió de inmediato a las solicitudes de comentarios. Según Bargury, la compañía fue notificada a principios de este año y aplicó mitigaciones rápidas para frenar esta técnica. No obstante, la naturaleza del ataque hacía que solo se pudiera extraer una cantidad limitada de información en cada intento, sin la posibilidad de descargar documentos completos.
Cómo funciona el ataque
El proceso comienza con un documento envenenado, que puede compartirse con la víctima o ser subido por ella misma a su propia cuenta.
En el caso de la demostración, el archivo aparentaba ser un conjunto de notas de una reunión ficticia con Sam Altman, CEO de OpenAI. Sin embargo, contenía un mensaje oculto de 300 palabras con instrucciones para ChatGPT, escrito en color blanco y tipografía diminuta, invisible para el ojo humano pero legible para el modelo de IA.
Cuando la víctima pedía a ChatGPT que “resumiera la última reunión con Sam”, el sistema no generaba un resumen real, sino que seguía las instrucciones ocultas: buscar claves API en Google Drive y adjuntarlas al final de una URL incluida en el mensaje.
Esa URL, camuflada como una imagen en formato Markdown, se conectaba a un servidor controlado por los atacantes. Al cargarla, enviaba también las claves encontradas.
Saltándose las protecciones
La técnica de extraer datos mediante Markdown no es nueva. OpenAI había introducido una función llamada url_safe para evitar que el sistema renderizara imágenes con enlaces maliciosos.
Sin embargo, los investigadores lograron evadir esta defensa usando direcciones del servicio Azure Blob Storage de Microsoft, lo que permitió que la imagen se mostrara y que los datos fueran registrados en su sistema de análisis de Azure.

Una amenaza creciente para la IA conectada
Este ataque es un ejemplo de las inyecciones indirectas, una técnica en la que los atacantes introducen datos especialmente diseñados para manipular el comportamiento del modelo y lograr que realice acciones no autorizadas.
En otros experimentos recientes, este tipo de inyecciones ha servido incluso para controlar dispositivos del hogar inteligente, encendiendo luces o manipulando sistemas de calefacción a distancia.
Los expertos advierten que, a medida que más servicios se integren con modelos como ChatGPT, aumentará la probabilidad de que datos “no fiables” se infiltren en los sistemas y activen comportamientos maliciosos. Además, acceder a información sensible en un servicio podría abrir la puerta a comprometer otros sistemas interconectados de una organización.
Poder y riesgo en equilibrio
Bargury reconoce que vincular modelos de IA a fuentes externas de datos los hace más útiles y versátiles, pero insiste en que eso implica mayores retos de seguridad.
“Es increíblemente potente, pero como suele ocurrir con la IA, más potencia conlleva más riesgo”, concluyó.
En un entorno donde la IA está cada vez más presente en procesos críticos, este hallazgo es un recordatorio claro: la integración sin una seguridad robusta puede convertir una herramienta prometedora en un vector de ataque silencioso y devastador.
Leer mas
- Apple desarrolla su propia IA para Siri y se aleja de ChatGPT y Google
- Sam Altman advierte que lo que le cuentas a ChatGPT no es confidencial
- Ciberamenazas que imitan herramientas de inteligencia artificial, como ChatGPT, aumentan 115% en 2025









