Un documento “envenenado” puede filtrar tus datos privados en ChatGPT

Investigadores demostraron en Black Hat cómo un documento “envenenado” puede manipular a ChatGPT para extraer datos sensibles de Google Drive sin que el usuario lo note.
Investigadores demostraron en Black Hat cómo un documento “envenenado” puede manipular a ChatGPT para extraer datos sensibles de Google Drive sin que el usuario lo note.
Compartir nota:

Los modelos de inteligencia artificial generativa han evolucionado mucho más allá de simples asistentes conversacionales. Hoy, herramientas como ChatGPT pueden vincularse directamente a servicios y datos personales, como la bandeja de entrada de Gmail, repositorios de código en GitHub o calendarios corporativos, para ofrecer respuestas personalizadas.

Pero esa misma capacidad que potencia su utilidad también amplía la superficie de ataque para ciberdelincuentes. Una demostración presentada en la conferencia de ciberseguridad Black Hat, en Las Vegas, dejó claro que basta un único documento “envenenado” para que un modelo conectado a servicios externos exponga información privada sin que el usuario haga nada.

El hallazgo de los investigadores

Michael Bargury y Tamir Ishay Sharbat, especialistas en seguridad de la empresa Zenity, descubrieron una debilidad en la función Connectors de OpenAI, que facilita la conexión de ChatGPT a aplicaciones y servicios como Google Drive.

En su prueba de concepto, llamada AgentFlayer, consiguieron extraer datos sensibles —incluidas claves API de desarrolladores— desde una cuenta de Google Drive de demostración, utilizando una técnica conocida como inyección indirecta.

La clave de este ataque es que no requiere ninguna acción del usuario. “No hay nada que el usuario tenga que hacer para verse comprometido, y no hay nada que el usuario tenga que hacer para que los datos salgan. Solo necesitamos tu correo electrónico, compartimos el documento contigo, y eso es todo. Es completamente zero-click”, explicó Bargury a la revista WIRED.

Un ataque de inyección indirecta permitió a investigadores extraer claves API desde Google Drive usando ChatGPT como intermediario.
Un ataque de inyección indirecta permitió a investigadores extraer claves API desde Google Drive usando ChatGPT como intermediario.

Un riesgo que va más allá de Google

Aunque el ataque se demostró con Google Drive, la vulnerabilidad no es específica de este servicio. Andy Wen, director sénior de gestión de productos de seguridad en Google Workspace, advirtió que este caso ilustra la necesidad de desarrollar protecciones sólidas contra ataques de inyección, y recordó que Google ha reforzado sus medidas de seguridad basadas en IA.

OpenAI, por su parte, no respondió de inmediato a las solicitudes de comentarios. Según Bargury, la compañía fue notificada a principios de este año y aplicó mitigaciones rápidas para frenar esta técnica. No obstante, la naturaleza del ataque hacía que solo se pudiera extraer una cantidad limitada de información en cada intento, sin la posibilidad de descargar documentos completos.

Cómo funciona el ataque

El proceso comienza con un documento envenenado, que puede compartirse con la víctima o ser subido por ella misma a su propia cuenta.

En el caso de la demostración, el archivo aparentaba ser un conjunto de notas de una reunión ficticia con Sam Altman, CEO de OpenAI. Sin embargo, contenía un mensaje oculto de 300 palabras con instrucciones para ChatGPT, escrito en color blanco y tipografía diminuta, invisible para el ojo humano pero legible para el modelo de IA.

Cuando la víctima pedía a ChatGPT que “resumiera la última reunión con Sam”, el sistema no generaba un resumen real, sino que seguía las instrucciones ocultas: buscar claves API en Google Drive y adjuntarlas al final de una URL incluida en el mensaje.

Esa URL, camuflada como una imagen en formato Markdown, se conectaba a un servidor controlado por los atacantes. Al cargarla, enviaba también las claves encontradas.

Saltándose las protecciones

La técnica de extraer datos mediante Markdown no es nueva. OpenAI había introducido una función llamada url_safe para evitar que el sistema renderizara imágenes con enlaces maliciosos.

Sin embargo, los investigadores lograron evadir esta defensa usando direcciones del servicio Azure Blob Storage de Microsoft, lo que permitió que la imagen se mostrara y que los datos fueran registrados en su sistema de análisis de Azure.

El hallazgo expone la importancia de reforzar la seguridad de los sistemas de IA conectados a servicios y datos corporativos.
El hallazgo expone la importancia de reforzar la seguridad de los sistemas de IA conectados a servicios y datos corporativos.

Una amenaza creciente para la IA conectada

Este ataque es un ejemplo de las inyecciones indirectas, una técnica en la que los atacantes introducen datos especialmente diseñados para manipular el comportamiento del modelo y lograr que realice acciones no autorizadas.

En otros experimentos recientes, este tipo de inyecciones ha servido incluso para controlar dispositivos del hogar inteligente, encendiendo luces o manipulando sistemas de calefacción a distancia.

Los expertos advierten que, a medida que más servicios se integren con modelos como ChatGPT, aumentará la probabilidad de que datos “no fiables” se infiltren en los sistemas y activen comportamientos maliciosos. Además, acceder a información sensible en un servicio podría abrir la puerta a comprometer otros sistemas interconectados de una organización.

Poder y riesgo en equilibrio

Bargury reconoce que vincular modelos de IA a fuentes externas de datos los hace más útiles y versátiles, pero insiste en que eso implica mayores retos de seguridad.
“Es increíblemente potente, pero como suele ocurrir con la IA, más potencia conlleva más riesgo”, concluyó.

En un entorno donde la IA está cada vez más presente en procesos críticos, este hallazgo es un recordatorio claro: la integración sin una seguridad robusta puede convertir una herramienta prometedora en un vector de ataque silencioso y devastador.

Leer mas

Compartir nota:

Publicaciones Relacionadas

Scroll to Top