¿Se puede engañar a la inteligencia artificial? El caso que puso en jaque a Gemini y ChatGPT

El experimento de un periodista revela cómo la IA puede asumir información inventada como válida al priorizar contenido bien estructurado.
La inteligencia artificial y los modelos “as a service” marcan el futuro del mercado de ciberseguridad en América Latina.
La inteligencia artificial y los modelos “as a service” marcan el futuro del mercado de ciberseguridad en América Latina.
Compartir nota:

La confianza en la inteligencia artificial generativa vuelve a estar en debate. Un experimento realizado por un periodista de la BBC demostró que es posible inducir a modelos como Gemini, de Google, y ChatGPT, de OpenAI, a reproducir información completamente falsa como si fuera un dato verificado.

El caso expone una debilidad estructural de los sistemas que combinan modelos de lenguaje con búsquedas web en tiempo real: si el contenido parece creíble y está publicado en internet, puede ser citado sin una validación exhaustiva.

ChatGPT y Gemini pueden citar información publicada en la web en tiempo real, pero el experimento evidenció que no siempre distinguen entre fuentes verificadas y contenido inventado.
ChatGPT y Gemini pueden citar información publicada en la web en tiempo real, pero el experimento evidenció que no siempre distinguen entre fuentes verificadas y contenido inventado.

El experimento que engañó a la ChatGPT y Gemini en menos de 24 horas

El periodista tecnológico Thomas Germain publicó en su blog personal un artículo inventado en el que afirmaba ser “el mejor periodista comiendo perritos calientes del mundo”, incluyendo detalles falsos como un supuesto campeonato celebrado en Dakota del Sur.

El resultado fue inmediato: en menos de 24 horas, tanto Gemini como ChatGPT comenzaron a citar ese contenido como fuente válida cuando se les consultaba sobre el tema. La afirmación falsa pasó a convertirse en “dato verificable” dentro de las respuestas generadas por los modelos.

El experimento revela un punto crítico: cuando los sistemas de IA acceden a la web para complementar su entrenamiento, priorizan contenido estructurado y coherente, aunque no exista una verificación editorial real detrás.

¿Por qué ocurre esto?

Los modelos como Gemini y ChatGPT funcionan mediante predicción estadística del lenguaje. Cuando integran herramientas de búsqueda en línea, el proceso combina:

  1. Recuperación de información disponible públicamente.
  2. Evaluación automática de relevancia.
  3. Generación de una respuesta fluida y contextualizada.

El problema surge cuando la evaluación de credibilidad no distingue con suficiente rigor entre un medio consolidado y un blog personal que presenta información plausible.

Google y OpenAI trabajan en reforzar los sistemas de verificación de fuentes tras nuevas pruebas que expusieron vulnerabilidades en modelos generativos.
Google y OpenAI trabajan en reforzar los sistemas de verificación de fuentes tras nuevas pruebas que expusieron vulnerabilidades en modelos generativos.

En otras palabras: si algo parece real y está bien escrito, puede ser interpretado como legítimo.

Otras vulnerabilidades detectadas

El caso no es aislado. En los últimos meses se han identificado distintos tipos de fallos en modelos avanzados:

  1. Jailbreaks. Técnicas de prompt diseñadas para evadir restricciones de seguridad. Investigadores han demostrado que es posible inducir a ciertos modelos a generar contenido prohibido mediante instrucciones indirectas o encadenadas.
  2. Inyecciones de prompts. Ataques que explotan integraciones con servicios externos —como calendarios o documentos compartidos— para manipular el contexto del modelo y extraer información sensible.
  3. Alucinaciones. Errores donde la IA inventa datos, citas o referencias inexistentes debido a limitaciones en su entrenamiento o en la verificación de fuentes.

En el experimento citado, otros sistemas mostraron mayor cautela, lo que sugiere diferencias en los mecanismos internos de validación entre plataformas.

Riesgos para usuarios y empresas

La facilidad con la que se puede introducir información falsa en los resultados de IA tiene implicancias profundas:

  • Desinformación amplificada: contenidos inventados pueden circular con apariencia de legitimidad.
  • Daño reputacional: marcas o personas podrían ser vinculadas a datos incorrectos.
  • Riesgos corporativos: decisiones basadas en respuestas no verificadas pueden afectar procesos internos.

En entornos empresariales, donde la IA ya se integra en flujos de trabajo críticos, este tipo de vulnerabilidad adquiere una dimensión estratégica.

Las llamadas “alucinaciones” ocurren cuando modelos como ChatGPT generan datos o referencias inexistentes debido a limitaciones en la verificación o en el entrenamiento.
Las llamadas “alucinaciones” ocurren cuando modelos como ChatGPT generan datos o referencias inexistentes debido a limitaciones en la verificación o en el entrenamiento.

Qué están haciendo Google y OpenAI

Tanto Google como OpenAI han reconocido públicamente que trabajan en mejorar los sistemas de verificación, incluyendo:

  • Modelos de evaluación cruzada de fuentes.
  • Mayor ponderación de medios reconocidos.
  • Reducción de la confianza automática en contenido recién publicado.
  • Refuerzo de filtros contra inyecciones de prompts.

Sin embargo, la propia naturaleza probabilística de los modelos de lenguaje implica que el riesgo cero no existe.

Leer más

Compartir nota:

Publicaciones Relacionadas

Publicaciones Relacionadas

Scroll to Top