La confianza en la inteligencia artificial generativa vuelve a estar en debate. Un experimento realizado por un periodista de la BBC demostró que es posible inducir a modelos como Gemini, de Google, y ChatGPT, de OpenAI, a reproducir información completamente falsa como si fuera un dato verificado.
El caso expone una debilidad estructural de los sistemas que combinan modelos de lenguaje con búsquedas web en tiempo real: si el contenido parece creíble y está publicado en internet, puede ser citado sin una validación exhaustiva.
El experimento que engañó a la ChatGPT y Gemini en menos de 24 horas
El periodista tecnológico Thomas Germain publicó en su blog personal un artículo inventado en el que afirmaba ser “el mejor periodista comiendo perritos calientes del mundo”, incluyendo detalles falsos como un supuesto campeonato celebrado en Dakota del Sur.
El resultado fue inmediato: en menos de 24 horas, tanto Gemini como ChatGPT comenzaron a citar ese contenido como fuente válida cuando se les consultaba sobre el tema. La afirmación falsa pasó a convertirse en “dato verificable” dentro de las respuestas generadas por los modelos.
El experimento revela un punto crítico: cuando los sistemas de IA acceden a la web para complementar su entrenamiento, priorizan contenido estructurado y coherente, aunque no exista una verificación editorial real detrás.
¿Por qué ocurre esto?
Los modelos como Gemini y ChatGPT funcionan mediante predicción estadística del lenguaje. Cuando integran herramientas de búsqueda en línea, el proceso combina:
- Recuperación de información disponible públicamente.
- Evaluación automática de relevancia.
-
Generación de una respuesta fluida y contextualizada.
El problema surge cuando la evaluación de credibilidad no distingue con suficiente rigor entre un medio consolidado y un blog personal que presenta información plausible.
En otras palabras: si algo parece real y está bien escrito, puede ser interpretado como legítimo.
Otras vulnerabilidades detectadas
El caso no es aislado. En los últimos meses se han identificado distintos tipos de fallos en modelos avanzados:
- Jailbreaks. Técnicas de prompt diseñadas para evadir restricciones de seguridad. Investigadores han demostrado que es posible inducir a ciertos modelos a generar contenido prohibido mediante instrucciones indirectas o encadenadas.
- Inyecciones de prompts. Ataques que explotan integraciones con servicios externos —como calendarios o documentos compartidos— para manipular el contexto del modelo y extraer información sensible.
- Alucinaciones. Errores donde la IA inventa datos, citas o referencias inexistentes debido a limitaciones en su entrenamiento o en la verificación de fuentes.
En el experimento citado, otros sistemas mostraron mayor cautela, lo que sugiere diferencias en los mecanismos internos de validación entre plataformas.
Riesgos para usuarios y empresas
La facilidad con la que se puede introducir información falsa en los resultados de IA tiene implicancias profundas:
- Desinformación amplificada: contenidos inventados pueden circular con apariencia de legitimidad.
- Daño reputacional: marcas o personas podrían ser vinculadas a datos incorrectos.
-
Riesgos corporativos: decisiones basadas en respuestas no verificadas pueden afectar procesos internos.
En entornos empresariales, donde la IA ya se integra en flujos de trabajo críticos, este tipo de vulnerabilidad adquiere una dimensión estratégica.
Qué están haciendo Google y OpenAI
Tanto Google como OpenAI han reconocido públicamente que trabajan en mejorar los sistemas de verificación, incluyendo:
- Modelos de evaluación cruzada de fuentes.
- Mayor ponderación de medios reconocidos.
- Reducción de la confianza automática en contenido recién publicado.
- Refuerzo de filtros contra inyecciones de prompts.
Sin embargo, la propia naturaleza probabilística de los modelos de lenguaje implica que el riesgo cero no existe.
Leer más
- Meta explora una IA para simular usuarios fallecidos en redes sociales
- Cómo generar retorno de inversión con IA según Red Hat
- Spotify integró IA en su flujo de trabajo y asegura que sus equipos técnicos ya no necesitan escribir líneas de código