Seguridad

Cuando la IA se desvía de la realidad: alucinaciones en modelos generativos

Las alucinaciones en la inteligencia artificial generativa representan un desafío crítico que puede comprometer la veracidad de la información en sectores clave como la medicina, el derecho y la ciberseguridad. Este informe profundiza en las causas, riesgos y estrategias para minimizar su impacto en las empresas.


Uno de los problemas actuales más preocupantes de las IA es el de las alucinaciones: respuestas que, aunque lingüísticamente correctas y plausibles, son falsas, inventadas o contradictorias con la realidad. Esto no es un error de programación sino una característica de cómo están diseñados los grandes modelos de lenguaje (LLM). Su impacto en áreas como medicina, derecho, educación, ciencia y Ciberseguridad, puede ser muy grave. En este informe analizamos el tema y desarrollamos ideas para mitigar su impacto en las empresas.

En 1968 Stanley Kubrick mostró en su película “2001 una Odisea Espacial”, una computadora llamada HAL 9000 que tenía una inteligencia artificial capaz de conversar con humanos, interpretar instrucciones y sabotear misiones espaciales. Décadas más tarde, modelos como ChatGPT, Claude o Gemini parecen cumplir con aquella profecía. La diferencia fundamental, y subestimada, es que estas IA modernas no comprenden el mundo, sino que lo imitan. Y en esa imitación, a menudo convincente, aparecen problemas graves como las alucinaciones.

¿Qué significa que una IA alucine?

Cuando un humano alucina, ve o escucha cosas que no existen. En el caso de la Inteligencia Artificial Generativa, el término es una metáfora técnica: un modelo de IA “alucina” cuando genera contenido que no está respaldado por sus datos de entrenamiento ni por hechos verificables del mundo real. Esto puede manifestarse de muchas formas: atribuir una cita falsa a un autor conocido, inventar resultados científicos, fabricar leyes o diagnósticos médicos inexistentes, e incluso crear referencias académicas completas que no existen.

Este fenómeno se ha documentado desde el año 2020, y ha sido objeto de estudios sistemáticos como el de Ji et al. (2023), que proporciona una de las primeras taxonomías formales del fenómeno (https://arxiv.org/abs/2202.03629).

¿Por qué alucinan los modelos de lenguaje?

Para entender por qué ocurre esto, hay que analizar la arquitectura de estas IA. Los modelos como GPT, Claude o LLaMA están basados en transformers (arquitectura de redes neuronales diseñada para procesar secuencias de datos) entrenados sobre grandes conjuntos de información en formato de texto (desde Wikipedia hasta Reddit, libros técnicos, manuales de usuario, artículos científicos, código fuente de programas informáticos y más). Estos modelos aprenden a predecir la siguiente palabra más probable dada una secuencia anterior. No aprenden hechos: aprenden distribuciones estadísticas sobre el lenguaje.

Los modelos de lenguaje como GPT o Claude imitan el lenguaje humano, pero no comprenden los hechos detrás de las palabras.
Los modelos de lenguaje como GPT o Claude imitan el lenguaje humano, pero no comprenden los hechos detrás de las palabras.

El modelo no “sabe” que Albert Einstein ganó el Premio Nobel, sino que ha visto muchas veces que las palabras “Albert Einstein” aparecen cerca de “Premio Nobel”, “relatividad” y “física”. Esto es lo que le permite generar respuestas correctas la mayoría de las veces. Pero cuando la correlación estadística es débil, contradictoria o ambigua, puede derivar en invención pura.

Además, muchos modelos han sido optimizados con técnicas como Reinforcement Learning with Human Feedback (RLHF) (técnica de entrenamiento en la que un modelo de IA mejora su comportamiento mediante aprendizaje por refuerzo guiado por evaluaciones humanas de sus respuestas), que refuerzan no tanto la veracidad, sino la fluidez, la cortesía y la utilidad percibida. Por eso, en lugar de decir “no lo sé”, muchos modelos tienden a inventar respuestas creíbles (https://arxiv.org/abs/2203.02155).

Tipos de alucinación

No todas las alucinaciones son iguales. En los últimos años se han propuesto varias tipologías. Un marco ampliamente adoptado es el que diferencia entre:

  • Alucinaciones intrínsecas, que contradicen directamente la entrada proporcionada. Por ejemplo, un resumen que inventa un hecho no contenido en el texto fuente.
  • Alucinaciones extrínsecas, que introducen información adicional no solicitada ni respaldada por el contexto.
  • Alucinaciones factuales, que implican errores sobre hechos objetivos del mundo (fechas, cifras, biografías, leyes).
  • Alucinaciones sintácticas o semánticas, donde el modelo produce lenguaje gramaticalmente correcto, pero sin sentido o lógica coherente.

Estas clasificaciones se discuten en profundidad en Maynez et al. (2020), centrado en sistemas de resumen automático (https://arxiv.org/abs/2005.00661), y han sido extendidas para aplicaciones en diálogo y generación de código de programación.

Casos reales y consecuencias

En mayo de 2023, un abogado de Nueva York presentó jurisprudencia fabricada por ChatGPT en un caso judicial. El modelo había generado decisiones judiciales inexistentes con nombres, fechas y argumentos perfectamente plausibles. La corte sancionó al letrado, y el caso se convirtió en un símbolo de los peligros de confiar ciegamente en IA generativas (https://www.reuters.com/legal/new-york-lawyers-sanctioned-using-fake-chatgpt-cases-legal-brief-2023-06-22/).

En medicina, los riesgos son aún más graves. Un estudio de DeYoung et al. (2023) evaluó modelos de lenguaje aplicados a la síntesis de evidencia médica y encontró tasas significativas de errores factuales, incluso en tareas de resumen de papers científicos (https://arxiv.org/abs/2301.05689). El peligro de que una IA sugiera un tratamiento inexistente o una contraindicación falsa es real.

¿Cómo se detectan las alucinaciones?

Uno de los desafíos que se presentan es que las alucinaciones no siempre son obvias. Muchas veces, ni siquiera expertos humanos pueden detectarlas sin consultar fuentes externas. Esto ha motivado el desarrollo de métricas y benchmarks especializados.

  • TruthfulQA es un benchmark diseñado para medir qué tan propensos son los modelos a generar afirmaciones falsas en contextos donde los humanos también suelen equivocarse (https://arxiv.org/abs/2109.07958).
  • FactCC es una herramienta que utiliza clasificadores entrenados para detectar inconsistencias entre una fuente original y un texto generado (https://arxiv.org/abs/1910.12840).
  • QAGS propone generar preguntas sobre la información del modelo y contrastarlas con sistemas de QA independientes para verificar su coherencia (https://arxiv.org/abs/2004.04228).

Sin embargo, ninguna métrica es perfecta, y muchas veces la única forma fiable de detectar una alucinación es con un proceso de revisión humana y validación factual externa.

Estrategias de mitigación

Aunque el problema no tiene una solución definitiva, se han propuesto varias estrategias que permiten reducir la frecuencia y la severidad de las alucinaciones.

  1. Generación anclada (Retrieval-Augmented Generation, RAG)

Los modelos se conectan a fuentes de datos estructuradas (como Wikipedia, bases médicas o jurídicas) y generan texto con acceso explícito y referenciado sólo a esas fuentes. Esto mejora la precisión y permite citar fuentes. OpenAI experimentó con esta técnica en WebGPT (https://openai.com/research/webgpt).

  1. Separación de generación y verificación

En lugar de confiar en una única arquitectura, se puede usar un modelo para generar texto y otro para verificarlo. Esto se conoce como generador-verificador, una arquitectura propuesta en múltiples artículos, incluyendo trabajo de Dohan et al. en tareas de QA (Control de Calidad) con validación (https://arxiv.org/abs/2005.11401).

  1. Modelos de dominio específico

Entrenar modelos sobre conjuntos de datos curados y de alta calidad para tareas específicas como diagnóstico médico, resolución legal o traducción científica, reduce el margen de error, aunque también limita la versatilidad.

  1. Transparencia y calibración de confianza

Algunos desarrollos exploran formas para que el modelo exprese su nivel de confianza en una respuesta, o incluso se niegue a responder si la probabilidad de error es alta. Aunque esto puede ir contra los incentivos actuales de Experiencia de Usuario, donde se espera que el modelo “responda siempre”, podría ser un camino de solución para el uso seguro en contextos críticos.

¿Hacia una IA “veraz”?

Las alucinaciones no son un error de programación, sino una consecuencia estructural de cómo están diseñados los modelos. Mientras se siga priorizando la coherencia lingüística sobre la precisión factual, las IA en general y sobre todo las Generativas, seguirán alucinando.

Algunos equipos de científicos están investigando arquitecturas híbridas, como los modelos neuro-simbólicos o los sistemas anclados en grafos de conocimiento, para incorporar formas de razonamiento lógico y factual (https://arxiv.org/abs/2306.11648). Otros exploran paradigmas más radicales, como integrar lógica formal o verificación simbólica directamente en la cadena de inferencia.

Aun así, es poco probable que las alucinaciones desaparezcan del todo. La solución más efectiva a corto plazo no está en intentar encontrar errores o posibilidades de mejora en el código de programación, sino en la cultura de las personas que utilizan IA: formar usuarios conscientes, capaces de interpretar la salida de la IA con escepticismo informado y pensamiento crítico.

El fenómeno de las alucinaciones en IA desafía la confianza en su uso en sectores como medicina, derecho y ciberseguridad.
El fenómeno de las alucinaciones en IA desafía la confianza en su uso en sectores como medicina, derecho y ciberseguridad.

Una empresa que implementa IA ¿puede protegerse de las alucinaciones?

Para las empresas que adoptan modelos de IA Generativa en sus productos, servicios o flujos internos, el fenómeno de las alucinaciones no es una curiosidad técnica: es un riesgo operativo, reputacional y legal. Una IA que inventa cláusulas de contrato, genera diagnósticos médicos falsos o responde con información no verificada puede causar desde pérdida de confianza del cliente hasta litigios.

La buena noticia es que no todo depende del modelo. Existen estrategias organizacionales y técnicas que las compañías pueden, y deben, adoptar para reducir la exposición al error:

  1. No desplegar modelos “out of the box” sin un marco de control

Los LLM generalistas, como GPT-4, Gemini o Claude, no deberían integrarse directamente a flujos críticos sin intermediación, validación o restricción contextual. Deben estar contenidos dentro de pipelines de supervisión, donde su salida se coteje contra fuentes estructuradas, reglas de negocio o validadores humanos.

  1. Incluir capas de verificación automática y humana

Toda respuesta generada que pueda influir en decisiones importantes debe pasar por un verificador de consistencia, ya sea un sistema automático o una instancia humana. Por ejemplo, las respuestas de IA en entornos legales pueden cotejarse con bases como Westlaw o LexisNexis antes de ser aprobadas. En medicina, puede integrarse con sistemas tipo UpToDate o PubMed para validación cruzada.

  1. Limitar el alcance funcional del modelo

En lugar de permitir que el modelo “responda todo”, se puede restringir el dominio a áreas altamente controladas. Muchas empresas implementan sistemas cerrados con prompts limitados, entrenamiento con datos propios y escenarios de uso bien definidos. Esto reduce la superficie de error y alucinación.

  1. Capacitación interna: alfabetización en IA generativa

No basta con tener un modelo bien implementado. Las empresas deben formar a sus empleados en pensamiento crítico ante respuestas generadas. Esto implica conocer los límites de los modelos, saber cuándo desconfiar y cómo responder ante errores. Una cultura de uso consciente es tan importante como la arquitectura técnica.

  1. Auditar y registrar cada interacción

El uso empresarial responsable exige rastreabilidad y auditoría. Las interacciones con modelos generativos deben quedar registradas, especialmente en sectores regulados, para poder justificar decisiones tomadas y evaluar errores en retrospectiva. Este principio es clave en cumplimiento normativo (compliance), seguridad y ética.

  1. Adoptar frameworks de IA responsable

Organizaciones como NIST, ISO, IEEE o la Unión Europea ya han publicado principios y directrices para el desarrollo ético y confiable de IA. Las empresas deberían alinear sus implementaciones de modelos generativos a estos marcos, incluyendo políticas de transparencia, explicabilidad, mitigación de sesgos y veracidad factual.

IA en ciberseguridad: las alucinaciones son el nuevo riesgo

La integración de IA Generativa en las tareas de Ciberseguridad de una empresa es una tendencia innovadora pero compleja de implementar bien. Un nuevo escenario que abarque desde la detección de amenazas en lenguaje natural hasta generación automatizada de reglas de firewall, resulta atractivo porque aumenta la velocidad, cobertura y adaptabilidad de la Cibersegurirdad, pero también incorpora nuevos riesgos.

Cuando se utiliza una IA Generativa en un entorno de seguridad, por ejemplo, para redactar políticas, interpretar logs, o sugerir remediaciones, una alucinación no es simplemente un error: puede traducirse en una regla inválida, una omisión crítica, o una respuesta inadecuada ante un incidente. En el peor de los casos, una IA mal supervisada podría sugerir deshabilitar protecciones por interpretar erróneamente una alarma.

Para mitigar estos riesgos, las empresas que implementan IA en su Ciberseguridad, deben aplicar una serie de medidas específicas:

  1. Anclar la IA a datos reales y actualizados del entorno

Las herramientas de Ciberseguridad con IA Generativa deben integrarse con fuentes internas confiables, como SIEM, EDR, XDR, IDS, CMDB y logs reales, y no operar sobre inputs genéricos. Esto permite que las sugerencias de la IA estén ancladas en evidencia operativa real y no en patrones estadísticos aprendidos en bases de conocimiento abiertas y compartidas.

  1. Bloquear la ejecución de acciones automáticas sin supervisión humana

Las salidas de modelos generativos deben ser vistas como sugerencias, no comandos operativos. Ningún modelo debería tener permisos para modificar directamente configuraciones, eliminar reglas o activar scripts de contención sin validación humana o, al menos, el filtrado por parte de un sistema determinista.

  1. Usar modelos especializados y acotados

En lugar de usar LLMs generalistas, se recomienda implementar soluciones de IA para Ciberseguridad basadas en modelos específicos sobre conjuntos de datos curados, con lenguaje técnico preciso y sin ambigüedades. Algunos entornos adoptan modelos de dominio adaptados a bases de conocimiento como MITRE ATT&CK, STIX, YARA o lenguaje Sigma para asegurar precisión semántica y control contextual.

  1. Diseñar sistemas con redundancia analítica

Una buena práctica es usar modelos múltiples y heterogéneos: uno para detectar, otro para sugerir mitigaciones y un tercero para verificar si la recomendación es válida. Este enfoque en capas introduce redundancia lógica y reduce el impacto de una alucinación individual.

  1. Integrar trazabilidad y rendición de cuentas

Cada sugerencia generada debe quedar auditada con metadatos, incluyendo versión del modelo, contexto de entrada y nivel de confianza. Esto no solo permite análisis forense ante incidentes, sino que habilita ciclos de mejora continua del modelo.

  1. Capacitación del equipo de Ciberseguridad

El personal de Ciberseguridad debe recibir formación específica en evaluación crítica de salidas generadas por IA. Esto incluye identificar alucinaciones, reconocer signos de sobreajuste o inconsistencia y saber cuándo escalar una situación a un analista humano de nivel superior.

Conclusión

Los modelos generativos actuales son buenos narradores, pero poco confiables. Manejan el lenguaje humano con algunas limitaciones, pero no distinguen entre verdad y ficción. En muchos casos, esta capacidad de generar explicaciones es útil, pero cuando se espera precisión, las alucinaciones pasan a ser peligrosas.

A medida que la IA generativa se integra en la medicina, el periodismo, la ciencia, el derecho y la Ciberseguridad, se hace necesario desarrollar sistemas que no solo hablen bien, sino expongan información real. Y hasta que eso ocurra, lo “automático” no existirá, porque la responsabilidad de verificar cada afirmación seguirá recayendo en las personas.

Leer mas

Autor

  • Gustavo Aldegani

    Experto en Ciberseguridad, con 30 años de experiencia en Implementación de Sistemas Informáticos Seguros en organizaciones militares, de gobierno y privadas de Estados Unidos y América Latina. Profesor de la Universidad de Belgrano, escritor y conferencista.

    Ver todas las entradas

[mdx-adserve-bstreet region="MED"]

Gustavo Aldegani

Experto en Ciberseguridad, con 30 años de experiencia en Implementación de Sistemas Informáticos Seguros en organizaciones militares, de gobierno y privadas de Estados Unidos y América Latina. Profesor de la Universidad de Belgrano, escritor y conferencista.

Publicaciones relacionadas

Botón volver arriba