Google presentó Gemini Omni: la IA que quiere convertir cualquier idea en video

La compañía anunció un nuevo modelo multimodal capaz de generar y editar videos a partir de texto, imágenes, audio y grabaciones reales, con foco en conversación, física realista y creación audiovisual.

Por: Redacción de ITSitio
20 de mayo 2026

Inteligencia Artificial

Compartir nota:

Google volvió a poner el foco en la carrera por la inteligencia artificial generativa, pero esta vez con una ambición mucho más amplia que la simple generación de imágenes o texto. Durante Google I/O 2026, la compañía presentó Gemini Omni, un nuevo modelo que busca transformar la forma en que se crean videos, mezclando razonamiento, edición conversacional y capacidades multimodales en un único sistema.

La propuesta de Google apunta a algo más profundo que un simple generador de clips: construir una IA capaz de entender contexto, narrativa, física y referencias visuales para producir contenido audiovisual coherente y editable en tiempo real.

El primer modelo de esta nueva familia se llama Gemini Omni Flash y ya comenzó a desplegarse dentro de la app Gemini, Google Flow y YouTube Shorts.

La gran apuesta: editar videos hablando con la IA

Uno de los principales diferenciales de Gemini Omni es su enfoque conversacional.

En lugar de trabajar mediante comandos aislados o prompts completamente nuevos cada vez, el modelo permite mantener una conversación continua mientras modifica un video existente.

Eso significa que una persona puede pedir cambios sucesivos —alterar una escena, sumar personajes, modificar el ambiente o transformar objetos— sin perder coherencia visual ni continuidad narrativa.

Según Google, Omni mantiene consistencia en personajes, escenarios y movimiento físico incluso después de múltiples modificaciones.

La compañía mostró ejemplos donde una simple grabación cotidiana podía transformarse completamente: espejos líquidos, esculturas hechas de burbujas o ambientes retrofuturistas generados a partir de videos reales.

El movimiento refleja una tendencia cada vez más visible en la industria: la transición desde herramientas de generación estática hacia plataformas de edición dinámica impulsadas por IA.

Del texto al video… y ahora desde cualquier formato

Google explicó que Gemini Omni fue diseñado como un sistema multimodal desde su origen.

Eso significa que puede combinar imágenes, texto, video y audio para crear contenido nuevo de manera integrada.

Por ejemplo, un usuario podría tomar una imagen de referencia, sumar una canción y agregar instrucciones en lenguaje natural para obtener un video completamente nuevo sincronizado con la música y manteniendo determinado estilo visual.

La compañía también mostró capacidades para aplicar efectos específicos, modificar movimientos dentro de una escena o usar dibujos y bocetos como punto de partida para producciones audiovisuales más complejas.

En términos prácticos, Google busca que la creación de video deje de depender exclusivamente de conocimientos técnicos de edición o animación.

Prompt: Una canica rodando rápidamente sobre una pista estilo reacción en cadena, en una toma continua y fluida

Una IA que intenta entender física, narrativa y contexto cultural

Otro de los aspectos más llamativos del anuncio fue el foco que Google puso en la capacidad de “razonar” sobre lo que sucede dentro de una escena.

Según la empresa, Gemini Omni incorpora una comprensión más avanzada de elementos físicos como gravedad, energía cinética y dinámica de fluidos.

La intención es reducir uno de los problemas más notorios de los generadores de video actuales: escenas visualmente impresionantes pero físicamente incoherentes.

Además, Google aseguró que Omni puede apoyarse en los conocimientos generales de Gemini —historia, ciencia, lenguaje y cultura— para construir narrativas más consistentes y explicaciones visuales complejas.

Durante la presentación aparecieron ejemplos educativos y secuencias tipo “explainer”, incluyendo simulaciones en claymation sobre plegamiento de proteínas.

YouTube Shorts y creadores: el territorio donde Google quiere ganar

El lanzamiento de Gemini Omni también deja ver cuál podría ser uno de los grandes campos de batalla de la IA generativa: la economía de creadores.

Google confirmó que Omni Flash estará disponible gratuitamente para usuarios de YouTube Shorts y de la app YouTube Create, una señal clara de que la compañía quiere integrar estas capacidades directamente dentro de su ecosistema de video.

El objetivo parece evidente: simplificar la producción audiovisual para millones de creadores que hoy editan contenido desde el celular y necesitan velocidad, automatización y herramientas más accesibles.

La integración también podría convertirse en una ventaja estratégica frente a competidores como OpenAI, Adobe, Runway o ByteDance, todos acelerando sus desarrollos en generación de video con IA.

Avatares digitales y el desafío de la autenticidad

Google también mostró una función que permitirá generar videos utilizando avatares digitales basados en la propia voz e imagen del usuario.

La compañía aclaró que inicialmente la herramienta estará limitada al uso de la voz propia y que todavía continúan trabajando en los aspectos de seguridad y uso responsable vinculados a la modificación de voces.

El anuncio llega en un contexto donde las preocupaciones sobre deepfakes, desinformación y manipulación audiovisual crecen a la misma velocidad que las capacidades técnicas de la IA.

Por eso, Google remarcó que todos los videos creados con Omni incluirán la marca de agua invisible SynthID, diseñada para identificar contenido generado artificialmente.

Además, la empresa adelantó que trabaja en herramientas de transparencia y verificación para que los usuarios puedan comprender cómo fue creado o editado determinado contenido en internet.

La carrera por el “todo en uno” de la IA

El anuncio de Gemini Omni deja entrever un cambio importante en la competencia tecnológica actual.

Hasta hace poco, las plataformas de IA estaban fragmentadas: una herramienta para texto, otra para imágenes y otra para video. Google parece apostar ahora por sistemas capaces de integrar todas esas modalidades en una única experiencia.

La lógica detrás de Omni es que la IA no solo genere contenido, sino que pueda entender intención, contexto y continuidad creativa.

Con esta estrategia, Google intenta posicionar a Gemini no solo como un chatbot o un asistente, sino como una plataforma creativa integral capaz de participar en procesos de producción audiovisual completos.

Preguntas frecuentes (FAQ)

¿Qué es Gemini Omni?
Es el nuevo modelo multimodal de Google capaz de generar y editar videos utilizando texto, imágenes, audio y referencias visuales.
¿Qué diferencia tiene Gemini Omni frente a otros generadores de video?
Google asegura que Omni incorpora razonamiento contextual, edición conversacional y una comprensión más avanzada de física y continuidad narrativa.
¿Dónde estará disponible Gemini Omni Flash?
El modelo ya comenzó a desplegarse en la app Gemini, Google Flow, YouTube Shorts y YouTube Create para usuarios seleccionados y suscriptores de Google AI Pro y Ultra.

Leer más