
Project Astra: el futuro de los asistentes virtuales según Google
La compañía presentó este proyecto futurista en el marco de su evento anual para desarrolladores, el Google I/O
Durante el Google I/O, el evento anual para desarrolladores que hace Google, se presentaron una serie de innovaciones en inteligencia artificial. Y la joya de la corona fue Project Astra. Esta iniciativa busca transformar radicalmente la interacción humano-máquina. Se trata de un asistente de voz avanzado que integra capacidades visuales y auditivas. Su funcionamiento recuerda mucho al GPT-4o que presentó ayer OpenAI.
Google describió a este proyecto como «el futuro de los asistentes virtuales», ya que sería un súper agente para la vida diaria. Por lo pronto, Project Astra es un prototipo de Google DeepMind, pero ya está dando que hablar.
Un agente de IA más allá de lo convencional
Según se pudo ver en el video que se difundió durante la presentación, Project Astra podría utilizarse desde el móvil (integrado a la app de Gemini) para pedirle que nos describa los objetos que tenemos delante, que nos ayude a resolver algún problema que tenemos escrito en un papel o para que nos recuerde en qué sitio estamos. Todo esto es posible gracias a su capacidad multimodal que le permite procesar texto, audio e imágenes.
Con memoria
Project Astra es la apuesta de Google para crear un agente que no sólo entienda y responda en tiempo real como un ser humano, sino que también recuerde interacciones pasadas para contextualizar sus respuestas. y es esta capacidad de tener memoria lo que le permitiría, por ejemplo, recordar si dejamos los anteojos olvidados en la mesa o sobre la silla.
El enfoque de Google es superar los desafíos actuales de latencia y procesamiento multimodal, que abarca textos, voces, audios y videos, para ofrecer una experiencia de usuario más fluida y conversacional.
Pluralidad de voces
Una parte crucial del desarrollo de Project Astra es la mejora en la síntesis de voz. Google está trabajando para enriquecer la calidad de estos modelos, lo cual permitirá a los agentes manejar una variedad más amplia de tonos y responder de manera más adaptativa al contexto en que se encuentran.

Un asistente integrado en gafas
El video demostrativo terminó mostrando a esta IA integrada a unas gafas con cámara, que le permitían a la usuaria que hacía la demo tener una experiencia más interactiva y fluida
Con este desarrollo, Google busca redefinir la funcionalidad de los agentes de IA. Sin dudas es una apuesta novedosa aunque no deja de estar un paso por detrás del último avance que mostró OpenAI con GPT 4o.
Veo, su modelo más avanzado para hacer videos

Google también presentó Veo, su modelo más avanzado para la generación de videos, y Imagen 3, su modelo de texto a imagen de la más alta calidad hasta ahora. Veo genera videos de alta calidad en resolución 1080p en una amplia gama de estilos cinematográficos y visuales, y puede crear videos que superan un minuto de duración.
Gracias a una comprensión avanzada del lenguaje natural y la semántica visual, Veo genera videos que buscan representar la visión creativa del usuario, capturando con precisión el tono de una indicación y los detalles que hay en las descripciones. El modelo ofrece un nivel de control creativo que llama la atención y entiende términos cinematográficos como «timelapse» o «tomas aéreas de un paisaje».
Veo produce secuencias coherentes y consistentes, donde personas, animales y objetos se mueven de manera realista a lo largo de las tomas. Para descubrir cómo Veo puede apoyar mejor el proceso creativo de los narradores, Google convoca a cineastas y creadores a experimentar con el modelo. A partir de hoy, Veo está disponible para creadores seleccionados en una vista previa privada en VideoFX, y pueden unirse a la lista de espera para participar.