Inteligencia Artificial

Nuestra visión para construir un asistente de IA universal

Estamos ampliando Gemini para convertirlo en un modelo mundial que pueda hacer planes e imaginar nuevas experiencias simulando aspectos del mundo.

Por Demis Hassabis, Director ejecutivo y cofundador de Google DeepMind.

Durante la última década, hemos sentado muchas de las bases para la era moderna de la IA, desde ser pioneros en la arquitectura Transformer en la que se basan todos los modelos de lenguaje de gran tamaño, hasta desarrollar sistemas de agentes que pueden aprender y planificar como AlphaGo y AlphaZero.

Hemos aplicado estas técnicas para lograr avances en computación cuántica, matemáticas, ciencias de la vida y descubrimiento algorítmico. Y seguimos redoblando la apuesta por la amplitud y profundidad de nuestra investigación fundamental, trabajando para inventar los próximos grandes avances necesarios para la inteligencia artificial general (IAG).

Por eso estamos trabajando para ampliar nuestro mejor modelo básico multimodal, Gemini 2.5 Pro, para convertirlo en un “modelo mundial” que pueda hacer planes e imaginar nuevas experiencias comprendiendo y simulando aspectos del mundo, tal como lo hace el cerebro.

Gemini 2.5 Pro, el modelo multimodal más avanzado, en camino de convertirse en un asistente de inteligencia artificial universal.
Gemini 2.5 Pro, el modelo multimodal más avanzado, en camino de convertirse en un asistente de inteligencia artificial universal.

Hemos estado dando pasos en esa dirección desde hace un tiempo, desde nuestro trabajo pionero de entrenamiento de agentes para dominar juegos complejos como Go y StarCraft , hasta la creación de Genie 2, que es capaz de generar entornos simulados en 3D con los que puedes interactuar a partir de una única imagen.

Ya podemos ver evidencia de estas capacidades emergiendo en la capacidad de Gemini de usar el conocimiento del mundo y el razonamiento para representar y simular entornos naturales, la profunda comprensión de Veo de la física intuitiva y la forma en que Gemini Robotics enseña a los robots a comprender, seguir instrucciones y adaptarse sobre la marcha.

Convertir a Gemini en un modelo mundial es un paso crucial en el desarrollo de un nuevo tipo de IA más general y útil: un asistente universal de IA. Se trata de una IA inteligente que comprende el contexto en el que te encuentras y que puede planificar y actuar en tu nombre, desde cualquier dispositivo.

Incorporando las capacidades en vivo del Proyecto Astra a nuestros productos

Nuestra visión final es transformar la aplicación Gemini en un asistente de inteligencia artificial universal que realizará tareas cotidianas para nosotros, se ocupará de nuestra administración mundana y mostrará nuevas y deliciosas recomendaciones, haciéndonos más productivos y enriqueciendo nuestras vidas.

Esto comienza con las capacidades que exploramos por primera vez el año pasado en nuestro prototipo de investigación Proyecto Astra , como la comprensión de videos, el uso compartido de pantalla y la memoria.

Durante el último año, hemos integrado funciones como estas en Gemini Live para que más personas puedan disfrutarlas hoy. Seguimos mejorando y explorando constantemente nuevas innovaciones de vanguardia. Por ejemplo, hemos mejorado la salida de voz para que sea más natural con audio nativo, hemos mejorado la memoria y hemos añadido control por computadora.

El modelo Gemini comienza a demostrar capacidades emergentes como la simulación de entornos naturales y la comprensión de la física intuitiva.
El modelo Gemini comienza a demostrar capacidades emergentes como la simulación de entornos naturales y la comprensión de la física intuitiva.

Ahora estamos recopilando comentarios sobre estas capacidades de evaluadores confiables y estamos trabajando para llevarlas a Gemini Live, a nuevas experiencias en Búsqueda , a la API Live para desarrolladores y a nuevos formatos, como anteojos.

En cada etapa de este proceso, la seguridad y la responsabilidad son fundamentales para nuestro trabajo. Recientemente, llevamos a cabo un amplio proyecto de investigación que exploró las cuestiones éticas en torno a los asistentes avanzados de IA , y este trabajo continúa orientando nuestra investigación, desarrollo e implementación.

Construyendo una IA que pueda realizar múltiples tareas por usted

También hemos estado explorando cómo las capacidades de agencia pueden ayudar a las personas a realizar múltiples tareas con el Proyecto Mariner . Este es un prototipo de investigación que explora el futuro de la interacción entre humanos y agentes, comenzando con los navegadores.

Un equipo multidisciplinario trabaja continuamente para garantizar la seguridad y responsabilidad en el desarrollo de la IA.
Un equipo multidisciplinario trabaja continuamente para garantizar la seguridad y responsabilidad en el desarrollo de la IA.

Desde el lanzamiento del Proyecto Mariner en diciembre pasado , hemos estado trabajando en estrecha colaboración con un grupo de evaluadores confiables para recopilar comentarios y mejorar sus capacidades experimentales.

El Proyecto Mariner ahora incluye un sistema de agentes que pueden realizar hasta diez tareas diferentes a la vez. Estos agentes pueden ayudarte a buscar información, hacer reservas, comprar, investigar y mucho más, todo al mismo tiempo.

El Proyecto Mariner actualizado está disponible para los suscriptores de Google AI Ultra en EE. UU. Incorporaremos sus capacidades de uso informático a la API de Gemini y planeamos incorporar más funciones a los productos de Google a lo largo del año. Obtén más información sobre nuestras capacidades de agente en la Búsqueda y la app de Gemini .

Con esto y todo nuestro trabajo innovador, estamos construyendo una IA más personal, proactiva y poderosa, enriqueciendo nuestras vidas, avanzando en el ritmo del progreso científico y marcando el comienzo de una nueva era dorada de descubrimiento y asombro.

Leer más

Autor

[mdx-adserve-bstreet region="MED"]

Publicaciones relacionadas

Botón volver arriba