OpenAI acelera mejoras en audio y prepara un dispositivo personal sin pantalla

OpenAI apuesta por la voz para una IA siempre presente.
OpenAI apuesta por la voz para una IA siempre presente.
Compartir nota:

OpenAI avanza en una nueva etapa de su estrategia tecnológica con un foco claro: convertir al audio en la interfaz principal de interacción con la inteligencia artificial. Para eso, la compañía reorganizó sus equipos internos y aceleró el desarrollo de modelos de voz de nueva generación, en paralelo al diseño de un dispositivo personal “audio-first” previsto para 2026.

El movimiento confirma un cambio de paradigma. OpenAI busca que la IA deje de depender de pantallas y teclados para convertirse en un asistente siempre disponible, capaz de interactuar de forma continua, natural y contextual.

Qué cambia en los modelos de audio

OpenAI está trabajando en una nueva generación de modelos de audio que apunta a resolver una de las principales limitaciones actuales de los asistentes por voz: la interacción fragmentada. Los sistemas existentes suelen funcionar por turnos —primero habla el usuario, luego responde la IA—, lo que rompe la fluidez de la conversación.

OpenAI trabaja en un dispositivo personal ‘audio-first’, diseñado para interactuar exclusivamente por voz y prescindir de pantallas.
OpenAI trabaja en un dispositivo personal ‘audio-first’, diseñado para interactuar exclusivamente por voz y prescindir de pantallas.

Los nuevos modelos, cuyo despliegue está previsto para el primer trimestre de 2026, permitirán:

  • Generación de voz más natural y expresiva
  • Capacidad de hablar y escuchar al mismo tiempo, como en una conversación humana
  • Gestión de interrupciones y cambios de contexto en tiempo real
  • Menor latencia y mayor precisión frente a los modelos de voz actuales

Este trabajo está liderado por Kundan Kumar, exinvestigador de Character.AI, y busca cerrar la brecha histórica entre el rendimiento de los modelos de texto y los de audio dentro del ecosistema OpenAI.

Un dispositivo pensado para usarse solo con la voz

El avance en audio no es solo una mejora de software. OpenAI también está desarrollando un dispositivo personal sin pantalla, concebido desde su origen para una interacción exclusivamente por voz. El proyecto, conocido internamente como “Gumdrop”, apunta a crear una nueva categoría de hardware.

La compañía explora una familia de dispositivos que podría incluir altavoces inteligentes compactos, wearables o incluso gafas, todos con un denominador común: eliminar la necesidad de pantallas y reducir la fricción en el uso cotidiano de la IA.

Los nuevos modelos de audio de OpenAI permitirán conversaciones más naturales, con capacidad de escuchar y hablar al mismo tiempo, como un diálogo humano
Los nuevos modelos de audio de OpenAI permitirán conversaciones más naturales, con capacidad de escuchar y hablar al mismo tiempo, como un diálogo humano.

Este desarrollo cuenta con la participación de Jony Ive, exjefe de diseño de Apple, tras la adquisición de su firma io. El enfoque combina diseño minimalista con una experiencia centrada en el audio, priorizando interacciones menos invasivas y una menor dependencia de estímulos visuales.

Por qué OpenAI apuesta todo al audio

Desde la propia OpenAI reconocen que el audio es el próximo gran frente de innovación en inteligencia artificial. La voz permite una relación más directa, inmediata y accesible con los sistemas de IA, especialmente en contextos donde escribir o mirar una pantalla no resulta práctico.

En los últimos meses, la empresa ya había avanzado en esta dirección con mejoras en sus APIs de audio y en modelos capaces de transcribir, comprender y generar voz en tiempo real. El paso siguiente es convertir esas capacidades en una experiencia continua, donde la IA pueda acompañar al usuario durante el día sin exigir atención constante.

La apuesta de OpenAI por el audio busca una interacción continua y accesible, permitiendo usar la IA sin depender de pantallas ni teclados.
La apuesta de OpenAI por el audio busca una interacción continua y accesible, permitiendo usar la IA sin depender de pantallas ni teclados.

Hacia una IA más invisible y permanente

La reorganización interna, la inversión en modelos de audio y el desarrollo de hardware propio forman parte de una misma visión: hacer que la inteligencia artificial esté siempre presente, pero sea casi invisible.

Si el plan se concreta, 2026 podría marcar el inicio de una nueva etapa para la IA de consumo, con dispositivos personales que funcionen como asistentes contextuales permanentes y redefinan la forma en que las personas interactúan con la tecnología, sin depender de pantallas ni interfaces tradicionales.

Leer más

Compartir nota:
Redacción de ITSitio

Redacción de ITSitio

Ver Publicaciones
Scroll to Top