Bidi 1 llega a ChatGPT: OpenAI apuesta por conversaciones de voz más naturales con IA

OpenAI prepara el lanzamiento de Bidi 1 para ChatGPT, un nuevo modelo de voz capaz de escuchar y hablar al mismo tiempo para lograr conversaciones más naturales.
Bidi 1 podrá escuchar y hablar al mismo tiempo, permitiendo que ChatGPT responda sin perder el contexto de la conversación.
Bidi 1 podrá escuchar y hablar al mismo tiempo, permitiendo que ChatGPT responda sin perder el contexto de la conversación.
Compartir nota:

OpenAI continúa acelerando la evolución de ChatGPT y ya trabaja en una nueva generación de su tecnología de voz. La compañía estaría preparando el lanzamiento de Bidi 1, un modelo de conversación bidireccional capaz de escuchar y hablar de manera simultánea, una característica que promete hacer que las interacciones con la inteligencia artificial sean mucho más fluidas, naturales y cercanas a una conversación entre personas.

La información fue revelada por el portal especializado TestingCatalog, que identificó referencias al nuevo modelo tras analizar el código interno de la aplicación de ChatGPT. De acuerdo con el reporte, el despliegue de esta nueva función podría producirse en los próximos días, aunque hasta el momento OpenAI no confirmó oficialmente su lanzamiento ni dio detalles sobre sus capacidades.

Un salto en la conversación por voz

Desde la presentación del Modo de Voz Avanzado de ChatGPT, OpenAI ha buscado reducir la distancia entre las conversaciones humanas y las mantenidas con una inteligencia artificial. Sin embargo, la llegada de Bidi 1 apunta a resolver una de las principales limitaciones de los asistentes virtuales actuales: la necesidad de esperar a que una persona termine de hablar antes de responder.

Con este nuevo modelo, la IA podrá procesar la información mientras continúa hablando, lo que le permitirá reaccionar en tiempo real ante interrupciones, cambios de tema o nuevas instrucciones sin necesidad de reiniciar la conversación.

Esta capacidad acerca la experiencia a un diálogo natural, donde ambas partes pueden intervenir, hacer pausas o modificar el rumbo de la conversación sin que la interacción resulte forzada.

Cómo funciona Bidi 1

Según la información difundida por TestingCatalog, una de las principales innovaciones de Bidi 1 es que puede escuchar mientras genera respuestas de voz.

En la práctica, esto significa que el usuario podrá interrumpir a ChatGPT en cualquier momento y el sistema adaptará inmediatamente su respuesta. Incluso será capaz de abandonar una tarea para comenzar otra completamente distinta sin necesidad de esperar a finalizar la acción anterior.

Un ejemplo mencionado en las pruebas es el siguiente: si el usuario le pide contar del uno al diez y, mientras lo está haciendo, cambia la instrucción para que cuente hacia atrás, el modelo interrumpe instantáneamente la primera tarea y comienza la nueva sin perder el contexto de la conversación.

Este comportamiento representa una diferencia importante respecto de muchos asistentes de voz actuales, que suelen completar una respuesta antes de aceptar nuevas órdenes.

Conversaciones más naturales

Otra de las novedades de Bidi 1 es la incorporación de señales conversacionales similares a las utilizadas por las personas durante un diálogo cotidiano.

Cuando detecta una pausa o un cambio en el ritmo del habla del usuario, el modelo puede responder con expresiones breves como “ok” o pequeñas confirmaciones que indican que continúa escuchando, generando una sensación de interacción mucho más orgánica.

Además, la inteligencia artificial sería capaz de gestionar mejor las pausas, las interrupciones y los silencios, evitando los tiempos muertos que suelen producirse en los asistentes tradicionales.

Según las pruebas compartidas por TestingCatalog en la red social X, la conversación mantiene un flujo continuo y prácticamente no presenta interrupciones perceptibles entre las intervenciones del usuario y las respuestas de la IA.

Mejor memoria durante la conversación

Otro aspecto destacado del nuevo modelo es su capacidad para conservar el contexto mientras transcurre el diálogo.

Esto permitiría recordar con mayor precisión los temas tratados, interpretar referencias realizadas varios minutos antes y responder de forma coherente incluso cuando la conversación cambia de dirección varias veces.

De acuerdo con las pruebas realizadas por TestingCatalog, actualmente existiría un límite en el tiempo durante el cual el modelo puede hablar de forma continua, aunque logró contar hasta el número 23 sin realizar pausas.

Si bien este comportamiento todavía podría modificarse antes del lanzamiento oficial, ofrece un anticipo de las capacidades que OpenAI está desarrollando para sus futuros asistentes conversacionales.

La estrategia de OpenAI para ChatGPT

La posible llegada de Bidi 1 forma parte de una serie de mejoras que OpenAI viene incorporando a ChatGPT durante los últimos meses.

Recientemente, la compañía centró sus esfuerzos en ampliar la memoria del asistente, permitiéndole recordar preferencias e información relevante del usuario para ofrecer respuestas más personalizadas. También presentó GPT-5.5 Instant, una versión optimizada para ofrecer respuestas más rápidas y eficientes.

En paralelo, distintos reportes indican que OpenAI también estaría preparando una profunda renovación de ChatGPT con el objetivo de convertir la plataforma en una auténtica “superapp”, integrando múltiples herramientas y servicios dentro de una única aplicación.

Aunque la empresa todavía no confirmó oficialmente la existencia de Bidi 1, las filtraciones anticipan un paso importante en la evolución de la inteligencia artificial conversacional. Si finalmente llega a ChatGPT, este nuevo modelo podría marcar un antes y un después en la forma en que los usuarios interactúan con asistentes basados en IA, acercando cada vez más la experiencia a una conversación humana en tiempo real.

Preguntas frecuentes

1. ¿Qué es un modelo de voz multimodal?

Un modelo de voz multimodal es un sistema de inteligencia artificial capaz de procesar diferentes tipos de información al mismo tiempo, como voz, texto e incluso imágenes. Esto le permite comprender mejor el contexto y ofrecer respuestas más precisas durante una conversación.

2. ¿Por qué la latencia es importante en los asistentes de voz?

La latencia es el tiempo que transcurre entre una pregunta del usuario y la respuesta del sistema. Cuanto menor es ese retraso, más natural resulta la interacción. Reducir la latencia es uno de los principales objetivos de las empresas que desarrollan asistentes basados en inteligencia artificial.

3. ¿Qué sectores podrían beneficiarse de los avances en IA conversacional?

Las mejoras en los modelos de voz tienen aplicaciones en múltiples industrias, como atención al cliente, educación, salud, comercio electrónico, banca y productividad empresarial. También pueden facilitar la accesibilidad para personas con discapacidad visual o motriz.

4. ¿En qué se diferencia un asistente de voz basado en IA de uno tradicional?

Los asistentes tradicionales suelen ejecutar comandos específicos o responder consultas simples. En cambio, los modelos impulsados por inteligencia artificial generativa pueden mantener conversaciones más complejas, interpretar el contexto, razonar sobre la información y adaptarse a diferentes estilos de interacción.

5. ¿Qué desafíos enfrenta la inteligencia artificial conversacional?

Entre los principales retos se encuentran mejorar la comprensión de distintos acentos e idiomas, reducir errores de interpretación, proteger la privacidad de las conversaciones y evitar respuestas incorrectas o inventadas. Estos aspectos son claves para lograr una adopción más amplia de la tecnología.

Leer más

Compartir nota:

Publicaciones Relacionadas

Scroll to Top