OpenAI lanza nuevos modelos de voz en tiempo real para traducir, razonar y transcribir conversaciones en vivo

Presentó una nueva generación de modelos de audio para su API en tiempo real. La actualización incorpora razonamiento avanzado, traducción multilingüe y transcripción en streaming para aplicaciones de voz empresariales y agentes conversacionales.

Por: Redacción de ITSitio
11 de mayo 2026

Inteligencia Artificial

Compartir nota:

OpenAI presentó una nueva generación de modelos de voz para su API en tiempo real, una actualización que apunta a transformar la forma en que las aplicaciones entienden, procesan y responden conversaciones habladas.

La compañía lanzó tres nuevos modelos orientados a desarrolladores: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. El objetivo es ampliar las capacidades de los agentes de voz para que puedan no solo escuchar y responder, sino también razonar, traducir y transcribir mientras una conversación ocurre en vivo.

El movimiento refleja un cambio más amplio en la evolución de la inteligencia artificial conversacional. La voz deja de ser una capa de interacción superficial y pasa a convertirse en una interfaz operativa capaz de ejecutar tareas, interpretar contexto y sostener conversaciones complejas en tiempo real.

Según OpenAI, esta nueva generación de modelos busca resolver uno de los principales límites de los sistemas de voz actuales: la dificultad para mantener coherencia contextual mientras interactúan con usuarios reales.

Nuevos modelos de voz en la API de OpenAI

La compañía describe un escenario donde la interacción hablada se convierte en la forma más natural de utilizar software. Esto incluye desde asistentes que ayudan mientras una persona conduce hasta plataformas capaces de gestionar cambios de viaje, atención al cliente o soporte multilingüe sin necesidad de interfaces tradicionales.

En este contexto, OpenAI identifica tres modelos de uso emergentes para la IA de voz.

El primero es “voz a acción”, donde el usuario describe una necesidad y el sistema puede razonar sobre el pedido, utilizar herramientas externas y completar tareas automáticamente. OpenAI menciona el caso de Zillow, que trabaja en asistentes capaces de buscar propiedades, filtrar condiciones y programar visitas mediante conversación natural.

El segundo patrón es “sistemas a voz”, donde aplicaciones empresariales transforman información contextual en guía hablada en tiempo real. Esto habilita experiencias donde un sistema puede anticipar problemas logísticos, reorganizar itinerarios o informar cambios operativos sin intervención manual.

El tercero es “voz a voz”, centrado en traducción conversacional en vivo. Aquí, la IA actúa como intermediaria entre personas que hablan distintos idiomas, manteniendo el ritmo y la continuidad de la conversación. Deutsche Telekom aparece entre las compañías que ya experimentan con este enfoque para soporte multilingüe.

La compañía lanzó tres modelos especializados —GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper— orientados a desarrolladores que trabajan con aplicaciones de voz en tiempo real.

Qué puede hacer GPT-Realtime-2

El modelo principal del lanzamiento es GPT-Realtime-2, definido por OpenAI como su primer sistema de voz con razonamiento de clase GPT-5 orientado a conversaciones en tiempo real.

La diferencia central frente a generaciones anteriores está en la capacidad de sostener una conversación mientras ejecuta procesos internos complejos. El modelo puede utilizar herramientas, manejar interrupciones, recuperarse ante errores y ajustar su tono según el contexto de la interacción.

Entre las novedades técnicas más relevantes aparece la ampliación de la ventana de contexto de 32K a 128K tokens, un cambio que permite sesiones más largas y conversaciones más coherentes. También incorpora niveles configurables de razonamiento para equilibrar latencia y profundidad analítica según el caso de uso.

OpenAI asegura que las mejoras ya muestran impacto en benchmarks especializados de audio. GPT-Realtime-2 obtuvo un 96,6% de precisión en Big Bench Audio frente al 81,4% de GPT-Realtime-1.5. En Audio MultiChallenge, el modelo alcanzó una tasa promedio de aprobación del 48,5%, superando ampliamente la versión anterior.

Para el mercado empresarial, el cambio no pasa únicamente por la calidad de voz. El verdadero diferencial aparece en la capacidad de transformar agentes conversacionales en sistemas capaces de ejecutar flujos operativos completos.

Josh Weisberg, vicepresidente senior y jefe de inteligencia artificial en Zillow, sostuvo que GPT-Realtime-2 mejoró significativamente la confiabilidad de llamadas a herramientas dentro de interacciones complejas de voz. Según explicó, la tasa de éxito de llamadas aumentó de 69% a 95% luego de optimizaciones específicas.

Los nuevos sistemas permiten que la inteligencia artificial no solo escuche y responda, sino que también razone, ejecute tareas y mantenga coherencia en conversaciones complejas en vivo.

Transcripción en vivo con IA

Otro de los lanzamientos centrales es GPT-Realtime-Translate, un modelo orientado a traducción de voz en tiempo real.

El sistema soporta más de 70 idiomas de entrada y 13 idiomas de salida, permitiendo que cada participante de una conversación hable en su idioma mientras recibe traducciones instantáneas.

La complejidad técnica de este escenario es alta. Traducir conversaciones en vivo implica interpretar pronunciaciones regionales, cambios de contexto, velocidad variable y terminología específica sin romper el ritmo natural del diálogo.

OpenAI posiciona esta tecnología para casos de uso en soporte global, educación, ventas internacionales, medios y plataformas de contenido. Vimeo, por ejemplo, mostró implementaciones donde videos educativos pueden traducirse en vivo durante la reproducción.

BolnaAI, empresa especializada en IA de voz para India, señaló que GPT-Realtime-Translate logró tasas de error de palabra un 12,5% inferiores frente a otros modelos probados en hindi, tamil y telugu.

El modelo GPT-Realtime-2 incorpora razonamiento avanzado, uso de herramientas externas y mayor capacidad de contexto para sostener interacciones prolongadas sin perder coherencia.

Casos de uso empresariales

La tercera incorporación es GPT-Realtime-Whisper, un modelo de speech-to-text diseñado para transcripción continua de baja latencia.

El sistema transcribe mientras las personas hablan, permitiendo generar subtítulos, notas automáticas y resúmenes en tiempo real.

En términos operativos, esto habilita nuevos escenarios para centros de soporte, reuniones empresariales, salud, educación y ventas, donde la información conversacional puede transformarse inmediatamente en datos procesables dentro de flujos de trabajo digitales.

La lógica cambia respecto a los sistemas tradicionales de transcripción. Ya no se trata de procesar audio una vez terminada la conversación, sino de convertir la voz en una fuente de datos activa mientras la interacción sucede.

Seguridad, privacidad y costos

OpenAI indicó que la API incorpora múltiples capas de seguridad para prevenir usos indebidos, incluyendo clasificadores activos capaces de detectar conversaciones que violen políticas de contenido dañino. Además, los desarrolladores pueden agregar controles adicionales mediante el Agents SDK.

La plataforma también soporta residencia de datos en la Unión Europea para solicitudes regionales y mantiene los compromisos de privacidad empresarial de OpenAI.

En cuanto a disponibilidad, los tres modelos ya pueden utilizarse dentro de la API en tiempo real.

GPT-Realtime-2 tiene un costo de US$32 por millón de tokens de entrada de audio y US$64 por millón de tokens de salida de audio. GPT-Realtime-Translate costará US$0,034 por minuto y GPT-Realtime-Whisper US$0,017 por minuto.

OpenAI definió precios diferenciados por modelo, orientados a su uso en aplicaciones de voz en tiempo real a escala comercial.

Preguntas frecuentes

¿Qué es GPT-Realtime-2 de OpenAI? GPT-Realtime-2 es un modelo de voz en tiempo real desarrollado por OpenAI que permite mantener conversaciones naturales mientras razona, utiliza herramientas y ejecuta tareas durante la interacción.
¿Qué diferencia hay entre GPT-Realtime-2 y modelos anteriores? La principal diferencia es su capacidad de razonamiento en vivo. El modelo puede entender contexto complejo, manejar interrupciones, ajustar el tono de la conversación y utilizar múltiples herramientas simultáneamente sin perder continuidad.
¿Qué hace GPT-Realtime-Translate? GPT-Realtime-Translate es un modelo de traducción de voz en tiempo real que permite traducir conversaciones entre más de 70 idiomas de entrada y 13 idiomas de salida mientras las personas hablan.
¿Para qué sirve GPT-Realtime-Whisper? GPT-Realtime-Whisper es un modelo de transcripción en streaming diseñado para convertir voz en texto con baja latencia. Puede generar subtítulos, notas y transcripciones en vivo mientras ocurre la conversación.
¿Qué aplicaciones empresariales habilitan estos modelos de voz? Los nuevos modelos permiten crear asistentes conversacionales, soporte al cliente multilingüe, automatización de tareas por voz, transcripción de reuniones, traducción en vivo y agentes capaces de interactuar con sistemas empresariales en tiempo real.