Voxtral, el nuevo modelo de IA de voz de Mistral que entiende audios largos en varios idiomas

Por: Redacción de ITSitio
17 de julio 2025

Inteligencia Artificial

Compartir nota:

La startup francesa Mistral, reconocida por su firme defensa de los modelos de inteligencia artificial abiertos, ha presentado oficialmente Voxtral, su primer modelo de voz open source. Con capacidades de transcripción y comprensión de audio avanzadas, multilingüismo y accesibilidad, Voxtral promete ser una alternativa robusta frente a las soluciones cerradas de gigantes como OpenAI, Google y ElevenLabs.

El modelo, que ya se encuentra disponible de manera gratuita y bajo la licencia Apache 2.0, puede transcribir audios de hasta 30 minutos y comprender el contenido de grabaciones de hasta 40 minutos. Estas funciones no solo incluyen la transcripción precisa de los audios, sino también la posibilidad de responder preguntas sobre el contenido, generar resúmenes estructurados e incluso ejecutar acciones mediante comandos hablados.

Voz como interfaz natural

Desde su origen, Mistral ha buscado posicionarse como uno de los principales referentes europeos de la IA abierta. Con Voxtral, la compañía profundiza en esa visión al presentar una herramienta pensada para una de las formas más naturales de interacción entre humanos y máquinas: la voz. En un comunicado oficial, la empresa destacó su compromiso con ofrecer herramientas de transcripción “excepcionales”, una comprensión profunda y fluida en múltiples idiomas y una implementación abierta y flexible.

La familia de modelos Voxtral está compuesta por dos variantes principales: Voxtral Small (24B parámetros), diseñada para entornos de producción a gran escala, y Voxtral Mini (3B parámetros), optimizada para aplicaciones locales o implementaciones en el edge. Próximamente, también se habilitará un endpoint optimizado exclusivamente para tareas de transcripción, lo que reforzará aún más su facilidad de uso para desarrolladores y empresas.

Precisión, velocidad y flexibilidad

Uno de los puntos más destacados del lanzamiento es la capacidad de Voxtral para procesar audios con precisión de vanguardia. Gracias a su arquitectura basada en el modelo Mistral Small 3.1, Voxtral no requiere combinar sistemas separados de reconocimiento de voz (ASR) y modelos de lenguaje (LLM), lo que simplifica la implementación y reduce la latencia.

El modelo cuenta con una longitud de contexto de 32.000 tokens, lo que le permite analizar audios extensos con alta comprensión semántica. Según la empresa, esta capacidad no solo permite transcripciones detalladas, sino también interpretaciones contextuales, generación de resúmenes y respuestas a consultas específicas sobre el contenido del audio.

A diferencia de otras soluciones comerciales, Voxtral permite a los usuarios activar flujos de trabajo, llamadas API o acciones específicas directamente mediante comandos de voz, lo que representa una evolución significativa en términos de interacción por voz. Esta funcionalidad puede integrarse fácilmente en asistentes virtuales, aplicaciones empresariales o herramientas de automatización, abriendo un nuevo abanico de posibilidades para la inteligencia de voz.

La API de Voxtral permite integrar transcripción, comprensión y activación de funciones por voz a bajo costo y con flexibilidad total.

Multilingüismo real

Otro de los diferenciales clave de Voxtral es su soporte multilingüe nativo. El modelo detecta automáticamente el idioma del audio y ofrece un alto rendimiento en inglés, español, francés, portugués, hindi, alemán, holandés e italiano, entre otros. Esta característica resulta especialmente atractiva para empresas con operaciones internacionales, proyectos educativos o productos dirigidos a audiencias globales.

Una alternativa a los modelos cerrados

Con Voxtral, Mistral apunta directamente a una de las tensiones más notorias del ecosistema actual de IA: la diferencia entre los modelos de código cerrado de las grandes tecnológicas y las soluciones abiertas y colaborativas. Mientras empresas como OpenAI ofrecen APIs potentes pero bajo estructuras cerradas y licencias restrictivas, Mistral propone un enfoque diametralmente opuesto: acceso libre, documentación clara y colaboración comunitaria.

La compañía ha asegurado que Voxtral Mini supera en rendimiento-precio al modelo Whisper de OpenAI, especialmente en casos de uso con presupuestos ajustados. Además, para aplicaciones más exigentes, Voxtral Small iguala la precisión de servicios premium como ElevenLabs Scribe, según los propios datos de Mistral.

Accesibilidad y democratización

Uno de los pilares del proyecto es su accesibilidad económica. La API de transcripción de Voxtral ofrece precios desde 0,001 dólares por minuto, lo que puede significar una democratización real del acceso a tecnología de IA de voz para pequeñas y medianas empresas, desarrolladores independientes o instituciones educativas.

Además, Mistral ha confirmado que en las próximas semanas Voxtral estará disponible gratuitamente para todos los usuarios en su asistente Le Chat, lo que permitirá explorar sus capacidades sin necesidad de infraestructura adicional. También se puede probar directamente a través de Hugging Face, lo que facilita su integración en entornos de prueba o investigación.

IA de voz usable, accesible y europea

Este nuevo modelo de Mistral se suma a una serie de iniciativas que buscan reforzar la posición de Europa en la carrera global por el liderazgo en inteligencia artificial. Tras lanzar Magistral (su familia de modelos de razonamiento), la compañía continúa avanzando en su misión de ofrecer herramientas abiertas, potentes y adaptables.

Con Voxtral, Mistral no solo lanza un modelo de voz, sino que plantea una visión más abierta, democrática y funcional del futuro de la inteligencia artificial conversacional. Frente a los muros tecnológicos de las plataformas cerradas, propone una IA usable y asequible, capaz de transformar la forma en que nos comunicamos con las máquinas.

Leer mas

Compartir nota:

Redacción de ITSitio

Ver Publicaciones

Mistral

Voxtral, el nuevo modelo de IA de voz de Mistral que entiende audios largos en varios idiomas

Voz como interfaz natural

Precisión, velocidad y flexibilidad

Multilingüismo real

Una alternativa a los modelos cerrados

Accesibilidad y democratización

IA de voz usable, accesible y europea

Leer mas

Redacción de ITSitio

Publicaciones Relacionadas

EE.UU v/s China: la carrera geopolítica detrás de la Inteligencia Artificial

IBM y Red Hat lanzan Lightwell: nuevas soluciones para asegurar el open source en la era de la IA

Sam Altman asegura que ya vivimos la singularidad de la IA

Suscríbete a nuestro newsletter

Lo más leído de Inteligencia Artificial

Publicaciones Relacionadas

EE.UU v/s China: la carrera geopolítica detrás de la Inteligencia Artificial

IBM y Red Hat lanzan Lightwell: nuevas soluciones para asegurar el open source en la era de la IA

Sam Altman asegura que ya vivimos la singularidad de la IA

Las empresas esperan recuperar la inversión en IA, pero la mayoría aún no logra escalarla

Día de la Inteligencia Artificial: productividad, creatividad y gaming desde el dispositivo

IA y mercado laboral: el desafío que enfrentan los empleados junior en la nueva era del trabajo

Lenovo ya opera con un 90% de electricidad renovable y fija nuevas metas de sostenibilidad

Cuando la IA empiece a mover dinero, la pregunta ya no será ¿Quién eres?, sino ¿Quién decidió?

Meta transforma su asistente de IA: ahora puede planificar, investigar y ejecutar tareas de forma autónoma