NVIDIA libera como open source el modelo de animación Audio2Face

Por: Redacción de ITSitio
26 de septiembre 2025

Gaming

Compartir nota:

NVIDIA liberó como open source los modelos y el SDK de Audio2Face, de modo que cada desarrollador de videojuegos y aplicaciones 3D pueda crear y desplegar personajes de alta fidelidad con animaciones de vanguardia. NVIDIA también liberará como open source el Audio2Face Training Framework, para que cualquier persona pueda ajustar y personalizar modelos preexistentes según lo desee.

NVIDIA Audio2Face acelera la creación de personajes digitales realistas mediante animación facial y lip-sync en tiempo real impulsados por IA generativa. A partir de una entrada de audio, la tecnología analiza características acústicas como fonemas y entonación para generar un flujo de datos de animación, que se asigna a las expresiones faciales del personaje. Estos datos pueden renderizarse en modo offline para contenido pregrabado o transmitirse en tiempo real, lo que permite dar vida a personajes dinámicos con sincronización labial precisa y expresiones emocionales naturales.

El modelo de Audio2Face está ampliamente implementado en las industrias de videojuegos, medios y entretenimiento, así como en atención al cliente. Numerosos ISVs y desarrolladores de videojuegos integran Audio2Face en sus aplicaciones. Entre los desarrolladores se incluyen Codemasters, GSC Games World, NetEase, Perfect World Games, mientras que entre los ISVs se encuentran Convai, Inworld AI, Reallusion, Streamlabs y UneeQ.

La compañía impulsa la creatividad con herramientas que simplifican y aceleran la producción de personajes realistas.

Los paquetes que dan vida a Audio2Face

Dentro del ecosistema de Audio2Face existen distintos paquetes y complementos que amplían sus posibilidades de uso, tanto para desarrolladores como para creadores de contenido. El primero de ellos es el Audio2Face SDK, un conjunto de bibliotecas y documentación que permite crear y ejecutar animaciones faciales, ya sea en dispositivos locales o directamente en la nube.

A esto se suman plugins pensados para integrarse con herramientas ampliamente utilizadas en la industria. Uno es el plugin de Autodesk Maya, que en su versión 2.0 ofrece ejecución local: los usuarios pueden enviar entradas de audio y recibir la animación facial correspondiente aplicada a personajes en Maya. Otro es el plugin para Unreal Engine 5 (v2.5), compatible con las versiones 5.5 y 5.6 del motor, que brinda la misma funcionalidad para personajes digitales en entornos desarrollados con esta plataforma.

Audio2Face revoluciona la creación de personajes con expresiones y sincronización labial en tiempo real.

Para quienes desean personalizar y entrenar sus propios modelos, está disponible el Audio2Face Training Framework (v1.0), un marco que permite crear versiones adaptadas a datos específicos, acompañado por el Audio2Face Training Sample Data, un conjunto de ejemplos pensado para facilitar el inicio en ese proceso de entrenamiento.

Además, la solución incluye diferentes modelos de Audio2Face: desde los de regresión (v2.2) hasta los de difusión (v3.0), que hacen posible generar lip-sync con mayor precisión y naturalidad. Finalmente, se encuentran los Audio2Emotion Models, disponibles en versiones de producción (v2.2) y experimentales (v3.0), que no solo interpretan el audio, sino que también infieren el estado emocional del hablante, abriendo la puerta a experiencias digitales más realistas e inmersivas.