Meta anunció el lanzamiento de SAM Audio, un modelo de IA unificado de última generación para la separación de audio, presentado por Mark Zuckerberg. Se trata de la primera solución en la industria que combina indicaciones de texto, visuales y temporales para aislar sonidos específicos desde cualquier fuente de audio o contenido audiovisual, simplificando procesos que antes requerían herramientas complejas y especializadas.
Gracias a su enfoque intuitivo y multimodal, SAM Audio permite, por ejemplo, aislar la voz o un instrumento de un video musical con un clic, filtrar el ruido del tráfico en una grabación en exteriores o eliminar sonidos no deseados, como un ladrido, a lo largo de todo un podcast. Este diseño refleja la forma natural en que las personas interactúan con el sonido y democratiza la edición de audio de nivel profesional.
El modelo admite tres tipos de indicaciones que pueden utilizarse de manera independiente o combinada: indicaciones de texto (como “voz cantando” o “ladrido de perro”), indicaciones visuales (seleccionando en el video a la persona u objeto que genera el sonido) e indicaciones de intervalo, una innovación pionera que permite marcar segmentos de tiempo específicos donde ocurre el audio objetivo para un control más preciso.
Como modelo unificado, SAM Audio supera la fragmentación histórica de las herramientas de edición de sonido y establece un nuevo estándar de calidad y eficiencia, con resultados superiores frente a modelos anteriores en múltiples benchmarks y escenarios del mundo real. Su potencial impacto abarca áreas como música, podcast, televisión, cine, investigación científica y accesibilidad.
Desde hoy, SAM Audio ya puede probarse en el Segment Anything Playground, donde cualquier persona puede experimentar con archivos propios o recursos disponibles en la plataforma, además de descargar el modelo. Meta también anunció futuras integraciones en sus productos y alianzas estratégicas con Starkey, líder en audífonos en EE. UU., y 2gether-International, para impulsar soluciones que mejoren la accesibilidad a través del audio impulsado por IA.
Leer más
OpenAI lanza ChatGPT Images: edición fotográfica más precisa, veloz y pensada para el mundo real
Microsoft recorta sus objetivos de IA: Copilot no despega y las empresas frenan la adopción









