AMD lanza ROCm 7: más velocidad, mayor escalabilidad y una plataforma abierta lista para la nueva era de la IA

Por: Desirée Jaimovich
12 de junio 2025

Inteligencia Artificial

Compartir nota:

En el marco del evento Advancing AI, AMD presentó ROCm 7, la nueva versión de su stack de software abierto para cómputo de alto rendimiento e inteligencia artificial. Con mejoras clave en inferencia, entrenamiento, compatibilidad y herramientas para desarrolladores, la compañía refuerza su compromiso con un ecosistema abierto y escalable para IA generativa.

Un stack pensado para acelerar la productividad y la innovación

ROCm 7 fue diseñado con cinco pilares clave: compatibilidad con los algoritmos y modelos más recientes, nuevas funciones avanzadas para escalar IA, soporte nativo para la serie MI350, gestión de clústeres y capacidades empresariales integradas. Bajo el lema “Acelerando la innovación de IA y la productividad de los desarrolladores”, AMD busca facilitar el trabajo de desarrolladores e investigadores, sin encerrar su tecnología en entornos cerrados.

Inferencia hasta 3,8 veces más rápida

Uno de los avances más destacados está en el rendimiento. Según las métricas de AMD, ROCm 7 ofrece hasta 3,5 veces más eficiencia promedio en tareas de inferencia comparado con su versión anterior. Específicamente, se lograron mejoras de:

3,2x con Llama 3.1 70B
3,4x con Qwen2-72B
3,8x con DeepSeek R1

Además, al correr DeepSeek en FP8, el rendimiento del acelerador AMD Instinct MI355X superó al Nvidia B200 en hasta un 30% más de throughput, consolidando su liderazgo en entornos open source.

DeepSeek R1 corre hasta 3,8x más rápido con ROCm 7; el MI355X logra un 30% más de throughput que el B200 de Nvidia.

Frameworks mejorados y nuevos algoritmos

ROCm 7 incorpora soporte para frameworks optimizados como vLLM, LLM-d y SG Lang, y mejoras en la optimización del servicio con inferencia distribuida, prefill inteligente y desagregación de cargas. También se añadieron algoritmos clave como:

GEMM autotuning
MoE (Mixture of Experts)
Módulos de atención mejorados
Autorización de kernels basada en Python

Estas novedades facilitan el escalamiento horizontal, mejoran el uso de recursos y reducen el costo de generación de tokens en grandes modelos de lenguaje.

Mejora también el entrenamiento: +3x de rendimiento

El entrenamiento de modelos también se potencia con una mejora promedio del 3x. AMD demostró incrementos concretos con modelos como:

Llama 2 70B
Llama 3.1 8B
Qwen 1.5 7B

Estas mejoras son posibles gracias al soporte de modelos open source optimizados para ROCm, nuevos frameworks como Torch-titan, JAX Maxtext y PyTorch, y la incorporación de paralelización avanzada, kernels eficientes y tipos de datos como BF16 y FP8.

ROCm 7 logra +3x de rendimiento en entrenamiento de modelos open source como Llama y Qwen, acelerando el desarrollo de IA generativa.

Inferencia distribuida a escala con tecnologías abiertas

Otro foco clave fue la orquestación de inferencia distribuida en arquitecturas multi-GPU. ROCm 7 se apoya en frameworks como vLLM, LLM-d y SGL y habilita funciones esenciales como:

Transferencia de caché KV entre procesos
Comunicación entre nodos
Programación de grupos entre dominios

Estas capacidades son potenciadas por tecnologías como Moonscale, GPU Direct Access, DeepEP, SHMEM y Distributed Triton, que permiten desplegar IA a escala de forma eficiente, rápida y abierta.

Una propuesta lista para empresas

ROCm 7 también incluye capacidades específicas para el sector corporativo: soluciones de punta a punta, integración de datos segura y facilidad de despliegue. Esto convierte a la plataforma en una opción robusta tanto para startups como para grandes centros de datos que buscan maximizar la productividad sin atarse a soluciones propietarias.

Con esta estrategia, AMD no solo compite en términos de potencia bruta, sino que habilita un entorno flexible y colaborativo, en el que desarrolladores, empresas y centros de investigación pueden implementar soluciones de IA a escala sin depender de arquitecturas cerradas.