En el marco del evento Advancing AI, AMD presentó ROCm 7, la nueva versión de su stack de software abierto para cómputo de alto rendimiento e inteligencia artificial. Con mejoras clave en inferencia, entrenamiento, compatibilidad y herramientas para desarrolladores, la compañía refuerza su compromiso con un ecosistema abierto y escalable para IA generativa.
Un stack pensado para acelerar la productividad y la innovación
ROCm 7 fue diseñado con cinco pilares clave: compatibilidad con los algoritmos y modelos más recientes, nuevas funciones avanzadas para escalar IA, soporte nativo para la serie MI350, gestión de clústeres y capacidades empresariales integradas. Bajo el lema “Acelerando la innovación de IA y la productividad de los desarrolladores”, AMD busca facilitar el trabajo de desarrolladores e investigadores, sin encerrar su tecnología en entornos cerrados.
Inferencia hasta 3,8 veces más rápida
Uno de los avances más destacados está en el rendimiento. Según las métricas de AMD, ROCm 7 ofrece hasta 3,5 veces más eficiencia promedio en tareas de inferencia comparado con su versión anterior. Específicamente, se lograron mejoras de:
-
3,2x con Llama 3.1 70B
-
3,4x con Qwen2-72B
-
3,8x con DeepSeek R1
Además, al correr DeepSeek en FP8, el rendimiento del acelerador AMD Instinct MI355X superó al Nvidia B200 en hasta un 30% más de throughput, consolidando su liderazgo en entornos open source.

Frameworks mejorados y nuevos algoritmos
ROCm 7 incorpora soporte para frameworks optimizados como vLLM, LLM-d y SG Lang, y mejoras en la optimización del servicio con inferencia distribuida, prefill inteligente y desagregación de cargas. También se añadieron algoritmos clave como:
-
GEMM autotuning
-
MoE (Mixture of Experts)
-
Módulos de atención mejorados
-
Autorización de kernels basada en Python
Estas novedades facilitan el escalamiento horizontal, mejoran el uso de recursos y reducen el costo de generación de tokens en grandes modelos de lenguaje.
Mejora también el entrenamiento: +3x de rendimiento
El entrenamiento de modelos también se potencia con una mejora promedio del 3x. AMD demostró incrementos concretos con modelos como:
-
Llama 2 70B
-
Llama 3.1 8B
-
Qwen 1.5 7B
Estas mejoras son posibles gracias al soporte de modelos open source optimizados para ROCm, nuevos frameworks como Torch-titan, JAX Maxtext y PyTorch, y la incorporación de paralelización avanzada, kernels eficientes y tipos de datos como BF16 y FP8.

Inferencia distribuida a escala con tecnologías abiertas
Otro foco clave fue la orquestación de inferencia distribuida en arquitecturas multi-GPU. ROCm 7 se apoya en frameworks como vLLM, LLM-d y SGL y habilita funciones esenciales como:
-
Transferencia de caché KV entre procesos
-
Comunicación entre nodos
-
Programación de grupos entre dominios
Estas capacidades son potenciadas por tecnologías como Moonscale, GPU Direct Access, DeepEP, SHMEM y Distributed Triton, que permiten desplegar IA a escala de forma eficiente, rápida y abierta.
Una propuesta lista para empresas
ROCm 7 también incluye capacidades específicas para el sector corporativo: soluciones de punta a punta, integración de datos segura y facilidad de despliegue. Esto convierte a la plataforma en una opción robusta tanto para startups como para grandes centros de datos que buscan maximizar la productividad sin atarse a soluciones propietarias.
Con esta estrategia, AMD no solo compite en términos de potencia bruta, sino que habilita un entorno flexible y colaborativo, en el que desarrolladores, empresas y centros de investigación pueden implementar soluciones de IA a escala sin depender de arquitecturas cerradas.
Leer mas
- Acer amplía su línea de GPUs con nuevos modelos Intel Arc y AMD Radeon RX
- HP y AMD ofrecen una promoción para resellers con un premio inolvidable: un viaje a la final del Mundial de Clubes en Nueva York
- AMD establece nuevos estándares en gaming y creación de contenido con nuevas soluciones









