Inteligencia Artificial

AMD lanza ROCm 7: más velocidad, mayor escalabilidad y una plataforma abierta lista para la nueva era de la IA

En el marco del evento Advancing AI, AMD presentó oficialmente ROCm 7, la nueva versión de su stack de software abierto para cómputo de alto rendimiento e inteligencia artificial. Con mejoras clave en inferencia, entrenamiento, compatibilidad y herramientas para desarrolladores, la compañía refuerza su compromiso con un ecosistema abierto y escalable para IA generativa.

En el marco del evento Advancing AI, AMD presentó ROCm 7, la nueva versión de su stack de software abierto para cómputo de alto rendimiento e inteligencia artificial. Con mejoras clave en inferencia, entrenamiento, compatibilidad y herramientas para desarrolladores, la compañía refuerza su compromiso con un ecosistema abierto y escalable para IA generativa.

Un stack pensado para acelerar la productividad y la innovación

ROCm 7 fue diseñado con cinco pilares clave: compatibilidad con los algoritmos y modelos más recientes, nuevas funciones avanzadas para escalar IA, soporte nativo para la serie MI350, gestión de clústeres y capacidades empresariales integradas. Bajo el lema  «Acelerando la innovación de IA y la productividad de los desarrolladores», AMD busca facilitar el trabajo de desarrolladores e investigadores, sin encerrar su tecnología en entornos cerrados.

Inferencia hasta 3,8 veces más rápida

Uno de los avances más destacados está en el rendimiento. Según las métricas de AMD, ROCm 7 ofrece hasta 3,5 veces más eficiencia promedio en tareas de inferencia comparado con su versión anterior. Específicamente, se lograron mejoras de:

  • 3,2x con Llama 3.1 70B

  • 3,4x con Qwen2-72B

  • 3,8x con DeepSeek R1

Además, al correr DeepSeek en FP8, el rendimiento del acelerador AMD Instinct MI355X superó al Nvidia B200 en hasta un 30% más de throughput, consolidando su liderazgo en entornos open source.

DeepSeek R1 corre hasta 3,8x más rápido con ROCm 7; el MI355X logra un 30% más de throughput que el B200 de Nvidia.
DeepSeek R1 corre hasta 3,8x más rápido con ROCm 7; el MI355X logra un 30% más de throughput que el B200 de Nvidia.

Frameworks mejorados y nuevos algoritmos

ROCm 7 incorpora soporte para frameworks optimizados como vLLM, LLM-d y SG Lang, y mejoras en la optimización del servicio con inferencia distribuida, prefill inteligente y desagregación de cargas. También se añadieron algoritmos clave como:

  • GEMM autotuning

  • MoE (Mixture of Experts)

  • Módulos de atención mejorados

  • Autorización de kernels basada en Python

Estas novedades facilitan el escalamiento horizontal, mejoran el uso de recursos y reducen el costo de generación de tokens en grandes modelos de lenguaje.

Mejora también el entrenamiento: +3x de rendimiento

El entrenamiento de modelos también se potencia con una mejora promedio del 3x. AMD demostró incrementos concretos con modelos como:

  • Llama 2 70B

  • Llama 3.1 8B

  • Qwen 1.5 7B

Estas mejoras son posibles gracias al soporte de modelos open source optimizados para ROCm, nuevos frameworks como Torch-titan, JAX Maxtext y PyTorch, y la incorporación de paralelización avanzada, kernels eficientes y tipos de datos como BF16 y FP8.

ROCm 7 logra +3x de rendimiento en entrenamiento de modelos open source como Llama y Qwen, acelerando el desarrollo de IA generativa.
ROCm 7 logra +3x de rendimiento en entrenamiento de modelos open source como Llama y Qwen, acelerando el desarrollo de IA generativa.

Inferencia distribuida a escala con tecnologías abiertas

Otro foco clave fue la orquestación de inferencia distribuida en arquitecturas multi-GPU. ROCm 7 se apoya en frameworks como vLLM, LLM-d y SGL y habilita funciones esenciales como:

  • Transferencia de caché KV entre procesos

  • Comunicación entre nodos

  • Programación de grupos entre dominios

Estas capacidades son potenciadas por tecnologías como Moonscale, GPU Direct Access, DeepEP, SHMEM y Distributed Triton, que permiten desplegar IA a escala de forma eficiente, rápida y abierta.

Una propuesta lista para empresas

ROCm 7 también incluye capacidades específicas para el sector corporativo: soluciones de punta a punta, integración de datos segura y facilidad de despliegue. Esto convierte a la plataforma en una opción robusta tanto para startups como para grandes centros de datos que buscan maximizar la productividad sin atarse a soluciones propietarias.

Con esta estrategia, AMD no solo compite en términos de potencia bruta, sino que habilita un entorno flexible y colaborativo, en el que desarrolladores, empresas y centros de investigación pueden implementar soluciones de IA a escala sin depender de arquitecturas cerradas.

Leer mas

Autor

  • Desirée Jaimovich

    Es directora periodística de ITSitio, y tiene una columna de tecnología en el programa La Inmensa Minoría, por Radio Con Vos y colabora con La Nación. Anteriormente trabajó para Infobae, Clarín y CNN Radio. Es traductora pública de inglés y periodista especializada en tecnología e innovación. Obtuvo el Premio ESET al Periodismo en Seguridad Informática y el Premio UBA al Periodismo educativo y cultural. Fue becaria del programa International Visitor Leadership de la Embajada de EE.UU.

    Ver todas las entradas

[mdx-adserve-bstreet region="MED"]

Desirée Jaimovich

Es directora periodística de ITSitio, y tiene una columna de tecnología en el programa La Inmensa Minoría, por Radio Con Vos y colabora con La Nación. Anteriormente trabajó para Infobae, Clarín y CNN Radio. Es traductora pública de inglés y periodista especializada en tecnología e innovación. Obtuvo el Premio ESET al Periodismo en Seguridad Informática y el Premio UBA al Periodismo educativo y cultural. Fue becaria del programa International Visitor Leadership de la Embajada de EE.UU.

Publicaciones relacionadas

Botón volver arriba