AMD lanza ROCm 7: más velocidad, mayor escalabilidad y una plataforma abierta lista para la nueva era de la IA

Durante el evento Advancing AI, AMD presentó ROCm 7, su stack de software abierto optimizado para IA generativa, destacando mejoras en rendimiento, escalabilidad y compatibilidad con modelos de última generación.
Durante el evento Advancing AI, AMD presentó ROCm 7, su stack de software abierto optimizado para IA generativa, destacando mejoras en rendimiento, escalabilidad y compatibilidad con modelos de última generación.
Compartir nota:

En el marco del evento Advancing AI, AMD presentó ROCm 7, la nueva versión de su stack de software abierto para cómputo de alto rendimiento e inteligencia artificial. Con mejoras clave en inferencia, entrenamiento, compatibilidad y herramientas para desarrolladores, la compañía refuerza su compromiso con un ecosistema abierto y escalable para IA generativa.

Un stack pensado para acelerar la productividad y la innovación

ROCm 7 fue diseñado con cinco pilares clave: compatibilidad con los algoritmos y modelos más recientes, nuevas funciones avanzadas para escalar IA, soporte nativo para la serie MI350, gestión de clústeres y capacidades empresariales integradas. Bajo el lema  “Acelerando la innovación de IA y la productividad de los desarrolladores”, AMD busca facilitar el trabajo de desarrolladores e investigadores, sin encerrar su tecnología en entornos cerrados.

Inferencia hasta 3,8 veces más rápida

Uno de los avances más destacados está en el rendimiento. Según las métricas de AMD, ROCm 7 ofrece hasta 3,5 veces más eficiencia promedio en tareas de inferencia comparado con su versión anterior. Específicamente, se lograron mejoras de:

  • 3,2x con Llama 3.1 70B

  • 3,4x con Qwen2-72B

  • 3,8x con DeepSeek R1

Además, al correr DeepSeek en FP8, el rendimiento del acelerador AMD Instinct MI355X superó al Nvidia B200 en hasta un 30% más de throughput, consolidando su liderazgo en entornos open source.

DeepSeek R1 corre hasta 3,8x más rápido con ROCm 7; el MI355X logra un 30% más de throughput que el B200 de Nvidia.
DeepSeek R1 corre hasta 3,8x más rápido con ROCm 7; el MI355X logra un 30% más de throughput que el B200 de Nvidia.

Frameworks mejorados y nuevos algoritmos

ROCm 7 incorpora soporte para frameworks optimizados como vLLM, LLM-d y SG Lang, y mejoras en la optimización del servicio con inferencia distribuida, prefill inteligente y desagregación de cargas. También se añadieron algoritmos clave como:

  • GEMM autotuning

  • MoE (Mixture of Experts)

  • Módulos de atención mejorados

  • Autorización de kernels basada en Python

Estas novedades facilitan el escalamiento horizontal, mejoran el uso de recursos y reducen el costo de generación de tokens en grandes modelos de lenguaje.

Mejora también el entrenamiento: +3x de rendimiento

El entrenamiento de modelos también se potencia con una mejora promedio del 3x. AMD demostró incrementos concretos con modelos como:

  • Llama 2 70B

  • Llama 3.1 8B

  • Qwen 1.5 7B

Estas mejoras son posibles gracias al soporte de modelos open source optimizados para ROCm, nuevos frameworks como Torch-titan, JAX Maxtext y PyTorch, y la incorporación de paralelización avanzada, kernels eficientes y tipos de datos como BF16 y FP8.

ROCm 7 logra +3x de rendimiento en entrenamiento de modelos open source como Llama y Qwen, acelerando el desarrollo de IA generativa.
ROCm 7 logra +3x de rendimiento en entrenamiento de modelos open source como Llama y Qwen, acelerando el desarrollo de IA generativa.

Inferencia distribuida a escala con tecnologías abiertas

Otro foco clave fue la orquestación de inferencia distribuida en arquitecturas multi-GPU. ROCm 7 se apoya en frameworks como vLLM, LLM-d y SGL y habilita funciones esenciales como:

  • Transferencia de caché KV entre procesos

  • Comunicación entre nodos

  • Programación de grupos entre dominios

Estas capacidades son potenciadas por tecnologías como Moonscale, GPU Direct Access, DeepEP, SHMEM y Distributed Triton, que permiten desplegar IA a escala de forma eficiente, rápida y abierta.

Una propuesta lista para empresas

ROCm 7 también incluye capacidades específicas para el sector corporativo: soluciones de punta a punta, integración de datos segura y facilidad de despliegue. Esto convierte a la plataforma en una opción robusta tanto para startups como para grandes centros de datos que buscan maximizar la productividad sin atarse a soluciones propietarias.

Con esta estrategia, AMD no solo compite en términos de potencia bruta, sino que habilita un entorno flexible y colaborativo, en el que desarrolladores, empresas y centros de investigación pueden implementar soluciones de IA a escala sin depender de arquitecturas cerradas.

Leer mas

Compartir nota:

Publicaciones Relacionadas

Publicaciones Relacionadas

Scroll to Top