Inteligencia Artificial

AMD lanza las GPUs Instinct MI350 para IA generativa: hasta 4 veces más rendimiento y ahorro de costos

En el marco del evento Advancing AI, AMD presentó la nueva serie Instinct MI350 con los modelos MI350X y MI355X, diseñados para liderar el entrenamiento e inferencia de modelos de gran escala. Con memoria HBM3E, nuevos formatos de datos y un rendimiento que supera incluso al GB200 de NVIDIA, estas GPUs marcan un nuevo estándar para centros de datos enfocados en inteligencia artificial generativa.

En el marco del evento Advancing AI, que se lleva a cabo en San José, California, AMD presentó oficialmente su nueva generación de GPUs: la serie Instinct MI350, compuesta por los modelos MI350X y MI355X, diseñados para liderar el segmento de inteligencia artificial generativa. Ambas unidades cuentan con 288 GB de memoria HBM3E y un ancho de banda de 8 TB/s, lo que las posiciona como soluciones de alto rendimiento para entrenamiento e inferencia de modelos de gran escala.

Uno de los puntos destacados fue la capacidad de procesamiento: el modelo MI355X alcanza picos de 20 petaflops tanto en FP4 como en FP6, nuevos formatos de datos optimizados para IA. Esta potencia representa un salto de 4 veces en rendimiento respecto al MI300X, y permite soportar modelos con hasta 520B parámetros en una sola GPU, lo que abre la puerta a una nueva escala de complejidad en arquitecturas de IA generativa.

La nueva serie de GPUs AMD Instinct MI350 ofrece hasta 4 veces más rendimiento que su predecesora, apuntando directamente al liderazgo en IA generativa para centros de datos.
La nueva serie de GPUs AMD Instinct MI350 ofrece hasta 4 veces más rendimiento que su predecesora, apuntando directamente al liderazgo en IA generativa para centros de datos.

Despliegue más ágil de infraestructura de IA

Además del rendimiento, las nuevas GPU se integran en el estándar UBB8, lo que permite un despliegue más ágil de infraestructuras de IA. Este diseño está disponible tanto en versiones refrigeradas por aire como por líquido, lo que brinda mayor flexibilidad a los centros de datos para escalar según sus necesidades energéticas y térmicas.

Fabricadas con tecnología de proceso de 3 nanómetros y con más de 185 mil millones de transistores, las MI350X y MI355X incorporan soporte completo para los nuevos formatos FP4 y FP6, además de aprovechar las capacidades de memoria HBM3E para alcanzar niveles de eficiencia y rendimiento que apuntan directamente a competir en la élite del cómputo para IA generativa.

 Las MI350 cuentan con 288 GB de memoria HBM3E y un ancho de banda de 8 TB/s, lo que las posiciona como soluciones de alto rendimiento para entrenamiento e inferencia de modelos de gran escala.

AMD destacó que las plataformas de la serie Instinct MI350 ofrecen dos opciones de refrigeración: enfriamiento por aire y enfriamiento líquido directo, adaptándose así a las distintas necesidades de infraestructura de los centros de datos. Estas plataformas están disponibles tanto para las GPU MI350X como MI355X, facilitando una implementación más eficiente y flexible.

El salto generacional de la MI355X respecto al MI300X permite una aceleración de hasta 4,2x en modelos como Llama 3, reduciendo el tiempo y costo de inferencia.
El salto generacional de la MI355X respecto al MI300X permite una aceleración de hasta 4,2x en modelos como Llama 3, reduciendo el tiempo y costo de inferencia.

MI355 y un incremento en el rendimiento de tareas de inferencia

Uno de los puntos sobresalientes es el incremento en rendimiento generacional en tareas de inferencia de IA. En pruebas con el modelo Llama 3 140B, el MI355X logró mejoras de hasta 4,2 veces en agentes conversacionales, 3,8x en resúmenes, 2,9x en generación de contenido y 2,6x en IA conversacional, comparado con el MI300X. Esta evolución permite acelerar significativamente aplicaciones concretas de IA generativa.

En cuanto a rendimiento de inferencia en modelos grandes, el MI355X también mostró ventajas. Superó al GB200 de NVIDIA con hasta 1,3 veces más throughput en tareas con modelos como Llama 3.1 405B, y hasta 1,2 veces en DeepSeek. Además, AMD destacó una métrica clave para el negocio: el MI355X permite procesar hasta un 40% más de tokens por dólar en comparación con el B200, lo que representa un ahorro sustancial en costos operativos.

Uno de los focos fue el desempeño de entrenamiento de modelos como Llama 3, donde la GPU MI355X demostró una mejora de hasta 3,5 veces en preentrenamiento (Llama 3 70B en FP8) frente al MI300X, y hasta 2,9 veces en fine-tuning (Llama 2 70B en FP8). Comparado con las GPU NVIDIA B200 y GB200, el rendimiento en preentrenamiento es equivalente, pero en ajuste fino el MI355X ofrece entre 10% y 13% más velocidad, según datos preliminares de MLPerf 5.0.

Frente a las GPU NVIDIA B200 y GB200, el MI355X ofrece un rendimiento equivalente en preentrenamiento y hasta un 13% más velocidad en fine-tuning, según datos preliminares.
Frente a las GPU NVIDIA B200 y GB200, el MI355X ofrece un rendimiento equivalente en preentrenamiento y hasta un 13% más velocidad en fine-tuning, según datos preliminares.

Eficiencia energética

La serie Instinct MI350 superó el objetivo de AMD a cinco años de mejorar en 30 veces la eficiencia energética del entrenamiento de IA y los nodos de cómputo de alto rendimiento, logrando finalmente una mejora de 38 veces.

Además, AMD presentó un nuevo objetivo para 2030: alcanzar un incremento de 20 veces en la eficiencia energética a escala de rack, tomando como base el año 2024. Esto permitirá que un modelo de IA típico, que hoy requiere más de 275 racks para ser entrenado, pueda hacerlo en menos de un rack completamente utilizado para 2030, consumiendo un 95% menos de electricidad.

Avance en la infraestructura

En términos de escalabilidad, AMD presentó tres configuraciones de racks con GPUs MI350X y MI355X. El rack más potente (DLC con 128 GPUs MI355X) alcanza 1.3 EF en FP8, mientras que la opción intermedia (96 GPUs) logra 1 EF, y la más compacta (64 GPUs MI350X) ofrece 0.6 EF. Todas las configuraciones incorporan memoria HBM3E con capacidades de hasta 36 TB y ofrecen una arquitectura optimizada para rendimiento y eficiencia energética.

Finalmente, AMD reiteró su compromiso de avanzar con una cadencia anual en infraestructura para IA. Tras el despliegue de EPYC “Genoa” + MI300 en 2024, se espera la llegada de EPYC “Turin” + MI350 en 2025, y luego en 2026, el salto hacia EPYC “Venice” + MI400 junto con el rack Vulcano, apuntando a sostener una mejora continua en rendimiento y flexibilidad para cargas de IA de próxima generación.

Leer mas

Autor

  • Desirée Jaimovich

    Es directora periodística de ITSitio, y tiene una columna de tecnología en el programa La Inmensa Minoría, por Radio Con Vos y colabora con La Nación. Anteriormente trabajó para Infobae, Clarín y CNN Radio. Es traductora pública de inglés y periodista especializada en tecnología e innovación. Obtuvo el Premio ESET al Periodismo en Seguridad Informática y el Premio UBA al Periodismo educativo y cultural. Fue becaria del programa International Visitor Leadership de la Embajada de EE.UU.

    Ver todas las entradas

[mdx-adserve-bstreet region="MED"]

Desirée Jaimovich

Es directora periodística de ITSitio, y tiene una columna de tecnología en el programa La Inmensa Minoría, por Radio Con Vos y colabora con La Nación. Anteriormente trabajó para Infobae, Clarín y CNN Radio. Es traductora pública de inglés y periodista especializada en tecnología e innovación. Obtuvo el Premio ESET al Periodismo en Seguridad Informática y el Premio UBA al Periodismo educativo y cultural. Fue becaria del programa International Visitor Leadership de la Embajada de EE.UU.

Publicaciones relacionadas

Botón volver arriba