AMD presenta su arquitectura de networking distribuido para escalar la inteligencia artificial a gran escala

En el evento Advancing AI, AMD presentó su estrategia para construir clústers distribuidos de inteligencia artificial a gran escala, basados en modelos abiertos, tarjetas de red de última generación y tecnologías como Ultra Ethernet. La compañía apuesta a escalar el rendimiento y reducir los costos operativos en entornos de entrenamiento e inferencia cada vez más complejos

Desirée Jaimovich 12 de junio de 2025

3 minutos de lectura

En el contexto del evento Advancing AI, AMD presentó una ambiciosa hoja de ruta para transformar la infraestructura de inteligencia artificial a través de una arquitectura de red distribuida, diseñada para responder al crecimiento explosivo del volumen de datos, la complejidad de los modelos y la densidad computacional. Bajo el lema de construir sistemas abiertos y distribuidos, la compañía busca ofrecer una alternativa escalable, eficiente y resiliente para los clústers de IA del futuro.

Según AMD, el tamaño de los modelos se multiplica por 1.000 cada tres años, los datasets se duplican cada ocho meses y la densidad de transistores se incrementa dos veces cada dos años. Ante este panorama, escalar la infraestructura con arquitecturas monolíticas ya no es viable. La solución está en sistemas distribuidos que integren procesamiento, redes y software en una sinergia orquestada.

Cuatro pilares para una infraestructura escalable

La arquitectura de networking distribuido de AMD se basa en cuatro atributos fundamentales:

Escalabilidad horizontal (scale-out): permite crecer en capacidad a nivel de rack o centro de datos completo, alcanzando escalas de gigavatios.
Escalabilidad vertical (scale-up): habilita entrenamiento e inferencia distribuida a través de múltiples nodos de cómputo.
Front-end optimizado: entrada/salida eficiente para alimentar modelos de IA con grandes volúmenes de datos.
Gestión ágil de clústers: gracias a ROCm, el tiempo de implementación de soluciones de IA puede reducirse de meses a días.

En términos concretos, esta infraestructura permite lograr hasta 20 veces más escalabilidad con Ultra Ethernet, duplicar la capacidad de los aceleradores de IA, obtener un 40% más de rendimiento frente a la competencia, y acelerar significativamente el tiempo de despliegue.

AMD impulsa la próxima generación de IA con una arquitectura distribuida basada en cuatro atributos esenciales para la escalabilidad.

Pollara 400: una NIC diseñada para IA

Uno de los lanzamientos más destacados fue la tarjeta de red AMD Pensando Pollara 400 AI NIC, diseñada específicamente para cargas de trabajo de inteligencia artificial. Integrada con la biblioteca ROCm Collective Communications Library (RCCL), ofrece un 20% más de eficiencia en operaciones RDMA comparada con soluciones tradicionales.

Además, demuestra un throughput 1,1 veces superior al Nvidia CX7 y 1,2 veces al Broadcom Thor2, utilizando RoCEv2. Cuando se activa el soporte para Ultra Ethernet Consortium (UEC), la Pollara 400 puede alcanzar un rendimiento 1,25 veces superior al estándar RoCEv2, gracias a técnicas como balanceo de carga eficiente, retransmisión selectiva y control de congestión inteligente.

Estas características la convierten en una NIC lista para escalar, robusta y altamente eficiente, ideal para entornos de inferencia y entrenamiento distribuido.

AMD presenta Pollara 400, una tarjeta de red para IA que supera en throughput y eficiencia a competidores tradicionales.

Red confiable: el caso de Meta y la importancia del uptime

La importancia de una red confiable quedó evidenciada en los datos compartidos sobre Meta, donde cerca del 10% de las interrupciones durante el preentrenamiento de Llama 3 405B fueron causadas por fallas de red. AMD respondió a este desafío con un enfoque basado en multi-plane fabric, una estructura de red distribuida que evita cuellos de botella y mejora el tiempo de actividad.

Gracias a innovaciones como el aislamiento de fallas, la detección temprana de errores, la retransmisión selectiva y el failover automático, AMD logró mejorar el uptime de clústers en un 10%. Esto elimina puntos únicos de falla y aumenta la resiliencia en entornos de IA críticos.

Socios estratégicos y ecosistema colaborativo

AMD no trabaja solo. Su estrategia de networking distribuido se apoya en alianzas con gigantes del sector como Dell, HPE, Lenovo, Oracle, Cisco, Juniper, Arista y Supermicro. Estas colaboraciones garantizan interoperabilidad, soporte a largo plazo y escalabilidad en redes empresariales y centros de datos dedicados a IA.

Este ecosistema abierto también impulsa la adopción de estándares como Ultra Ethernet y Ultra Accelerator Link, claves para escalar IA con eficiencia y flexibilidad.

Gestión del ciclo de vida y el salto con Salina 400

Otro punto fuerte de la propuesta de AMD es el ROCm AI Lifecycle Management, una suite que permite orquestar cargas de trabajo desde el día cero, con herramientas para Kubernetes, Slurm y un futuro fabric manager (previsto para 2026). Esta solución reduce los tiempos de implementación de IA de varios meses a solo días, facilitando el despliegue ágil de racks completos.

Complementando esta arquitectura, AMD presentó el Salina 400 DPU, un procesador de datos que alimenta servidores de IA desde el front-end de red. Con motores especializados, acelera funciones de red, seguridad y almacenamiento hasta 40 veces más que una CPU tradicional, duplicando el rendimiento respecto a su predecesor y superando en un 40% a Nvidia Bluefield-3.

IA sin cuellos de botella

El mensaje de AMD es contundente: no se puede escalar la IA sin una red robusta y flexible. Una buena arquitectura de networking puede mejorar un 15% los tiempos de ejecución, aumentar en un 10% la disponibilidad, y reducir hasta un 16% los costos operativos.

Con sus innovaciones en Ultra Ethernet, NICs especializadas y gestión inteligente del ciclo de vida, AMD se posiciona como un actor clave en el futuro de la infraestructura de inteligencia artificial distribuida.

Leer mas

Autor

Desirée Jaimovich

Es directora creativa de ITSitio, y tiene una columna de tecnología en el programa La Inmensa Minoría, por Radio Con Vos y en Médico de Familia, por Canal 9. Anteriormente trabajó para Infobae, Clarín y CNN Radio. Es traductora pública de inglés y periodista especializada en tecnología e innovación. Obtuvo el Premio Eset al Periodismo en Seguridad Informática y el Premio UBA al Periodismo educativo y cultural. Fue becaria del programa International Visitor Leadership de la Embajada de EE.UU.
Ver todas las entradas