Microsoft adapta su estrategia de chips para la IA

Durante el Ignite Microsoft, la compañía presenta dos chips personalizados: Azure Maia AI Accelerator para inteligencia artificial y Azure Cobalt CPU para cargas de trabajo en la nube. Optimizan la infraestructura de Microsoft, ofreciendo eficiencia y flexibilidad en servicios como Microsoft Copilot y Azure OpenAI.

Redacción de ITSitio noviembre 15, 2023

8 minutos de lectura

Escondido en el campus de Microsoft en Redmond hay un laboratorio lleno de máquinas que investigan el componente básico de la era digital: el silicio. Este proceso de varios pasos prueba meticulosamente el silicio, en un método que los ingenieros de Microsoft han estado perfeccionando en secreto durante años.

Hoy en Microsoft Ignite, la compañía presentó dos chips diseñados a medida y sistemas integrados que resultaron de ese viaje: el Microsoft Azure Maia AI Accelerator, optimizado para tareas de inteligencia artificial (IA) e IA generativa, y la CPU Microsoft Azure Cobalt, un Arm- Procesador basado en Microsoft diseñado para ejecutar cargas de trabajo informáticas de uso general en la nube de Microsoft.

Los chips representan una última pieza del rompecabezas para que Microsoft entregue sistemas de infraestructura –que incluyen desde opciones de silicio, software y servidores hasta racks y sistemas de refrigeración– que han sido diseñados de arriba a abajo y pueden optimizarse teniendo en cuenta las cargas de trabajo internas y de los clientes.

Los chips comenzarán a implementarse a principios del próximo año en los centros de datos de Microsoft, e inicialmente impulsarán los servicios de la compañía como Microsoft Copilot o Azure OpenAI Service. Se unirán a una gama cada vez mayor de productos de socios de la industria para ayudar a satisfacer la creciente demanda de potencia informática eficiente, escalable y sostenible y las necesidades de los clientes deseosos de aprovechar los últimos avances en la nube y la IA.

«Microsoft está construyendo la infraestructura para respaldar la innovación en IA y estamos reinventando cada aspecto de nuestros centros de datos para satisfacer las necesidades de nuestros clientes», dijo Scott Guthrie, vicepresidente ejecutivo de Cloud + AI Group de Microsoft. «A la escala en la que operamos, es importante para nosotros optimizar e integrar cada capa de la infraestructura para maximizar el rendimiento, diversificar nuestra cadena de suministro y brindar a los clientes opciones de infraestructura».

Optimización de cada capa de la pila

Los chips son los caballos de batalla de la nube. Controlan miles de millones de transistores que procesan los vastos flujos de unos y ceros que fluyen a través de los centros de datos. En última instancia, ese trabajo le permite hacer casi todo en su pantalla, desde enviar un correo electrónico hasta generar una imagen en Bing con una simple oración.

Al igual que construir una casa te permite controlar cada elección y detalle de diseño, Microsoft ve la adición de chips de cosecha propia como una forma de garantizar que cada elemento esté diseñado para las cargas de trabajo de inteligencia artificial y la nube de Microsoft. Los chips se ubicarán en placas de servidor personalizadas, colocadas dentro de bastidores hechos a medida que caben fácilmente dentro de los centros de datos de Microsoft existentes. El hardware funcionará de la mano con el software, diseñado conjuntamente para desbloquear nuevas capacidades y oportunidades.

El objetivo final es un sistema de hardware de Azure que ofrezca la máxima flexibilidad y que también pueda optimizarse en cuanto a potencia, rendimiento, sostenibilidad o costo, dijo Rani Borkar, vicepresidente corporativo de Infraestructura y Sistemas de Hardware de Azure (AHSI).

“El software es nuestra principal fortaleza, pero, francamente, somos una empresa de sistemas. En Microsoft estamos codiseñando y optimizando hardware y software juntos para que uno más uno sea mayor que dos”, dijo Borkar. «Tenemos visibilidad de toda la pila y el silicio es sólo uno de los ingredientes».

La compañía también anunció la disponibilidad general de uno de esos ingredientes clave: Azure Boost , un sistema que acelera el almacenamiento y las redes al llevar esos procesos de los servidores host a hardware y software especialmente diseñados.

Para complementar sus esfuerzos de silicio personalizado, Microsoft también anunció que está ampliando sus asociaciones industriales para brindar más opciones de infraestructura a los clientes. Lanzó una vista previa de la nueva serie de máquinas virtuales NC H100 v5 creada para las GPU NVIDIA H100 Tensor Core, que ofrece mayor rendimiento, confiabilidad y eficiencia para el entrenamiento de IA de rango medio y la inferencia de IA generativa. Microsoft también agregará la última GPU NVIDIA H200 Tensor Core a su flota el próximo año para admitir inferencias de modelos más grandes sin aumentar la latencia.

La compañía también anunció que agregará máquinas virtuales aceleradas AMD MI300X a Azure. Las máquinas virtuales ND MI300 están diseñadas para acelerar el procesamiento de cargas de trabajo de IA para entrenamiento de modelos de IA de alto rango e inferencia generativa, y contarán con la última GPU de AMD, AMD Instinct MI300X.

Al agregar silicio propio a un creciente ecosistema de chips y hardware de socios de la industria, Microsoft podrá ofrecer más opciones en precio y rendimiento a sus clientes, dijo Borkar.

«La obsesión por el cliente significa que ofrecemos lo mejor para nuestros clientes, y eso significa tomar lo que está disponible en el ecosistema además de lo que hemos desarrollado», cerró. «Seguiremos trabajando con todos nuestros socios para ofrecer al cliente lo que desea».

Hardware y software en coevolución

El nuevo acelerador de IA Maia 100 de la compañía impulsará algunas de las cargas de trabajo de IA internas más grandes que se ejecutan en Microsoft Azure. Además, OpenAI ha proporcionado comentarios sobre Azure Maia y los profundos conocimientos de Microsoft sobre cómo se ejecutan las cargas de trabajo de OpenAI en una infraestructura adaptada a sus grandes modelos de lenguaje están ayudando a informar los futuros diseños de Microsoft.

«Desde que nos asociamos por primera vez con Microsoft, hemos colaborado para codiseñar la infraestructura de inteligencia artificial de Azure en cada capa para nuestros modelos y necesidades de capacitación sin precedentes», declaró Sam Altman, director ejecutivo de OpenAI. “Nos emocionamos cuando Microsoft compartió por primera vez sus diseños para el chip Maia y trabajamos juntos para perfeccionarlo y probarlo con nuestros modelos. La arquitectura de IA de extremo a extremo de Azure, ahora optimizada hasta el silicio con Maia, allana el camino para entrenar modelos más capaces y hacer que esos modelos sean más baratos para nuestros clientes”.

El acelerador Maia 100 AI también fue diseñado específicamente para la pila de hardware de Azure, dijo Brian Harry, miembro técnico de Microsoft que lidera el equipo de Azure Maia. Esa integración vertical (la alineación del diseño de chips con la infraestructura de IA más grande diseñada teniendo en cuenta las cargas de trabajo de Microsoft) puede generar enormes ganancias en rendimiento y eficiencia, afirmó.

Mientras tanto, la CPU Cobalt 100 se basa en la arquitectura Arm, un tipo de diseño de chip energéticamente eficiente, y está optimizada para ofrecer mayor eficiencia y rendimiento en ofertas nativas de la nube, dijo Wes McCullough, vicepresidente corporativo de desarrollo de productos de hardware. La elección de la tecnología Arm fue un elemento clave en el objetivo de sostenibilidad de Microsoft. Su objetivo es optimizar el “rendimiento por vatio” en todos sus centros de datos, lo que esencialmente significa obtener más potencia informática por cada unidad de energía consumida.

«La arquitectura y la implementación están diseñadas teniendo en cuenta la eficiencia energética», argumentó. “Estamos haciendo el uso más eficiente de los transistores del silicio. Multiplique esas ganancias de eficiencia en los servidores de todos nuestros centros de datos y obtendrá una cifra bastante grande”.

Hardware personalizado, desde el chip hasta el centro de datos

Microsoft comenzó a construir sus propios servidores y racks a medida, reduciendo costos y brindando a los clientes una experiencia más consistente. Con el tiempo, el silicio se convirtió en la principal pieza faltante.

La capacidad de construir su propio silicio personalizado permite a Microsoft centrarse en ciertas cualidades y garantizar que los chips funcionen de manera óptima en sus cargas de trabajo más importantes. Su proceso de prueba incluye determinar cómo funcionará cada chip en diferentes condiciones de frecuencia, temperatura y energía para lograr el máximo rendimiento y, lo que es más importante, probar cada chip en las mismas condiciones y configuraciones que experimentaría en un centro de datos de Microsoft del mundo real.

«La arquitectura de silicio presentada hoy también permite a Microsoft no sólo mejorar la eficiencia de enfriamiento sino también optimizar el uso de sus activos actuales de centro de datos y maximizar la capacidad del servidor dentro de su espacio existente», aseveró la compañía.

Por ejemplo, no existían bastidores para albergar los requisitos exclusivos de las placas de servidor Maia 100. Entonces Microsoft los creó desde cero. Estos bastidores son más anchos que los que normalmente se encuentran en los centros de datos de la empresa. Ese diseño ampliado proporciona un amplio espacio para cables de red y de alimentación, esencial para las demandas únicas de las cargas de trabajo de IA.

Estas tareas de IA conllevan intensas demandas computacionales que consumen más energía. Los métodos tradicionales de refrigeración por aire no son suficientes para estos chips de alto rendimiento. Como resultado, la refrigeración líquida, que utiliza fluidos circulantes para disipar el calor, se ha convertido en la solución preferida para estos desafíos térmicos, asegurando que funcionen de manera eficiente sin sobrecalentamiento.

Pero los centros de datos actuales de Microsoft no fueron diseñados para grandes enfriadores de líquidos. Por eso desarrolló un “compañero” que se ubica al lado del bastidor Maia 100. Estos compinches funcionan un poco como el radiador de un automóvil. El líquido frío fluye desde el compañero hasta las placas frías que están adheridas a la superficie de los chips Maia 100. Cada placa tiene canales a través de los cuales circula líquido para absorber y transportar calor. Eso fluye hacia el compañero, que elimina el calor del líquido y lo envía de regreso a la rejilla para absorber más calor, y así sucesivamente.

El diseño en tándem de rack y sidekick subraya el valor de un enfoque de sistemas para la infraestructura, afirmó McCullough. Al controlar cada faceta, desde el espíritu de bajo consumo de energía del chip Cobalt 100 hasta las complejidades de la refrigeración del centro de datos, Microsoft puede orquestar una interacción armoniosa entre cada componente, asegurando que el todo sea realmente mayor que la suma de sus partes para reducir el impacto ambiental.

Microsoft ha compartido sus conocimientos de diseño de su bastidor personalizado con socios de la industria y puede usarlos sin importar qué pieza de silicio se encuentre dentro, afirmó Stemen. «Todo lo que construimos, ya sea infraestructura, software o firmware, podemos aprovecharlo ya sea que implementemos nuestros chips o los de nuestros socios industriales», dijo. «Esta es una elección que el cliente puede tomar y estamos tratando de ofrecerle el mejor conjunto de opciones, ya sea por rendimiento o costo o cualquier otra dimensión que le interese».

Planea ampliar ese conjunto de opciones en el futuro; ya está diseñando versiones de segunda generación de la serie Azure Maia AI Accelerator y la serie Azure Cobalt CPU. La misión de la compañía sigue siendo clara, manifestó Stemen: optimizar cada capa de su pila tecnológica, desde el núcleo de silicio hasta el servicio final.

«La innovación de Microsoft va más allá con este trabajo de silicio para garantizar el futuro de las cargas de trabajo de nuestros clientes en Azure, priorizando el rendimiento, la eficiencia energética y el costo», afirmó. «Elegimos esta innovación intencionalmente para que nuestros clientes obtengan la mejor experiencia que puedan tener con Azure hoy y en el futuro».