IBM desvela su futuro en arquitectura para IA en Mainframes en Hot Chips 2024
El nuevo procesador IBM Telum II y el acelerador IBM Spyre desbloquean capacidades para la IA a escala empresarial, incluidos modelos de lenguaje de gran tamaño e IA generativa.
IBM reveló detalles de la arquitectura del próximo procesador IBM Telum II y el acelerador IBM Spyre en Hot Chips 2024. Las nuevas tecnologías están diseñadas para aumentar considerablemente la capacidad de procesamiento en los sistemas mainframe IBM Z de próxima generación, lo que ayuda a acelerar el uso de los modelos de IA tradicionales, así como los grandes modelos de lenguaje de inteligencia artificial.
Ya que muchos de los proyectos de IA generativa que aprovechan modelos de lenguaje grandes (LLM, por sus siglas en inglés) pasan de la prueba de concepto a la producción, las demandas de soluciones energéticamente eficientes, seguras y escalables se han convertido en prioridades clave. Una investigación de Morgan Stanley publicada en agosto proyecta que las demandas de energía de la IA generativa se dispararán un 75% anualmente durante los próximos años, lo que la colocará en camino de consumir tanta energía en 2026 como España en 2022. Muchos clientes de IBM indican que cada vez son más importantes las decisiones arquitectónicas para apoyar modelos base de tamaño adecuado y enfoques híbridos por diseño para cargas de trabajo de IA.
Estas son las principales innovaciones presentadas el día de hoy:
- Procesador IBM Telum II: el nuevo chip IBM presenta mayor frecuencia, capacidad de memoria, está diseñado para impulsar los sistemas IBM Z de próxima generación, cuenta con un crecimiento del 40% en caché y núcleo acelerador de IA integrado, así como una unidad de procesamiento de datos (DPU) conectada coherentemente en comparación con el chip Telum I. Se espera que el nuevo procesador admita soluciones informáticas empresariales para LLM y satisfaga las complejas necesidades de transacciones del sector.
- Unidad de aceleración IO: una unidad de procesamiento de datos (DPU) completamente nueva en el chip de procesador Telum II, que está diseñada para acelerar los protocolos de E/S complejos para redes y almacenamiento en el mainframe. La DPU simplifica las operaciones del sistema y puede mejorar el rendimiento de los componentes clave.
- Acelerador IBM Spyre: proporciona capacidad de procesamiento de IA adicional para complementar el procesador Telum II. Al trabajar juntos, los chips Telum II y Spyre forman una arquitectura escalable para soportar métodos conjuntos de modelado de IA: la práctica de combinar múltiples modelos de IA de aprendizaje automático o de aprendizaje profundo con LLM de codificador. Al aprovechar las fortalezas de cada arquitectura de modelo, los modelos de conjunto pueden proporcionar resultados más precisos y sólidos en comparación con los modelos individuales. El chip acelerador IBM Spyre se entregará como una opción complementaria. Cada chip acelerador está conectado a través de un adaptador PCIe de 75 vatios y se basa en tecnología desarrollada en colaboración con el IBM Research AI Hardware Center. Al igual que con otras tarjetas PCIe, el acelerador Spyre es escalable para adaptarse a las necesidades del cliente.
Tina Tarquinio, Vicepresidenta de gestión de productos IBM Z y LinuxONE afirmó «El procesador Telum II y el acelerador Spyre están diseñados para ofrecer soluciones informáticas empresariales de alto rendimiento, seguras y con mayor eficiencia energética. Después de años de desarrollo, estas innovaciones se introducirán en nuestra plataforma IBM Z de próxima generación para que los clientes puedan aprovechar los LLM y la IA generativa a escala».
El procesador Telum II y el acelerador IBM Spyre están fabricados por Samsung Foundry y están construidos sobre su nodo de proceso de 5 nm de alto rendimiento y eficiencia energética. Al trabajar en conjunto, admiten una variedad de casos de uso avanzados impulsados por IA diseñados para desbloquear valor empresarial y crear nuevas ventajas competitivas. Con métodos de conjunto de IA, los clientes pueden lograr resultados más rápidos y precisos en sus predicciones. La potencia de procesamiento combinada anunciada hoy para la aplicación de casos de uso de IA generativa, como la detección de fraudes en el cobre de seguros, la prevención del lavado de dinero y la implementación acelerada de asistentes de inteligencia artificial.
Especificaciones y métricas de rendimiento:
Procesador Telum II: con ocho núcleos de alto rendimiento que funcionan a 5.5 GHz, con 36 MB de caché L2 por núcleo y un aumento del 40 % en la capacidad de caché en el chip para un total de 360 MB. El caché de nivel 4 virtual de 2.88 GB por cajón de procesador proporciona un aumento del 40 % respecto a la generación anterior. El acelerador de IA integrado permite una inferencia de IA de alto rendimiento y baja latencia en las transacciones, mejorando, por ejemplo, la detección de fraudes durante las transacciones financieras, y proporciona un aumento de cuatro veces en la capacidad de cómputo por chip en comparación con la generación anterior.
La nueva unidad de aceleración de E/S (DPU) está integrada en el chip Telum II. Está diseñado para mejorar el manejo de datos con una densidad de E/S aumentada en un 50%. Este avance mejora la eficiencia general y la escalabilidad de IBM Z, lo que les confiere un diseño pensado para manejar las cargas de trabajo de IA a gran escala y las aplicaciones intensivas en datos de las empresas actuales.
Acelerador Spyre: un acelerador de nivel empresarial especialmente diseñado que ofrece capacidades escalables para modelos de IA complejos y casos de uso de IA generativa. Cuenta con hasta 1 TB de memoria diseñada para funcionar en conjunto con las ocho tarjetas de un cajón IO normal, lo que admite cargas de trabajo de modelos de IA en todo el mainframe y está diseñado para no consumir más de 75 W por tarjeta. Cada chip tiene 32 núcleos de cómputo que admiten tipos de datos int8, fp8 y fp16 para aplicaciones de IA de baja latencia y alto rendimiento.