Inteligencia Artificial

Google lanza Gemma 3n: su modelo de IA abierta, multimodal y optimizado para celulares sin conexión

iseñado para ejecutarse localmente incluso en dispositivos con solo 2GB de RAM, Gemma 3n permite trabajar con texto, imágenes, audio y video sin necesidad de conexión a la nube, marcando un hito en accesibilidad, eficiencia y privacidad para desarrolladores e investigadores.

Google anunció el lanzamiento oficial de Gemma 3n, la nueva versión de su línea de modelos de inteligencia artificial abierta, diseñada especialmente para funcionar en entornos con recursos limitados, como teléfonos móviles. Esta solución, revelada por primera vez durante el evento Google I/O, ya se encuentra disponible para que desarrolladores e investigadores puedan descargarla y utilizarla de forma gratuita.

A diferencia de Gemini, el modelo cerrado de Google orientado al público general, Gemma apunta al desarrollo de proyectos independientes, educativos y de investigación. La tercera generación de esta serie representa un gran salto al incorporar capacidades multimodales nativas, permitiendo trabajar no solo con texto, sino también con imágenes, audio y video, algo que no era posible en las versiones anteriores.

Una de las novedades clave de Gemma 3n es su arquitectura base MatFormer, diseñada bajo un enfoque adaptable similar a una “muñeca rusa”. Esta estructura permite al modelo escalar dinámicamente en tamaño y rendimiento de acuerdo a la tarea, optimizando el uso de recursos disponibles en el dispositivo, incluso cuando estos son limitados.

Gemma 3n se presenta en dos versiones, E2B y E4B, con 5.000 y 8.000 millones de parámetros, respectivamente. A pesar de su complejidad, tecnologías como Per Layer Embeddings (PLE) y nuevos codificadores especializados permiten que funcione en dispositivos con apenas 2GB de RAM, como smartphones. Esta eficiencia lo convierte en una herramienta ideal para asistentes inteligentes, aplicaciones móviles, plataformas educativas y más.

En cuanto a su rendimiento, Gemma 3n mejora significativamente en razonamiento lógico, programación y soporte multilingüe, con capacidad de procesar texto en 140 idiomas y comprensión multimodal en 35 lenguas. Para el procesamiento de imágenes y video, se apoya en MobileNet-V5, un sistema optimizado para funcionar a 60 FPS en dispositivos como los teléfonos Pixel, mientras que el codificador de audio permite tareas como reconocimiento de voz y traducción en tiempo real sin conexión.

El modelo puede descargarse y utilizarse desde plataformas como Hugging Face, Kaggle y Google AI Studio, promoviendo una rápida integración en proyectos que requieren ejecutar IA de forma local, una ventaja clave en términos de privacidad, eficiencia energética y reducción de costos. Además, Gemma 3n se convirtió en el primer modelo con menos de 10.000 millones de parámetros en superar los 1.300 puntos en la prueba LMArena, un benchmark estándar que mide la calidad de los modelos de lenguaje.

Leer más

Meta ficha a cuatro investigadores de OpenAI para su equipo de superinteligencia

Noetix Robotics: la startup china que pasó de casi quebrar a fabricar 2.000 robots y busca recaudar US$35 millones

¿Qué apps elegimos cuando podemos elegir?

Autor

  • Maxi Fanelli

    Periodista especializado en tecnologías y responsable de contenidos comerciales en ITSitio y en la Comunidad de Gaming. Editor de Overcluster. Anteriormente, trabajé en medios de IT; y como colaborador en Clarín, TN Tecno, Crónica TV y PC Users. Lic. Comunicación Social y Periodismo en la UNLP.

    Ver todas las entradas

[mdx-adserve-bstreet region="MED"]

Maxi Fanelli

Periodista especializado en tecnologías y responsable de contenidos comerciales en ITSitio y en la Comunidad de Gaming. Editor de Overcluster. Anteriormente, trabajé en medios de IT; y como colaborador en Clarín, TN Tecno, Crónica TV y PC Users. Lic. Comunicación Social y Periodismo en la UNLP.

Publicaciones relacionadas

Botón volver arriba