Gemma 4 es la nueva familia de modelos abiertos de Google (Apache 2.0), multimodales y con hasta 256K tokens de contexto, pensada tanto para servidores como para ejecución en dispositivos edge y sistemas embebidos. Para más detalle técnico, benchmarks y prompts listos para usar, puede consultarse el artículo original en tu blog, donde se desarrolla cada sección en profundidad.
Gemma 4 en sistemas embebidos
Gemma 4 se publica en cuatro variantes (E2B, E4B, 26B A4B y 31B Dense), pero las diseñadas específicamente para edge son E2B (2,3B) y E4B (4,5B), con arquitectura densa y contexto de hasta 128K tokens. Estas versiones incluyen audio nativo mediante un codificador conformer tipo USM, ideal para casos de uso en IoT, domótica, robots móviles o HMIs industriales con entrada por voz o procesamiento de sonido local.
El artículo destaca que Gemma 4 E2B puede ejecutarse en dispositivos con recursos limitados, incluyendo una Raspberry Pi moderna, mientras que E4B se orienta a dispositivos con algo más de memoria y necesidad de razonamiento más avanzado. Gracias a su tamaño y a las opciones de cuantización habituales en el ecosistema open source, estos modelos permiten construir asistentes offline de diagnóstico, paneles de supervisión inteligentes o pasarelas OT con inferencia local sin depender de la nube.
Requisitos de potencia: Raspberry Pi y Jetson
Según la guía, E2B es la opción recomendada cuando no hay GPU dedicada y se quiere desplegar el modelo en un entorno embebido con CPU ARM, como una Raspberry Pi o un SBC similar. En este contexto, se asume un dispositivo de última generación (por ejemplo Raspberry Pi 5) con al menos 8 GB de RAM para poder cargar el modelo E2B con cuantización moderada y aceptar latencias de respuesta más altas que en una GPU de escritorio.
Para escenarios con mayor demanda de rendimiento en el borde, una plataforma como NVIDIA Jetson (por ejemplo Jetson Nano o sus sucesoras con GPU integrada) es más adecuada para E4B, que se beneficia de aceleración por GPU incluso con 4–8 GB de VRAM efectiva. El artículo también indica que, a partir de 8 GB de VRAM, E4B funciona muy bien en tareas de razonamiento, mientras que las variantes grandes (26B A4B y 31B Dense) exigen 16–24 GB de VRAM y están más pensadas para servidores o estaciones de trabajo que para embebidos ligeros.
Arquitectura y usos prácticos en el edge
Gemma 4 introduce atención híbrida (capas locales y globales), dual RoPE y Per‑Layer Embeddings, lo que mejora el manejo de contextos largos sin disparar el consumo de memoria, algo clave en hardware embebido. La variante 26B A4B utiliza Mixture of Experts con solo 3,8B de parámetros activos por inferencia, lo que la hace muy interesante para gateways o servidores edge más potentes cercanos a planta, donde se requiere más rendimiento que en una Raspberry Pi pero aún se quieren contener los recursos.
La guía incluye prompts específicos para análisis de texto con razonamiento profundo, visión para e‑commerce, agentes con function calling y generación de estrategias de contenido, que se pueden adaptar a casos industriales: inspección visual, asistentes de campo, paneles de soporte o análisis de logs en sistemas OT. Además, se detallan las plantillas de chat, el modo de razonamiento <|think|>, recomendaciones para prompts multimodales y enlaces a las plataformas donde descargar Gemma 4 (Hugging Face, Ollama, LM Studio, Google AI Studio y Vertex AI), que facilitan tanto la experimentación en laboratorio como el paso a producción.
Gemma 4 según tipo de hardware
| Perfil hardware | Variante Gemma 4 recomendada | Motivo principal | RAM/VRAM orientativa | Casos de uso típicos en el borde |
|---|---|---|---|---|
| Raspberry Pi (Pi 4/5, SBC ARM sin GPU) | E2B (2,3B, denso) | Modelo ligero pensado para edge, funciona en CPU y cabe en dispositivos modestos | ≥ 8 GB RAM recomendados para ir cómodo, CPU ARM de 64 bits | Asistentes locales sencillos, análisis de texto/logs, comandos por voz básicos |
| Jetson Nano / Jetson con GPU ligera | E4B (4,5B, denso) | Aprovecha GPU integrada, más razonamiento y multimodalidad con coste contenido | 4–8 GB VRAM efectiva; 8 GB de RAM del sistema o más | Visión + texto, audio embebido, agentes de mantenimiento o robótica ligera |
| Servidor edge industrial con GPU | 26B A4B (MoE) | Mejor ratio rendimiento/coste; solo 3,8B parámetros activos por inferencia | ≥ 16 GB VRAM recomendados; CPU multicore + 64 GB RAM | Análisis multimodal complejo, agentes OT/IT, procesamiento de grandes contextos |