Gemma 2: el modelo abierto de Google un año después

Flor de loto abierta sobre superficie azul, metáfora visual de apertura

Cuando Google publicó Gemma 2 en junio de 2024, la recepción fue educada pero no entusiasta. La primera versión de Gemma, salida pocos meses antes, había sido recibida como un gesto de Google hacia la comunidad abierta que no terminaba de competir con Llama 3 o Mistral. Gemma 2 llegó con la promesa de cerrar esa brecha, y medio año después tenemos material suficiente para valorarla sin la incertidumbre inicial.

Este post es un balance tras un año de uso real en distintos escenarios. No es un estudio exhaustivo de benchmarks, sino una lectura práctica de dónde Gemma 2 ha encontrado su sitio y dónde no.

Las variantes y sus casos

Gemma 2 se publicó en tres tamaños: 2B, 9B y 27B, todos con arquitectura de transformers decoder-only con atención de ventana deslizante intercalada. Los tamaños no son caprichosos: cubren tres usos distintos.

El 2B está pensado para el edge y para cargas muy baratas. Encaja en dispositivos móviles, ejecuta en CPU de portátil sin drama, y compite directamente con Phi-3 Mini y Llama 3.2 en ese rango. Su calidad es sorprendente para el tamaño, especialmente en tareas de clasificación y extracción sobre texto relativamente corto. En chat más abierto, su tamaño lo limita.

El 9B ocupa el espacio donde antes reinaba Mistral 7B: el modelo de propósito general que entra en una GPU de consumo (16-24 GB de VRAM con cuantización). Es probablemente el tamaño más útil para la mayoría de aplicaciones autoalojadas, y en mi experiencia compite muy favorablemente con Llama 3 8B en tareas de asistente, respuesta a preguntas y seguimiento de instrucciones.

El 27B es el buque insignia de la serie abierta. Compite con Llama 3 70B a un coste de inferencia mucho menor, y en muchos benchmarks se queda a poca distancia. Para despliegues serios que necesiten calidad sin pagar hardware de 80 GB, es una opción muy razonable.

Dónde Gemma 2 brilla

El área donde he visto a Gemma 2 superar consistentemente a la competencia abierta es en razonamiento corto en idiomas que no son inglés. La cobertura multilingüe es notable, y en español concretamente la calidad es buena desde el primer momento, sin necesidad de fine-tuning. En comparaciones con Llama 3 de tamaño similar, Gemma 2 me ha dado resultados más consistentes en español.

Otro sitio donde brilla es en tareas donde la concisión importa. Gemma 2 tiende a responder de forma directa, sin el «claro, con mucho gusto voy a explicarte…» que satura las respuestas de algunos competidores. Para integrar el modelo en aplicaciones donde la respuesta se procesa programáticamente, esta tendencia es un alivio.

En código, Gemma 2 27B es sorprendentemente competente para no ser un modelo especializado. No está al nivel de DeepSeek Coder o Qwen Coder, pero resuelve la mayoría de tareas de programación cotidiana con soltura.

Dónde no encaja bien

El contexto es el límite más visible. Gemma 2 lanza con 8K tokens de ventana, y aunque ha habido variantes con ventanas más largas desplegadas por la comunidad, el modelo original sigue siendo de contexto corto. Para cargas que requieren procesar documentos grandes, es un problema que hace perder competitividad frente a Llama 3 (128K) o Mistral con extensiones.

La licencia es otra cosa que conviene entender. Gemma está publicada bajo una licencia específica de Google que es permisiva pero no es Apache 2.0 ni MIT. Tiene cláusulas de uso responsable que permiten a Google intervenir si el modelo se usa para usos prohibidos. Para la mayoría de casos comerciales normales no hay fricción, pero si tu aplicación requiere la máxima libertad legal, la licencia de Llama 3 o la de Mistral son más simples en ese aspecto.

Y para cargas muy especializadas, la comunidad alrededor de Gemma 2 es más pequeña que la de Llama. Hay menos fine-tunes públicos, menos variantes optimizadas para casos concretos, menos integraciones probadas. No es un bloqueo serio, pero si necesitas una variante específica de un modelo, es más probable que la encuentres para Llama 3.

La decisión entre modelos abiertos

A la hora de elegir entre modelos abiertos para un proyecto, lo que me encuentro preguntándome es algo concreto:

¿Necesito contexto largo? Entonces Llama 3 o Qwen 2.5 ganan cómodamente. ¿Necesito rendimiento muy optimizado en una GPU concreta? Probablemente Mistral por la madurez de las herramientas de inferencia. ¿Trabajo principalmente en español u otros idiomas europeos, y valoro respuestas directas y razonamiento corto de calidad? Gemma 2 es una opción muy fuerte y a veces la mejor. ¿Necesito código de alta calidad? Modelos específicos de código como DeepSeek o Qwen Coder. ¿Necesito un modelo muy pequeño para el edge? Gemma 2 2B compite bien con Phi-3 y Llama 3.2 1B/3B.

No hay un ganador universal, y la conclusión más honesta es que los tres grandes jugadores abiertos (Meta, Google, Mistral) cubren casos algo distintos y se complementan bastante bien. Para muchos proyectos, probar los tres en el caso concreto y comparar resultados con datos propios sigue siendo la mejor forma de decidir.

El lugar que ha encontrado

Después de un año, mi lectura es que Gemma 2 ha encontrado un nicho razonable sin robar cuota masiva a Llama o Mistral. Su adopción es sólida entre equipos que valoran la calidad multilingüe, entre despliegues que priorizan respuestas concisas, y entre casos donde la integración con herramientas de Google (Vertex AI, TPUs) es un plus.

Lo que no ha pasado, y era la pregunta al principio, es que Gemma 2 haya desplazado a Llama 3 como opción por defecto para modelos abiertos. Llama 3 sigue siendo la elección más frecuente cuando un equipo pregunta «¿qué modelo abierto uso?», y eso se debe más al ecosistema y la documentación acumulada que a diferencias técnicas de fondo.

Si estoy empezando un proyecto hoy y no tengo restricciones claras, probaría Gemma 2 9B como primera opción, especialmente si el proyecto tiene carga en idiomas distintos del inglés. En muchos casos me quedaría ahí. Si el resultado no me convence, bajaría a Llama 3 por comodidad de ecosistema. Ese orden, hace un año, habría sido al revés. El cambio de orden es probablemente el mejor resumen de lo que Gemma 2 ha conseguido.

Entradas relacionadas