Cuando Google anunció Gemini 2.0 en diciembre del año pasado, el mensaje que se repitió en la keynote fue «la era de los agentes». Más allá del marketing, lo interesante de este lanzamiento no son tanto los números en los benchmarks (que son buenos, pero nada disruptivo comparado con GPT-4o o Claude 3.5 Sonnet) como la arquitectura de productos que Google está construyendo alrededor. Gemini 2.0 es claramente un modelo pensado para ejecutar acciones, no solo para generar texto.
Después de varias semanas trabajando con él en distintos escenarios, tengo opiniones más claras sobre dónde compite bien y dónde sigue yendo por detrás. Este repaso intenta reflejar eso sin caer en ninguno de los dos extremos típicos: ni el fervor de «Google está de vuelta» ni el desdén de «es solo otro modelo».
Qué ofrece la familia 2.0
Gemini 2.0 llega con varias variantes. Flash, la más disponible, es rápida, barata y con ventana de contexto de 1 millón de tokens. Flash Thinking añade un modo de razonamiento explícito, similar en espíritu a o1 de OpenAI, aunque con implementación distinta. Pro, que se liberó más tarde, apunta a casos que exigen más capacidad de razonamiento y más coherencia en textos largos. Y hay experimentales como Gemini Deep Research que integran búsqueda web y síntesis prolongada.
Lo más relevante técnicamente es que todas las variantes están diseñadas desde el principio para usar herramientas. Esto no es solo function calling al estilo de OpenAI; Google ha construido APIs específicas para Google Search, Maps, ejecución de código Python, y una capa genérica de function calling compatible con herramientas propias. La diferencia respecto a otros modelos es que la integración con el ecosistema Google es nativa y de primera clase, no añadida después.
Dónde compite bien
El caso donde Gemini 2.0 Flash claramente destaca es en cargas con mucho contexto. El millón de tokens se puede usar en serio: puedes meter un repositorio entero de código, un conjunto de documentos técnicos, toda la correspondencia de un proyecto, y hacer preguntas que abarcan todo ese material. Claude 3.5 Sonnet tiene 200K y GPT-4o tiene 128K, así que la diferencia no es marginal.
Lo útil no es tanto el tamaño del contexto en sí como el precio por token de entrada, que es significativamente más bajo que Anthropic y competitivo con OpenAI. Para cargas masivas de ingesta de documentos (resumen de archivos, extracción estructurada en grandes corpus, análisis de datasets textuales), la combinación de contexto largo y coste bajo es muy atractiva.
El segundo sitio donde Gemini 2.0 es fuerte es en integración con Google Cloud. Si tu infraestructura ya está en GCP, consumirlo desde Vertex AI o desde la API gen es cómodo y se integra con Identity, IAM y todo el ecosistema de monitoreo nativamente. Para equipos que tienen vetadas llamadas a APIs externas por compliance, este es un desbloqueo real.
El tercer sitio es búsqueda web con síntesis. Gemini Deep Research (disponible en Gemini Advanced) hace algo que ni GPT-4o ni Claude hacen igual de bien: coge una pregunta compleja, navega varios sitios, contrasta información y escribe un informe con citas. El resultado no es infalible y hay que verificar las referencias, pero en muchos casos acaba siendo mejor punto de partida que empezar desde cero.
Dónde sigue por detrás
Hay cosas que Gemini 2.0 no hace tan bien como sus competidores directos, y conviene tenerlo claro.
En razonamiento complejo, especialmente en matemáticas y código difícil, Claude 3.5 Sonnet sigue ligeramente por delante para cargas serias, y GPT-4o está en un margen similar o superior dependiendo del benchmark. Gemini 2.0 Flash Thinking ha cerrado parte de la brecha pero no todo el camino.
En generación de código, Claude sigue siendo mi elección si el código es largo y requiere mantener coherencia entre archivos. Gemini 2.0 produce código funcional, pero en casos donde hay que navegar múltiples ficheros y mantener invariantes, la experiencia es ligeramente peor.
En chat conversacional (no porque sea mejor tecnología, sino por experiencia de producto), ChatGPT y Claude siguen sintiéndose más pulidos. La UI de Gemini Advanced ha mejorado pero todavía tiene rugosidades que no están en los competidores. Esto es poco técnico pero afecta la percepción de calidad del modelo en sí.
Y en el ecosistema de desarrolladores, OpenAI y Anthropic siguen teniendo ventaja. Las librerías cliente de Google para Gemini existen y funcionan, pero la comunidad de ejemplos, tutoriales y integraciones de terceros es más pequeña. No es un bloqueo serio, pero si buscas un problema resuelto en GitHub, hay más probabilidad de encontrarlo con OpenAI.
El modo agente
La pieza más interesante de Gemini 2.0 es el énfasis en agentes, y aquí hay que matizar. Google demostró varios productos («Astra», «Mariner», el modo de coding Jules) que presentan al modelo como capaz de navegar, ejecutar tareas y mantener estado entre turnos. Muchos de estos productos siguen en acceso restringido o en beta.
En la práctica, con la API directa que ya está disponible, lo que tienes es function calling de calidad y una integración fácil para ejecutar código Python contra resultados intermedios. Eso es útil, pero no es revolucionario: OpenAI tiene capacidades similares desde hace tiempo, y Anthropic ha lanzado su versión de Computer Use con un enfoque distinto pero equivalente en ambición.
Lo que diferencia a Google, si la promesa se cumple, es la integración con su ecosistema: Workspace, Search, Maps, Cloud. Un agente Gemini que puede leer tu Gmail, modificar tu calendario y buscar información en la web con una sola cadena de herramientas tiene potencial de producto real. Pero esa promesa está más en roadmap que en disponibilidad general hoy.
Mi lectura
Gemini 2.0 no es una revolución, pero es un modelo sólido y una declaración de intenciones clara. Google está apostando a que las aplicaciones de IA en 2025 van a pasar de «genera texto» a «ejecuta acciones con acceso a herramientas», y está construyendo su producto para ser el mejor en ese segundo escenario.
Si tu carga está en GCP, si trabajas con mucho contexto, o si la integración nativa con productos Google te aporta, Gemini 2.0 es una opción muy razonable. Si estás en otro ecosistema o tu carga es razonamiento puro con texto moderado, seguirías probablemente con Claude o GPT-4o por comodidad de ecosistema.
La competencia entre los tres grandes modelos ahora mismo es saludable para quien los usa: cada uno empuja a los otros en direcciones concretas. Gemini 2.0 es la contribución de Google a ese dinámica, y aunque no gana en todas las categorías, merece un lugar en la mezcla de cualquiera que construya productos serios con LLMs.