Gemini 2.5: escalado de contexto y multimodalidad
Actualizado: 2026-05-03
Google sacó Gemini 2.5 Pro en vista previa el 25 de marzo de 2025 y la versión general estable llegó a finales de junio, acompañada por Gemini 2.5 Flash como modelo rápido y barato para uso masivo. Lo que diferencia a esta generación de Gemini 2.0 —publicada apenas cuatro meses antes— no es solo una mejora en puntuaciones de prueba: son dos frentes prácticos donde Google ha hecho un trabajo visible. La ventana de contexto de un millón de tokens empieza a ser utilizable de verdad, y la multimodalidad deja el estadio de demostración vistosa para convertirse en herramienta cotidiana.
Para el contexto de la competencia en modelos grandes, el análisis de Claude 4 familia inicial y el post sobre herramientas de Gemini 2.0 ofrecen los puntos de comparación relevantes. La gestión de costes cuando se usan varios modelos en producción se trata en FinOps para infraestructura de IA.
Puntos clave
- Gemini 2.5 Pro ofrece una ventana de 1 millón de tokens con comportamiento estable hasta al menos 500 k, una mejora real sobre Gemini 2.0.
- La multimodalidad es competencia real: tablas en PDF, video largo y audio con identificación de hablantes funcionan sin herramientas especializadas externas.
- El modo pensamiento integrado activa razonamiento adicional solo cuando la pregunta lo justifica, sin requerir elegir una variante distinta.
- Gemini 2.5 Flash tiene precio agresivo que lo hace competitivo con los modelos pequeños de OpenAI y Anthropic para uso masivo.
- Para texto puro de longitud media, los tres grandes son intercambiables; la elección depende de integraciones y precio.
Qué cambia en 2.5 frente a 2.0
Gemini 2.0, publicado a finales de 2024 y mejorado en febrero con 2.0 Flash Thinking, había introducido el razonamiento extendido como alternativa al modelo clásico. Gemini 2.5 unifica esa dirección: ambos modelos, Pro y Flash, llevan incorporado un modo de pensamiento que se activa cuando la pregunta lo justifica, sin tener que elegir variante distinta. El usuario hace una pregunta y el modelo decide cuánto razonamiento aplicar.
La otra diferencia importante es la mejora en aprovechamiento de la ventana de contexto. Gemini 2.0 Pro ya ofrecía un millón de tokens pero el aprovechamiento decaía mucho a partir de las primeras 200 k. En 2.5 Pro, las pruebas de aguja en pajar muestran comportamiento estable hasta al menos 500 k tokens. No es perfecto al final de la ventana, pero el salto es notable y permite trabajar con volúmenes que antes requerían recuperación de información externa.
La multimodalidad es la tercera dimensión de cambio. Gemini 2.5 procesa texto, imágenes, audio y video en el mismo contexto, y el comportamiento ya no es de novedad sino de competencia real.
La ventana de un millón en la práctica
Una ventana de contexto de un millón de tokens suena enorme hasta que intentas usarla. El primer problema es el coste: a precios de junio de 2025, una consulta que aprovecha toda la ventana cuesta dinero serio, en el entorno de varios euros por petición con el Pro. Esto limita el uso masivo pero permite casos concretos donde no hay alternativa viable.
El caso de uso donde más valor aporta es revisar repositorios grandes en bloque. En lugar de hacer recuperación selectiva con embeddings y pasar fragmentos, para ciertas preguntas vale la pena pasar el repositorio entero —hasta 400 o 500 k tokens— y dejar que el modelo encuentre lo relevante. El coste es mayor que con recuperación dirigida, pero la calidad de las respuestas también lo es, porque el modelo ve el contexto completo y detecta relaciones transversales que una recuperación por similitud no encuentra.
El otro caso donde funciona bien es el análisis de documentación histórica o logs: pasar todos los commits de un año y pedir un resumen con tendencias, revisar todos los tickets de un trimestre buscando patrones, o auditar los logs de un incidente completo. Estas tareas antes requerían ingeniería de datos previa; con 2.5 Pro muchas se hacen en una sola petición.
Lo que sigue sin funcionar bien es preguntar sobre detalles específicos enterrados en la ventana larga. El modelo capta la estructura general pero pierde precisión en referencias puntuales. Para esas tareas, la recuperación tradicional con embeddings —que describimos en el contexto de RAG con grafos de conocimiento— sigue siendo mejor.
Multimodalidad real
La multimodalidad que Google vendía en 2.0 era correcta pero limitada. En 2.5 hay un salto cualitativo:
- PDFs con tablas complejas: pasar un documento PDF con tablas, gráficas y texto mezclado, y pedir extracción estructurada, funciona a un nivel que antes exigía herramientas especializadas. El modelo entiende que una tabla es una tabla, respeta columnas y filas, y conserva relaciones entre celdas.
- Video largo: Gemini 2.5 Pro puede analizar videos manteniendo coherencia temporal. El análisis de sesiones de usuario grabadas —identificar momentos de frustración o puntos donde el usuario se queda atascado— es sorprendentemente útil, aunque aún con falsos positivos.
- Audio: transcripción con identificación de hablantes y análisis semántico en el mismo paso. Subir un podcast de una hora y pedir resumen por hablante con citas textuales funciona. La calidad de identificación no llega al nivel de servicios especializados pero es suficiente para uso práctico en reuniones.
Donde la multimodalidad sigue limitada es en generación: Gemini 2.5 genera texto y analiza todos los formatos, pero la generación de imágenes no está integrada en el modelo principal, sigue dependiendo de Imagen como servicio aparte.
Modo pensamiento y latencia
El modo pensamiento dedica más tokens a razonar antes de responder cuando la pregunta lo requiere. Se nota en tareas complejas: problemas de matemáticas, análisis de código con errores sutiles, preguntas que exigen encadenar pasos. La contrapartida es latencia: en preguntas simples Flash responde en menos de un segundo, pero Pro con pensamiento activo puede tardar 30 segundos o más.
En conversación interactiva Flash es casi siempre mejor opción aunque la calidad sea ligeramente menor. En procesos por lotes o agentes que no necesitan inmediatez, Pro con pensamiento entrega resultados claramente superiores. El patrón de uso de dos modelos en producción —Flash para el volumen y Pro para los casos complejos— es el que mejor amortiza la inversión.
Comparación con Claude 4 y GPT
En las pruebas realizadas durante junio, Gemini 2.5 Pro está al mismo nivel que Claude Opus 4 y GPT-4.5 en la mayoría de tareas, con perfiles distintos:
- Para código: Claude sigue teniendo ventaja en tareas largas con muchas dependencias; Gemini iguala en tareas más acotadas y aprovecha su ventana larga para razonar sobre repositorios completos.
- Para análisis de documentos con gráficas o imágenes: Gemini gana claramente gracias a la multimodalidad madura.
- Para texto puro: los tres modelos son intercambiables en la mayoría de casos; la elección depende más de precio, integraciones y latencia que de calidad absoluta.
Gemini Flash tiene un precio agresivo que lo hace atractivo para casos de uso masivo: llamadas desde aplicaciones con muchos usuarios, clasificación automática, generación de respuestas de soporte. En este segmento Google ha conseguido ser competitivo con los modelos pequeños de OpenAI y Anthropic.
Cuándo compensa
Gemini 2.5 encaja cuando la tarea requiere procesar mucho contexto de formatos variados: documentos largos, mezclas de texto e imágenes, video o audio. Aquí es el modelo más sólido y la diferencia se nota. También encaja cuando el presupuesto prioriza volumen sobre calidad máxima: Flash es competitivo en precio con los modelos pequeños de la competencia.
Donde no marca diferencia es en tareas de texto puro de longitud media. Mi recomendación es tener al menos dos modelos disponibles en producción, sin atarse a uno. El coste de cambiar de proveedor es menor que en ciclos anteriores gracias a que los tres grandes han convergido en APIs relativamente compatibles.