Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Tecnología

GPUs Blackwell de NVIDIA: lo que cambia en el entrenamiento

GPUs Blackwell de NVIDIA: lo que cambia en el entrenamiento

Actualizado: 2026-05-03

La arquitectura Blackwell de NVIDIA se presentó en GTC 2024 y los primeros sistemas comerciales empezaron a llegar a hiperescalares seleccionados a finales de 2024. En septiembre de 2025 ya hay suficientes despliegues reales, suficientes mediciones públicas y suficiente experiencia operativa para valorar qué cambia en la práctica del entrenamiento de modelos grandes. Este repaso se centra en GB200 NVL72, donde Blackwell se expresa con toda su lógica, y no en las B200 sueltas o en variantes como la B100.

Puntos clave

  • NVIDIA ha pasado de diseñar GPUs a diseñar racks: el GB200 NVL72 integra 72 GPUs Blackwell y 36 CPUs Grace en ~120 kW, presentándose al software como una sola máquina de 13,5 TB de HBM3e.
  • Los primeros resultados de MLPerf Training v5.0 muestran 2,2×–2,8× más rapidez que H100 en entrenamiento de Llama 3 70B — no el 4× sintético de NVIDIA, pero sí significativo.
  • FP4 nativo es el gran habilitador para inferencia: un modelo en FP4 ocupa ¼ del espacio, usa ¼ del ancho de banda de memoria — pero no todos los modelos se cuantizan bien a 4 bits.
  • Un rack GB200 NVL72 cuesta ~3 M$ con plazo de 9 meses; el acceso práctico en 2025 es vía nube (CoreWeave, Azure, AWS, GCP) a 6–12 $/GPU-hora.
  • Para la mayoría de empresas que entrenan modelos propios, Blackwell solo compensa si el tiempo de entrenamiento es el cuello de botella dominante.

La idea central: el rack como unidad

Lo más distintivo de Blackwell no es la GPU en sí, aunque el salto respecto a Hopper es sustancial. Lo distintivo es que NVIDIA ha dejado de diseñar GPUs y ha empezado a diseñar racks. El GB200 NVL72 integra 72 GPUs Blackwell y 36 CPUs Grace en un solo armario de aproximadamente 120 kilovatios, conectadas entre sí por NVLink de quinta generación a 1,8 terabytes por segundo. Para el software el rack se comporta como una única máquina de memoria unificada con 13,5 terabytes de HBM3e.

Este es un cambio conceptual importante. Con Hopper y las generaciones anteriores, el paralelismo de modelo requería particionar el modelo entre GPUs y gestionar explícitamente la comunicación entre ellas mediante NCCL. Con GB200 NVL72, 72 GPUs pueden acceder a la memoria de las demás como si fuera local, aunque con latencia mayor. Esto simplifica patrones de entrenamiento donde la comunicación entre particiones es intensa, como el paralelismo tensorial o los modelos con mezcla de expertos.

Qué mide la industria en rendimiento real

Los números sintéticos de NVIDIA apuntan a 4× más rendimiento de entrenamiento que H100 con la misma precisión, y hasta 30× más en inferencia con precisiones mixtas FP4. En la práctica los primeros clientes reportan mejoras más moderadas pero aun significativas. Meta y Microsoft han publicado resultados en MLPerf Training v5.0 donde GB200 NVL72 entrena Llama 3 70B entre 2,2× y 2,8× más rápido que el equivalente en H100, por GPU y con el mismo presupuesto de potencia.

La diferencia entre el 4× teórico y el 2,5× real es interesante. Una parte viene de que los benchmarks sintéticos suelen asumir precisión FP8 o FP4, mientras que los entrenamientos reales todavía usan bastante BF16 por razones de estabilidad. Otra parte viene de que el software de NVIDIA para Blackwell, en particular cuDNN 9 y las últimas versiones de TransformerEngine, todavía está madurando.

El otro número relevante es el consumo. Una GPU Blackwell B200 consume 1.000 vatios, frente a los 700 de H100. Un rack completo GB200 NVL72 está en 120 kilovatios, aproximadamente 10× lo que consume un rack tradicional de servidores de propósito general. Esto obliga a refrigeración líquida directa en el chip, algo que en 2023 era minoritario y que en 2025 se ha convertido en el requisito por defecto para centros de datos de IA.

Rack NVIDIA GB200 NVL72 en COMPUTEX 2024, el sistema que cambia la unidad de compra de GPU individual a armario completo con refrigeración líquida y 120 kW de densidad, redefiniendo los requisitos de centros de datos de IA

El papel de FP4 y la cuantización

Una de las novedades técnicas de Blackwell es el soporte nativo para FP4, una precisión de 4 bits por elemento que no existía en Hopper. FP4 no es útil para entrenamiento, donde los gradientes requieren más precisión para converger, pero es muy útil para inferencia de modelos grandes. Un modelo entrenado en BF16 y cuantizado a FP4 cabe en un cuarto del espacio, consume un cuarto del ancho de banda de memoria, y se ejecuta mucho más rápido si el hardware lo soporta nativamente.

El problema de FP4 es que no todos los modelos se cuantizan bien a 4 bits. Para transformers densos grandes, tipo Llama o Mistral, FP4 con calibración cuidadosa pierde entre 0,5 y 2 puntos en benchmarks estándar. Para modelos con mezcla de expertos o para tareas sensibles a precisión numérica, la caída es mayor. La recomendación actual es usar FP8 para inferencia de alta calidad y FP4 para casos donde el coste importa más que los últimos puntos de calidad.

Esto tiene una implicación práctica: Blackwell es más atractivo para quien tiene cargas de inferencia masivas que para quien solo entrena. Los hiperescalares tienen las dos cargas y pueden amortizar el hardware en ambas; los centros académicos o las startups tienden a inclinarse más hacia el entrenamiento. Para los SLM en el edge, el ecosistema de cuantización que Blackwell ha normalizado también está bajando a hardware más modesto con tiempo.

Software: el ecosistema sigue evolucionando

El ecosistema de software para Blackwell tiene dos niveles. En el nivel bajo, CUDA 12.5 y cuDNN 9 ya incluyen el soporte estable, lo mismo que NCCL 2.22. En el nivel alto, los entornos más populares van detrás. PyTorch 2.5 añadió soporte inicial de Blackwell, pero las primeras optimizaciones reales llegaron en 2.6 en enero de 2025. JAX siguió una trayectoria similar con soporte experimental en 0.4.35 y estable en 0.5.

La consecuencia práctica es que en septiembre de 2025 el ecosistema está maduro para entrenamiento de modelos estándar, pero siguen habiendo casos de borde. Los equipos serios mantienen un entorno Hopper paralelo para verificar.

Precio, disponibilidad y alternativas

En septiembre de 2025 un rack GB200 NVL72 cuesta alrededor de 3 millones de dólares para un comprador directo, y los plazos de entrega rondan los 9 meses salvo para los grandes clientes preferenciales. Esto implica que durante 2025 y buena parte de 2026, el acceso a Blackwell es básicamente a través de la nube: CoreWeave, Lambda, Crusoe, Azure, AWS y Google Cloud tienen instancias disponibles a precios que van desde 6 a 12 dólares por GPU-hora según región y compromiso.

Las alternativas reales son pocas: – AMD Instinct MI300X: ha ganado cuota en 2025 con buen rendimiento y mejor ratio memoria-por-dólar, pero el ecosistema de software ROCm sigue por detrás del CUDA. – Google TPU v5p: siguen siendo competitivas pero solo disponibles dentro de Google Cloud. – Intel Gaudi 3: ha quedado relegada a un tercer escalón.

Cuándo compensa

Para la mayor parte de empresas que entrenan modelos propios, Blackwell solo tiene sentido si el coste del tiempo de entrenamiento es el cuello de botella dominante. Si una iteración de entrenamiento tarda una semana en H100 y dos días en Blackwell, la ganancia puede justificar el coste extra. Si la iteración tarda tres días en H100 y uno en Blackwell, el cálculo es menos claro porque el tiempo humano en preparar datos y analizar resultados suele ser más largo que el propio entrenamiento.

Para inferencia, el cálculo depende del volumen. A volúmenes bajos, Hopper sigue siendo más eficiente en coste por consulta, porque Blackwell está sobredimensionada. A volúmenes altos, sobre todo con cuantización FP4, Blackwell puede reducir el coste por consulta en un factor de 3 a 5.

Mi lectura

Blackwell marca un cambio de fase en la infraestructura de IA que es importante entender aunque no vayas a tocar uno de estos racks directamente. Cuando NVIDIA diseña el producto como rack y no como GPU, está empujando a la industria a un modelo donde la unidad de compra y la unidad operativa son el armario completo, con refrigeración líquida y 120 kilovatios de densidad. Esto cambia los requisitos de los centros de datos, el perfil de los equipos de operaciones, y las decisiones de co-diseño entre hardware y software.

Para quien construye aplicaciones de IA, la parte relevante es que los modelos más grandes van a estar disponibles más rápido y más baratos vía API. El coste de entrenar un modelo de frontera sigue creciendo, pero el coste unitario de consulta está bajando. Esto favorece estrategias que consumen modelos de terceros mediante API frente a estrategias que entrenan modelos propios. Solo los casos donde el modelo en sí es la diferencia competitiva, o donde los datos no pueden salir de la organización, justifican entrenar.

Para quien opera infraestructura tradicional, Blackwell es una invitación a pensar en qué parte de la pila de centros de datos pertenece todavía al futuro de propósito general y cuál pertenece al futuro de cargas especializadas de IA. Durante los próximos cinco años los centros de datos se dividen probablemente en dos tipos con perfiles radicalmente distintos, y mezclarlos en un mismo edificio deja de tener sentido.

¿Te ha resultado útil?
[Total: 11 · Media: 4.5]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.