Tecnología

#centros de datos #entrenamiento ia #gb200 #gpu #hpc #nvidia blackwell #nvl72

GPUs Blackwell de NVIDIA: lo que cambia en el entrenamiento

6 de septiembre de 2025 8 min 258 4,5

Rack NVIDIA GB200 NVL72 expuesto en COMPUTEX 2024, la plataforma integrada que combina 36 CPUs Grace y 72 GPUs Blackwell conectadas por NVLink de quinta generación y que redefine el diseño de centros de datos para entrenamiento de modelos fundacionales

Índice de contenidos

Puntos clave
La idea central: el rack como unidad
Qué mide la industria en rendimiento real
El papel de FP4 y la cuantización
Software: el ecosistema sigue evolucionando
Precio, disponibilidad y alternativas
Cuándo compensa
Mi lectura
Fuentes

Actualizado: 2026-07-07

La arquitectura Blackwell de NVIDIA se presentó en GTC 2024 y los primeros sistemas comerciales empezaron a llegar a hiperescalares seleccionados a finales de 2024. En septiembre de 2025 ya hay suficientes despliegues reales, suficientes mediciones públicas y suficiente experiencia operativa para valorar qué cambia en la práctica del entrenamiento de modelos grandes. Este repaso se centra en GB200 NVL72, donde Blackwell se expresa con toda su lógica, y no en las B200 sueltas o en variantes como la B100.

Puntos clave

NVIDIA ha pasado de diseñar GPUs a diseñar racks: el GB200 NVL72 integra 72 GPUs Blackwell y 36 CPUs Grace en ~120 kW, presentándose al software como una sola máquina de 13,4 TB de HBM3e.
Los resultados oficiales de MLPerf Training v5.0^[1] muestran 2,2× más rapidez que H100 preentrenando Llama 3.1 405B y 2,5× en el ajuste fino LoRA de Llama 2 70B, no el 4× sintético que NVIDIA anuncia en sus propios materiales, pero sí una mejora considerable.
FP4 nativo es el gran habilitador para inferencia: un modelo en FP4 ocupa ¼ del espacio y usa ¼ del ancho de banda de memoria, aunque no todos los modelos se cuantizan igual de bien a 4 bits.
Un rack GB200 NVL72 cuesta en torno a 3 millones de dólares^[2], con plazos de entrega que rondan los 6 a 12 meses^[3] salvo para clientes preferenciales; el acceso práctico en 2025 es vía nube (CoreWeave, Oracle, Azure, Google Cloud) a 10-27 $/GPU-hora según proveedor^[4].
Para la mayoría de empresas que entrenan modelos propios, Blackwell solo compensa si el tiempo de entrenamiento es el cuello de botella dominante.

La idea central: el rack como unidad

Lo más distintivo de Blackwell no es la GPU en sí, aunque el salto respecto a Hopper es sustancial. Lo distintivo es que NVIDIA ha dejado de diseñar GPUs y ha empezado a diseñar racks. El GB200 NVL72^[5] integra 72 GPUs Blackwell y 36 CPUs Grace en un solo armario de aproximadamente 120 kilovatios, conectadas entre sí por NVLink de quinta generación a 1,8 terabytes por segundo. Para el software el rack se comporta como una única máquina de memoria unificada con 13,4 terabytes de HBM3e.

Este es un cambio conceptual importante. Con Hopper y las generaciones anteriores, el paralelismo de modelo requería particionar el modelo entre GPUs y gestionar explícitamente la comunicación entre ellas mediante NCCL. Con GB200 NVL72, 72 GPUs pueden acceder a la memoria de las demás como si fuera local, aunque con latencia mayor. Esto simplifica patrones de entrenamiento donde la comunicación entre particiones es intensa, como el paralelismo tensorial o los modelos con mezcla de expertos.

Qué mide la industria en rendimiento real

Los números sintéticos de NVIDIA apuntan a 4x más rendimiento de entrenamiento que H100 con la misma precisión, y hasta 30x más en inferencia con precisiones mixtas FP4. En la práctica los resultados auditados son más moderados, aunque significativos. La ronda oficial de MLPerf Training v5.0^[6], con 201 resultados enviados por 20 organizaciones, confirma las cifras de los puntos clave: 2,2x más rápido preentrenando Llama 3.1 405B y 2,5x en el ajuste fino LoRA de Llama 2 70B, siempre por GPU y con el mismo presupuesto de potencia.

La diferencia entre el 4x teórico y el resultado auditado, entre 2,2x y 2,5x, es interesante. Una parte viene de que los benchmarks sintéticos de NVIDIA asumen precisión FP8 o FP4, mientras que los entrenamientos reales todavía usan bastante BF16 por razones de estabilidad. Otra parte viene de que el software de NVIDIA para Blackwell, en particular las últimas versiones de cuDNN y TransformerEngine, todavía está madurando.

El otro número relevante es el consumo. Una GPU Blackwell B200 consume 1.000 vatios, frente a los 700 de H100^[7]. Un rack completo GB200 NVL72 está en 120 kilovatios, aproximadamente 10x lo que consume un rack tradicional de servidores de propósito general. Esto obliga a refrigeración líquida directa en el chip, algo que en 2023 era minoritario y que en 2025 se ha convertido en el requisito por defecto para centros de datos de IA.

Rack NVIDIA GB200 NVL72 en COMPUTEX 2024, el sistema que cambia la unidad de compra de GPU individual a armario completo con refrigeración líquida y 120 kW de densidad, redefiniendo los requisitos de centros de datos de IA

El papel de FP4 y la cuantización

Una de las novedades técnicas de Blackwell es el soporte nativo para FP4, una precisión de 4 bits por elemento que no existía en Hopper. FP4 no es útil para entrenamiento, donde los gradientes requieren más precisión para converger, pero es muy útil para inferencia de modelos grandes. Un modelo entrenado en BF16 y cuantizado a FP4 cabe en un cuarto del espacio, consume un cuarto del ancho de banda de memoria, y se ejecuta mucho más rápido si el hardware lo soporta nativamente.

El problema de FP4 es que no todos los modelos se cuantizan igual de bien a 4 bits. NVIDIA ha demostrado que su receta de cuantización FP4^[8], aplicada con la librería TensorRT Model Optimizer, puede cumplir el umbral de precisión estricto que exige MLPerf en modelos como Llama 2 70B, sin necesidad de reentrenar. Pero eso depende de una calibración cuidadosa modelo a modelo; para arquitecturas con mezcla de expertos o tareas muy sensibles a la precisión numérica, la caída de calidad suele notarse más. La recomendación actual es usar FP8 para inferencia de alta calidad y reservar FP4 para los casos donde el coste importa más que los últimos puntos de calidad.

Esto tiene una implicación práctica: Blackwell es más atractivo para quien tiene cargas de inferencia masivas que para quien solo entrena. Los hiperescalares tienen las dos cargas y pueden amortizar el hardware en ambas; los centros académicos o las startups tienden a inclinarse más hacia el entrenamiento. Para los SLM en el edge, el ecosistema de cuantización que Blackwell ha normalizado también está bajando a hardware más modesto con tiempo.

Software: el ecosistema sigue evolucionando

El ecosistema de software para Blackwell tiene dos niveles. En el nivel bajo, CUDA 12.8 fue la versión que añadió soporte oficial para Blackwell^[9], con cuDNN y NCCL actualizados en el mismo lanzamiento. En el nivel alto, los entornos más populares fueron detrás: PyTorch no ofreció soporte oficial hasta la versión 2.7^[10], publicada en abril de 2025 con binarios para CUDA 12.8; las versiones 2.5 y 2.6 solo cubrían hasta Hopper. JAX se adelantó: el contenedor NVIDIA 25.01, basado en jaxlib 0.4.38, ya soportaba Blackwell desde enero de 2025.

La consecuencia práctica es que en septiembre de 2025 el ecosistema lleva ya varios meses maduro para entrenamiento de modelos estándar, aunque siguen apareciendo casos de borde. Los equipos serios mantienen un entorno Hopper paralelo para verificar resultados.

Precio, disponibilidad y alternativas

En septiembre de 2025 un rack GB200 NVL72 sigue costando en torno a los 3 millones de dólares para un comprador directo, con plazos de entrega de varios meses salvo para los grandes clientes preferenciales. Esto implica que durante 2025 y buena parte de 2026, el acceso a Blackwell es básicamente a través de la nube: CoreWeave, Oracle, Azure y Google Cloud tienen instancias disponibles a un precio por GPU-hora que varía bastante según proveedor y compromiso, tal y como recogen las cifras de los puntos clave.

Las alternativas reales son pocas. AMD Instinct MI300X ha ganado cuota en 2025 con buen rendimiento y mejor ratio memoria por dólar, aunque el ecosistema de software ROCm sigue por detrás de CUDA. Google TPU v5p sigue siendo competitiva, pero solo está disponible dentro de Google Cloud. Intel Gaudi 3 ha quedado relegada a un tercer escalón. Para un repaso más amplio de estos competidores, ver alternativas a NVIDIA en 2026.

Cuándo compensa

Para la mayor parte de empresas que entrenan modelos propios, Blackwell solo tiene sentido si el coste del tiempo de entrenamiento es el cuello de botella dominante. Si una iteración de entrenamiento tarda una semana en H100 y dos días en Blackwell, la ganancia puede justificar el coste extra. Si la iteración tarda tres días en H100 y uno en Blackwell, el cálculo es menos claro porque el tiempo humano en preparar datos y analizar resultados suele ser más largo que el propio entrenamiento.

Para inferencia, el cálculo depende del volumen. A volúmenes bajos, Hopper sigue siendo más eficiente en coste por consulta, porque Blackwell está sobredimensionada. A volúmenes altos, sobre todo con cuantización FP4, Blackwell puede reducir el coste por consulta en un factor de 3 a 5.

Mi lectura

Blackwell marca un cambio de fase en la infraestructura de IA que es importante entender aunque no vayas a tocar uno de estos racks directamente. Cuando NVIDIA diseña el producto como rack y no como GPU, está empujando a la industria a un modelo donde la unidad de compra y la unidad operativa son el armario completo, con refrigeración líquida y 120 kilovatios de densidad. Esto cambia los requisitos de los centros de datos, el perfil de los equipos de operaciones, y las decisiones de co-diseño entre hardware y software.

Para quien construye aplicaciones de IA, la parte relevante es que los modelos más grandes van a estar disponibles más rápido y más baratos vía API. El coste de entrenar un modelo de frontera sigue creciendo, pero el coste unitario de consulta está bajando. Esto favorece estrategias que consumen modelos de terceros mediante API frente a estrategias que entrenan modelos propios. Solo los casos donde el modelo en sí es la diferencia competitiva, o donde los datos no pueden salir de la organización, justifican entrenar.

Para quien opera infraestructura tradicional, Blackwell es una invitación a pensar en qué parte de la pila de centros de datos pertenece todavía al futuro de propósito general y cuál pertenece al futuro de cargas especializadas de IA. Durante los próximos cinco años los centros de datos se dividen probablemente en dos tipos con perfiles radicalmente distintos, y mezclarlos en un mismo edificio deja de tener sentido.

Disponible también en inglés: NVIDIA Blackwell GPUs: what changes for training.

GPUs Blackwell de NVIDIA: lo que cambia en el entrenamiento

Puntos clave

La idea central: el rack como unidad

Qué mide la industria en rendimiento real

El papel de FP4 y la cuantización

Software: el ecosistema sigue evolucionando

Precio, disponibilidad y alternativas

Cuándo compensa

Mi lectura

Fuentes

Comparte este artículo

¿Te ha resultado útil este artículo?

Entradas relacionadas

NIS2 en España: traducción técnica de las obligaciones para 2026

Observabilidad de agentes con OpenTelemetry GenAI semconv en 2026

Cómo instalar oMLX en M5 Max 128 GB y exprimirlo al máximo

Software esencial para tu nuevo Mac M5 (guía 2026)