Mascota Jacar — leyendo contigo Un portátil cuyos ojos siguen el cursor mientras lees.
Arquitectura

Delta Lake y Apache Iceberg: comparativa 2025

Delta Lake y Apache Iceberg: comparativa 2025

Actualizado: 2026-05-03

Los formatos de tabla abiertos sobre lagos de datos han pasado en tres años de ser una decisión técnica menor a convertirse en el centro de cualquier arquitectura analítica seria. Delta Lake, originalmente creado por Databricks y liberado bajo licencia Apache 2.0, y Apache Iceberg, incubado en Netflix y graduado como proyecto de primera categoría en Apache, son los dos que más cuota han acaparado. Con Delta Lake 4.0 publicado en abril de 2025 y Apache Iceberg 1.9 en mayo, toca revisar dónde están ambos formatos y qué criterios conviene aplicar al elegir.

El contexto de gobernanza de datos y las decisiones de catálogo se conectan con lo que describimos en GraphRAG de Microsoft en empresa y en la arquitectura de RAG 2.0 con grafos de conocimiento. Para la capa de almacenamiento de objetos donde estos formatos operan, el análisis de Kubernetes 1.33 mejoras cubre el contexto de plataforma relevante.

Puntos clave

  • Delta Lake 4.0 aporta soporte para Spark 4.0, Rust como motor nativo sin JVM, liquid clustering y mejoras en UniForm.
  • Apache Iceberg 1.9 refina el catálogo REST; la llegada de Polaris de Snowflake resuelve históricamente el punto débil de los catálogos.
  • UniForm de Delta permite que un mismo conjunto de archivos sea leído como Delta o Iceberg, reduciendo la diferencia de ecosistema entre ambos.
  • Para empresas nuevas sin atadura a Databricks, Iceberg es la apuesta más segura por neutralidad y catálogos REST maduros.
  • Para equipos que ya operan con Databricks, Delta sigue siendo la elección natural.

Qué son y de dónde vienen

Tanto Delta como Iceberg resuelven el mismo problema: aportar propiedades transaccionales ACID, evolución de esquema, recorridos en el tiempo y gestión de metadatos a formatos de almacenamiento como Parquet u ORC sobre sistemas de objetos como S3 o almacenamiento compatible. La diferencia no está en qué hacen sino en cómo lo hacen y en el ecosistema que los rodea.

Delta Lake nació en Databricks en 2017 y se liberó en 2019. Durante años tuvo una relación ambigua con la empresa matriz, con funcionalidades avanzadas solo disponibles en Databricks, hasta que la versión 3.0 de 2023 abrió prácticamente toda la superficie como UniForm. La adquisición de Tabular, creadores comerciales de Iceberg, por parte de Databricks en junio de 2024 marcó un cambio de estrategia hacia convergencia.

Apache Iceberg surgió en Netflix en 2017 y llegó a la fundación Apache en 2018. Se diseñó como formato neutral sin empresa dominante, neutralidad que atrajo a Snowflake, Google BigQuery, AWS Athena, Trino, Dremio y Starburst como formato de primera clase. Iceberg se convirtió en la apuesta de quienes querían multi-motor sin atadura a un vendedor.

Novedades en las versiones recientes

Delta Lake 4.0 (abril 2025) aporta tres cambios relevantes:

  1. Soporte completo para Spark 4.0 y Rust como motor nativo vía el proyecto delta-rs, que permite leer y escribir Delta sin JVM. Importante para entornos que quieren evitar el peso de Spark en tareas de ingesta simple.
  2. Liquid clustering como estrategia de organización de datos, que reemplaza al tradicional Z-ordering con mejor adaptabilidad a patrones de consulta cambiantes.
  3. Mejoras en el protocolo UniForm que permiten que un mismo conjunto de archivos sea leído como Delta o Iceberg sin duplicación.

Apache Iceberg 1.9 (mayo 2025) aporta mejoras en el catálogo REST, soporte de partición oculta y rendimiento de escrituras concurrentes. La pieza más relevante del último año no fue una funcionalidad de Iceberg en sí sino la llegada de catálogos REST maduros como Polaris de Snowflake, abierto en 2024, que permiten gestionar tablas Iceberg de forma agnóstica al proveedor. Esto es clave porque el catálogo ha sido históricamente el punto débil de Iceberg: demasiadas implementaciones incompatibles.

Rendimiento en cargas reales

El rendimiento depende tanto del formato como del motor que lo consume, así que comparaciones limpias son difíciles. Lo que sí se puede decir es que en cargas equivalentes, Delta sobre Spark e Iceberg sobre Trino dan resultados muy similares en lectura. La diferencia aparece en escrituras concurrentes: Iceberg usa un modelo de copia en escritura con control optimístico de concurrencia que escala mejor cuando muchos procesos escriben en paralelo, mientras que Delta ha sido históricamente más conservador con conflictos.

En compactación y mantenimiento las diferencias son sutiles. Delta tiene comandos OPTIMIZE maduros y el liquid clustering nuevo mejora el rendimiento de consultas con patrones variables. Iceberg tiene procedimientos equivalentes pero su integración depende del motor: cada motor implementa sus propios comandos de mantenimiento, lo que puede generar variabilidad en la experiencia.

Para cargas masivas, ambas herramientas aguantan petabytes sin problemas conocidos. A partir de cierto volumen, la diferencia de rendimiento entre formatos se vuelve menor que la diferencia entre implementaciones de motor o estrategias de partición.

Ecosistema y motores

Aquí es donde se ha jugado la competición real durante 2024 y 2025. Iceberg tiene ventaja en neutralidad: Snowflake lo soporta de forma nativa, BigQuery lo puede leer sin ingesta, Athena lo consulta directamente, y los principales motores de código abierto —Trino, Spark, Flink y Dremio— lo soportan con madurez.

Delta ha cerrado esa brecha a toda velocidad. Con UniForm, un mismo conjunto de archivos Delta puede ser leído como Iceberg por motores que no tienen soporte nativo para Delta. La adquisición de Tabular por Databricks en 2024 apunta a convergencia mayor: los mantenedores principales de Iceberg trabajan ahora en Databricks y la empresa ha dicho públicamente que quiere ambos formatos como complementarios.

Criterios prácticos de elección

Para una empresa que empieza desde cero en 2025, la decisión depende del motor principal:

  • Centro de gravedad en Databricks: Delta es la elección natural.
  • Snowflake, BigQuery o catálogo multi-motor con Trino: Iceberg encaja mejor por soporte nativo.
  • Arquitecturas mixtas: UniForm de Delta ofrece una ruta pragmática: escribir en Delta y consumir como Iceberg cuando haga falta.

El catálogo es un factor que conviene analizar con atención: Iceberg con catálogo REST como Polaris o AWS Glue permite acceso multi-motor con control centralizado; Delta con Unity Catalog ofrece una experiencia muy pulida pero históricamente atada a Databricks.

Coste de cambio

Una pregunta frecuente es si se debe migrar desde un formato ya en uso. La respuesta corta es: rara vez. Migrar petabytes es caro, arriesgado y raramente compensa si la plataforma actual funciona. Donde sí puede tener sentido es en empresas que quieren abrir datos a consumidores externos o a equipos con motores distintos; en ese caso, UniForm o una capa de espejo Iceberg sobre Delta resuelven el problema sin migración completa.

Mi lectura

Mi lectura de la situación en 2025 es que ambos formatos son sólidos, ambos tienen futuro, y la competencia entre ellos ha mejorado la oferta general. La decisión para empresas nuevas se reduce a dónde está el centro de gravedad de su plataforma analítica.

  • Para equipos que arrancan ahora sin vínculo previo con Databricks: Iceberg es probablemente la apuesta más segura por su neutralidad y el momento dulce de los catálogos REST maduros.
  • Para equipos que ya operan con Databricks: Delta sigue siendo natural.

El escenario interesante es que la convergencia puede hacer esta decisión menos importante con el tiempo. Si UniForm evoluciona bien y los catálogos mejoran su interoperabilidad, el formato subyacente importará cada vez menos, y la decisión se moverá a donde importa más: gobernanza, gestión de costes y calidad de los datos.

¿Te ha resultado útil?
[Total: 10 · Media: 4.7]

Escrito por

CEO - Jacar Systems

Apasionado de la tecnología, la infraestructura cloud y la inteligencia artificial. Escribe sobre DevOps, IA, plataformas y software desde Madrid.