Los formatos de tabla abiertos sobre lagos de datos han pasado en tres anios de ser una decision tecnica menor a convertirse en el centro de cualquier arquitectura analitica seria. Delta Lake, originalmente creado por Databricks y liberado bajo licencia Apache 2.0, y Apache Iceberg, incubado en Netflix y graduado como proyecto de primera categoria en Apache, son los dos que mas cuota han acaparado. Con Delta Lake 4.0 publicado en abril de 2025 y Apache Iceberg 1.9 en mayo, toca revisar donde estan ambos formatos y que criterios conviene aplicar al elegir.
Que son y de donde vienen
Tanto Delta como Iceberg resuelven el mismo problema: aportar propiedades transaccionales ACID, evolucion de esquema, recorridos en el tiempo y gestion de metadatos a formatos de almacenamiento como Parquet o ORC sobre sistemas de objetos como S3 o almacenamiento compatible. La diferencia no esta en que hacen sino en como lo hacen y en el ecosistema que los rodea.
Delta Lake nacio en Databricks en 2017 y se libero en 2019. Durante anios tuvo una relacion ambigua con la empresa matriz, con funcionalidades avanzadas solo disponibles en Databricks, hasta que la version 3.0 de 2023 abrio practicamente toda la superficie como UniForm, una capa de compatibilidad que permite que motores distintos lean y escriban Delta. La adquisicion de Tabular, creadores comerciales de Iceberg, por parte de Databricks en junio de 2024 marco un cambio de estrategia hacia convergencia.
Apache Iceberg surgio en Netflix en 2017 y llego a la fundacion Apache en 2018. Se disenio como formato neutral sin empresa dominante, neutralidad que atrajo a Snowflake, Google BigQuery, AWS Athena, Trino, Dremio y Starburst como formato de primera clase. Iceberg se convirtio en la apuesta de quienes queria multi-motor sin atadura a un vendedor.
Novedades en las versiones recientes
Delta Lake 4.0, publicado en abril de 2025, aporta tres cambios relevantes. Primero, soporte completo para Spark 4.0 y Rust como motor nativo via el proyecto delta-rs, que permite leer y escribir Delta sin JVM. Esto es importante para entornos que quieren evitar el peso de Spark en tareas de ingesta simple. Segundo, liquid clustering como estrategia de organizacion de datos, que reemplaza al tradicional Z-ordering con mejor adaptabilidad a patrones de consulta cambiantes. Tercero, mejoras en el protocolo UniForm que permiten que un mismo conjunto de archivos sea lido como Delta o Iceberg sin duplicacion.
Apache Iceberg 1.9, publicado en mayo de 2025, aporta mejoras en el catalogo REST, en el soporte de particion oculta y en el rendimiento de escrituras concurrentes. La pieza mas relevante del ultimo anio no fue una funcionalidad de Iceberg en si sino la llegada de catalogos REST maduros como Polaris de Snowflake, abierto en 2024, que permiten gestionar tablas Iceberg de forma agnostica al proveedor. Esto es clave porque el catalogo ha sido historicamente el punto debil de Iceberg: demasiadas implementaciones incompatibles.
Rendimiento en cargas reales
El rendimiento depende tanto del formato como del motor que lo consume, asi que comparaciones limpias son dificiles. Lo que si se puede decir es que en cargas equivalentes, Delta sobre Spark y Iceberg sobre Trino dan resultados muy similares en lectura. La diferencia aparece en escrituras concurrentes: Iceberg usa un modelo de copia en escritura con control optimistico de concurrencia que escala mejor cuando muchos procesos escriben en paralelo, mientras que Delta tradicionalmente ha sido mas conservador con conflictos.
En compactacion y mantenimiento las diferencias son sutiles. Delta tiene comandos OPTIMIZE maduros y el liquid clustering nuevo mejora el rendimiento de consultas con patrones variables. Iceberg tiene procedures equivalentes pero su integracion depende del motor: cada motor implementa sus propios comandos de mantenimiento, lo que puede generar variabilidad en la experiencia.
Para cargas masivas, ambas herramientas aguantan petabytes sin problemas conocidos. A partir de cierto volumen, la diferencia de rendimiento entre formatos se vuelve menor que la diferencia entre implementaciones de motor o estrategias de particion.
Ecosistema y motores
Aqui es donde se ha jugado la competicion real durante 2024 y 2025. Iceberg tiene ventaja en neutralidad: Snowflake lo soporta de forma nativa, BigQuery lo puede leer sin ingestion, Athena lo consulta directamente, y los principales motores de codigo abierto, Trino, Spark, Flink y Dremio, lo soportan con madurez. Esta ubicuidad es el argumento fuerte para empresas que quieren evitar la atadura con un proveedor unico.
Delta ha cerrado esa brecha a toda velocidad. Con UniForm, un mismo conjunto de archivos Delta puede ser lido como Iceberg por motores que no tienen soporte nativo para Delta. Esto es un movimiento astuto: permite mantener Delta como formato de escritura en Databricks y que cualquier motor Iceberg lo consuma sin copiar datos. A efectos practicos, UniForm reduce la diferencia de ecosistema entre ambos formatos.
La adquisicion de Tabular por Databricks en 2024 apunta a convergencia mayor: los mantenedores principales de Iceberg trabajan ahora en Databricks y la empresa ha dicho publicamente que quiere ambos formatos como complementarios, no excluyentes. La direccion es clara: menos dogma y mas interoperabilidad.
Criterios practicos de eleccion
Para una empresa que empieza desde cero en 2025, la decision depende del motor principal. Si el centro de gravedad es Databricks, Delta es la eleccion natural. Si es Snowflake, BigQuery o un catalogo multi-motor con Trino, Iceberg encaja mejor por soporte nativo. Para arquitecturas mixtas, UniForm de Delta ofrece una ruta pragmatica: escribir en Delta y consumir como Iceberg cuando haga falta. El catalogo es un factor que conviene analizar con atencion: Iceberg con catalogo REST como Polaris o AWS Glue permite acceso multi-motor con control centralizado, mientras que Delta con Unity Catalog ofrece una experiencia muy pulida pero historicamente atada a Databricks.
Coste de cambio
Una pregunta frecuente es si se debe migrar desde un formato ya en uso. La respuesta corta es rara vez. Migrar petabytes es caro, arriesgado y raramente compensa: si la plataforma actual funciona, invertir en procesos, catalogo o gobernanza suele dar mejor retorno. Donde si puede tener sentido es en empresas que quieren abrir datos a consumidores externos o a equipos con motores distintos; en ese caso, UniForm o una capa de espejo Iceberg sobre Delta resuelven el problema sin migracion completa.
Cuando compensa
Mi lectura de la situacion en 2025 es que ambos formatos son solidos, ambos tienen futuro, y la competencia entre ellos ha mejorado la oferta general. La decision para empresas nuevas se reduce a donde esta el centro de gravedad de su plataforma analitica: Databricks empuja hacia Delta, los demas grandes empujan hacia Iceberg, y UniForm permite ciertos hibridos. Para equipos que arrancan ahora y no tienen vinculo previo con Databricks, Iceberg es probablemente la apuesta mas segura por su neutralidad y el momento dulce de los catalogos REST maduros; para equipos que ya operan con Databricks, Delta sigue siendo natural.
El escenario interesante es que la convergencia puede hacer esta decision menos importante con el tiempo. Si UniForm evoluciona bien y los catalogos mejoran su interoperabilidad, el formato subyacente importara cada vez menos, y la decision se movera a donde importa mas: gobernanza, gestion de costes y calidad de los datos.