En el panorama actual de la gestión de datos, las empresas buscan soluciones que les permitan manejar volúmenes crecientes de información de forma eficiente, segura y adaptable a las nuevas demandas tecnológicas. En este contexto, el Iceberg Summit 2025 se presentó como una plataforma clave para conocer de primera mano las experiencias y desafíos enfrentados por grandes organizaciones que han adoptado Apache Iceberg como parte fundamental de sus arquitecturas de datos. Siete presentaciones de usuarios destacados, representando a compañías como Airbnb, Bloomberg, Pinterest, Wise, Autodesk, Mediaset y Slack, ofrecieron un valioso panorama sobre las múltiples facetas de la implementación de Iceberg. A partir de sus charlas, es posible extraer aprendizajes relevantes que reflejan las tendencias actuales, así como las perspectivas futuras en el uso de esta tecnología. Una de las motivaciones principales para la adopción de Iceberg radica en la interoperabilidad entre múltiples motores de procesamiento de datos.
Las empresas destacan la necesidad de contar con capacidades que permitan consultar, procesar y actualizar datos mediante diferentes tecnologías como Trino, Spark o Flink, lo que facilita la integración y flexibilidad del ecosistema de datos. También se resalta el potencial que ofrece Iceberg para reducir costos operativos, especialmente al optimizar procesos de ingestión de streaming y evitar replicaciones innecesarias de datos. Esta eficiencia no solo impacta en el ahorro económico, sino que además favorece la creación y soporte de nuevos casos de uso orientados a la toma de decisiones en tiempo casi real, algo especialmente valorado por organizaciones como Slack o Airbnb. El manejo de catálogos representa otro punto crítico y, aunque aún no hay un consenso definitivo, existe un acuerdo generalizado sobre la importancia futura de los catálogos basados en arquitecturas REST. Por ejemplo, varias empresas han desarrollado catálogos propios basados en REST y apoyados en bases de datos relacionales como Postgres, con el fin de integrar soluciones de control de acceso y garantizar la compatibilidad entre motores.
Sin embargo, los catálogos tradicionales, como Hive MetaStore, continúan siendo empleadas en diversos entornos, mientras que otros invierten en catálogos construidos desde cero para adaptarse mejor a sus necesidades específicas. La gobernanza de datos es una prioridad creciente y muchos asistentes al summit destacaron la demanda por mecanismos robustos de control, tales como Row-Level Security (RLS), Column Masking y Role-Based Access Control (RBAC). Estas herramientas son fundamentales para garantizar el cumplimiento normativo y la seguridad de la información sensible en entornos empresariales complejos. Entre las empresas participantes, Bloomberg implementó políticas de acceso a nivel de tabla usando catálogos personalizados y etiquetas de metadatos para limitar el acceso según permisos, mientras Autodesk ha adoptado soluciones como Privacera, aunque también manifiestan interés en alternativas abiertas para estos fines. Algo que quedó claro es que la capacidad de los catálogos de código abierto en temas avanzados de seguridad y gobernanza todavía está en desarrollo y no siempre alcanza las expectativas de las grandes organizaciones.
En cuanto a los casos de uso, la coexistencia de ingestiones en streaming y procesos batch es un fenómeno destacado que refleja la realidad operacional en la mayoría de las empresas. Aunque la transmisión de datos en tiempo real gana cada vez más terreno, las cargas batch continúan siendo esenciales para diversos escenarios analíticos y de procesamiento. Organizaciones como Slack, Wise y Pinterest han implementado ingestiones por streaming para capturar eventos, logs y cambios a nivel de base de datos, mientras que Bloomberg y Bauplan mantienen un flujo considerable de procesamiento batch orientado a consultas interactivas y actualizaciones diarias. Esta dualidad se corresponde con una tendencia que los usuarios han observado desde hace varios años, donde un equilibrio aproximado entre streaming y batch se mantiene como un estándar práctico. No obstante, la incorporación del streaming junto con tareas de mantenimiento y limpieza de tablas introduce una complejidad operacional significativa.
Este es un desafío recurrente que muchas empresas reportaron. Por ejemplo, Airbnb experimenta la necesidad de realizar compactaciones agresivas para evitar que la calidad de las consultas se degrade por la naturaleza de las escrituras asíncronas que realiza Flink. Slack enfrenta problemas de archivos huérfanos debido a la concurrencia elevada y a frecuentes commits, mientras que Wise ha debido diseñar complejidades adicionales en su gestión de mantenimiento de tablas para asegurar un buen rendimiento. Estas experiencias reflejan que, aunque el streaming es muy valioso, la gestión eficiente de la limpieza y la optimización en un entorno de Big Data resulta ser un trabajo constante y desafiante. Por su parte, los equipos de plataforma han adoptado un enfoque orientado a mejorar la experiencia de los usuarios internos a través de interfaces DevOps que hacen uso de formatos legibles como YAML, además de integraciones con controles de versiones mediante pull requests y pipelines de CI/CD.
Esta estrategia reduce la complejidad percibida y permite que científicos de datos y desarrolladores generen configuraciones y desplieguen cargas de trabajo sin profundos conocimientos técnicos de infraestructura. Airbnb, por ejemplo, facilita a sus usuarios la definición de esquemas y particionamientos para que el sistema maneje automáticamente el resto del flujo. Wise emplea configuraciones en YAML integradas en sistemas de revisión y automatización para asegurar calidad y trazabilidad. Autodesk simplifica la presentación de trabajos usando herramientas como Airflow para gestionar la ejecución en clusters de EMR. Finalmente, hay un reconocido desafío en lograr que las áreas cliente o equipos de negocio adopten plenamente las nuevas infraestructuras basadas en Iceberg.
Muchos proyectos pasan por fases de prueba y migración gradual para facilitar la transición y minimizar riesgos. Autodesk implementa banderas de funciones para permitir el uso simultáneo de Hive e Iceberg, mientras Airbnb adopta una migración progresiva donde se inicia el uso básico de Iceberg y luego se incrementan progresivamente las funcionalidades avanzadas. Mediaset promueve una estrategia basada en líderes técnicos internos que impulsan el cambio desde abajo, involucrando a los usuarios finales para construir conjuntamente la plataforma. Estas aproximaciones muestran que más allá de la tecnología, la gestión efectiva del cambio cultural y la experiencia de usuario son clave para el éxito en la adopción de Iceberg. En resumen, el Iceberg Summit 2025 ha dejado patente que Apache Iceberg se posiciona como una solución sólida que responde a retos modernos de interoperabilidad, eficiencia y gobernanza en el ecosistema de datos.
Sin embargo, también evidenció que existen áreas cruciales como la gestión de catálogos, la gobernanza avanzada y la complejidad operacional del streaming que requieren evolución y mayor madurez por parte de la comunidad y las herramientas open source. A medida que organizaciones líderes continúan implementando y experimentando con Iceberg, se espera que la oferta tecnológica mejore, los procesos se simplifiquen y la adopción se expanda a nuevos casos de uso. El camino hacia una integración más unificada de streaming y batch, junto con mejores interfaces para usuarios, promete ser el foco para el futuro próximo, seguramente reflejado en próximos eventos y desarrollos en la comunidad Iceberg. La experiencia compartida por empresas referentes demuestra que, si bien los desafíos son reales, la adopción informada y planificada de Iceberg abre las puertas a plataformas de datos más flexibles, escalables y seguras que impulsan la innovación y la eficiencia empresarial.