Data lakehouse : avaliação de viabilidade econômica em implementações on-premise e nuvem
Resumo
Resumo: A consolidação da arquitetura Data Lakehouse representa um avanço significativo na engenharia de dados, unificando a flexibilidade dos Data Lakes com a governança dos Data Warehouses. No entanto, a estratégia predominante de adoção "Cloud First"tem gerado desafios orçamentários crescentes para organizações em hiperescala, impulsionando discussões sobre o repatriamento de nuvem. Este trabalho investiga a viabilidade econômica e técnica da implementação de Data Lakehouses em infraestrutura própria (On-Premise) comparada a serviços gerenciados de nuvem pública. Utilizando o framework de Custo Total de Propriedade (TCO), foi realizada uma simulação financeira projetada para cinco anos, modelando o crescimento de dados de Terabytes para Petabytes. A metodologia comparou cenários de hardware corporativo, hardware de entrada (commodity) e serviços nativos de nuvem, isolando variáveis como CapEx, OpEx e taxas de transferência. Os resultados demonstram que, embora a nuvem ofereça barreiras de entrada financeiramente imbatíveis para volumes inferiores a 220 TB (ou 75 TB em hardware de entrada), a infraestrutura própria torna-se superior em escala, atingindo um ponto de equilíbrio (break-even) no 22º mês e gerando economia acumulada superior a 60% em cenários de 3.5 PB. Adicionalmente, identificou-se o fenômeno do "Crossover de Egresso", onde apenas as taxas de saída de dados da nuvem superam o custo integral de um Data Center próprio, evidenciando riscos críticos em arquiteturas híbridas. Conclui-se que a estratégia ótima reside em um modelo dinâmico, iniciando na nuvem pela agilidade e migrando para o On-Premise para garantir a sustentabilidade financeira em escala Abstract: The consolidation of the Data Lakehouse architecture represents a significant milestone in data engineering, unifying the flexibility of Data Lakes with the governance of Data Warehouses. However, the prevailing "Cloud First" adoption strategy has created growing budgetary challenges for hyperscale organizations, driving discussions around cloud repatriation. This paper investigates the economic and technical viability of implementing Data Lakehouses on private infrastructure (On-Premise) versus public cloud managed services. Using the Total Cost of Ownership (TCO) framework, a five-year financial simulation was conducted, modeling data growth from Terabytes to Petabytes. The methodology compared enterprise hardware, entry-level (commodity) hardware, and cloud-native service scenarios, isolating variables such as CapEx, OpEx, and data transfer fees. Results demonstrate that while the public cloud offers financially unbeatable entry barriers for volumes under 220 TB (or 75 TB using entry-level hardware), on-premise infrastructure becomes superior at massive scale, reaching a break-even point by the 22nd month and generating accumulated savings exceeding 60% in 3.5 PB scenarios. Additionally, the "Egress Crossover" phenomenon was identified, where cloud data egress fees alone surpass the entire cost of a private Data Center, highlighting critical risks in hybrid architectures. The study concludes that the optimal strategy lies in a dynamic model, starting in the cloud for agility and migrating to On-Premise to ensure long-term financial sustainability at scale
Collections
- Data Science & Big Data [190]