• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Data lakehouse : avaliação de viabilidade econômica em implementações on-premise e nuvem

    Thumbnail
    Visualizar/Abrir
    R - E - GUSTAVO VALENTE NUNES.pdf (1.519Mb)
    Data
    2025
    Autor
    Nunes, Gustavo Valente
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A consolidação da arquitetura Data Lakehouse representa um avanço significativo na engenharia de dados, unificando a flexibilidade dos Data Lakes com a governança dos Data Warehouses. No entanto, a estratégia predominante de adoção "Cloud First"tem gerado desafios orçamentários crescentes para organizações em hiperescala, impulsionando discussões sobre o repatriamento de nuvem. Este trabalho investiga a viabilidade econômica e técnica da implementação de Data Lakehouses em infraestrutura própria (On-Premise) comparada a serviços gerenciados de nuvem pública. Utilizando o framework de Custo Total de Propriedade (TCO), foi realizada uma simulação financeira projetada para cinco anos, modelando o crescimento de dados de Terabytes para Petabytes. A metodologia comparou cenários de hardware corporativo, hardware de entrada (commodity) e serviços nativos de nuvem, isolando variáveis como CapEx, OpEx e taxas de transferência. Os resultados demonstram que, embora a nuvem ofereça barreiras de entrada financeiramente imbatíveis para volumes inferiores a 220 TB (ou 75 TB em hardware de entrada), a infraestrutura própria torna-se superior em escala, atingindo um ponto de equilíbrio (break-even) no 22º mês e gerando economia acumulada superior a 60% em cenários de 3.5 PB. Adicionalmente, identificou-se o fenômeno do "Crossover de Egresso", onde apenas as taxas de saída de dados da nuvem superam o custo integral de um Data Center próprio, evidenciando riscos críticos em arquiteturas híbridas. Conclui-se que a estratégia ótima reside em um modelo dinâmico, iniciando na nuvem pela agilidade e migrando para o On-Premise para garantir a sustentabilidade financeira em escala
     
    Abstract: The consolidation of the Data Lakehouse architecture represents a significant milestone in data engineering, unifying the flexibility of Data Lakes with the governance of Data Warehouses. However, the prevailing "Cloud First" adoption strategy has created growing budgetary challenges for hyperscale organizations, driving discussions around cloud repatriation. This paper investigates the economic and technical viability of implementing Data Lakehouses on private infrastructure (On-Premise) versus public cloud managed services. Using the Total Cost of Ownership (TCO) framework, a five-year financial simulation was conducted, modeling data growth from Terabytes to Petabytes. The methodology compared enterprise hardware, entry-level (commodity) hardware, and cloud-native service scenarios, isolating variables such as CapEx, OpEx, and data transfer fees. Results demonstrate that while the public cloud offers financially unbeatable entry barriers for volumes under 220 TB (or 75 TB using entry-level hardware), on-premise infrastructure becomes superior at massive scale, reaching a break-even point by the 22nd month and generating accumulated savings exceeding 60% in 3.5 PB scenarios. Additionally, the "Egress Crossover" phenomenon was identified, where cloud data egress fees alone surpass the entire cost of a private Data Center, highlighting critical risks in hybrid architectures. The study concludes that the optimal strategy lies in a dynamic model, starting in the cloud for agility and migrating to On-Premise to ensure long-term financial sustainability at scale
     
    URI
    https://hdl.handle.net/1884/100596
    Collections
    • Data Science & Big Data [190]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV