• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Machine learning para processos em banco de dados

    Thumbnail
    Visualizar/Abrir
    R - E - KALLEBY LEE ARAUJO RAMOS.pdf (481.1Kb)
    Data
    2020
    Autor
    Ramos, Kalleby Lee Araujo
    Metadata
    Mostrar registro completo
    Resumo
    Resumo : Extract Transform Load (ETL) é a sistematização do tratamento e limpeza dos dados gerados através dos diversos sistemas organizacionais para a sua posterior inserção, geralmente em Data Warehouse ou Data Mart. A urgência para processos de ETL mais ágeis é eminente. Contudo, em negócios com uma estrutura já arquitetada, a migração para arquiteturas recentes e escaláveis (Cloud) pode tornar a implantação um trabalho difícil. Neste contexto, o objetivo é melhorar a agilidade nos processos de ETL utilizando Machine Learning (Aprendizado de máquina). Para isto, foi feito um estudo do comportamento do banco de dados para detectar padrões de uso de processamento e taxa de transferência da memória e agendar vários processos de ETL. A agilidade dos processos ETL será maior devido à quantidade de vezes que o processo será realizado durante o dia. Normalmente os processos de ETL são realizados apenas uma vez por dia devido à concorrência de processamento, ao detectar padrões de comportamento os processos ETL poderão ser agendados mais de uma vez ao dia. Dessa maneira, a latência de atualização dos dados será otimizada e problemas como atraso de informações, atualmente em D-1 (atraso de 1 dia) poderão ser evitados.
     
    Abstract : Extract Transform Load (ETL) is the systematization of the treatment of data generated by many organizational systems, usually stored in a Data Warehouse or Data Mart. The urgency for a more resource efficient ETL process is eminent. In this context, the objective is to improve the efficiency of the ETL processing using an adapted Machine Learning clustering algorithm. For this, we study the behavior of the ETL resource usage from many production ETL processes. Normally the ETL process is executed once a day due to resource contention issues. With our ML algorithm in a production scenario, the ETL processes can be scheduled to execute more than once a day. Thus, the latency of data update to feed analytic systems can be optimized and problems like information delay, currently in D – 1 (delay of one day) can be avoided.
     
    URI
    https://hdl.handle.net/1884/71069
    Collections
    • Data Science & Big Data [138]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV