Machine learning para processos em banco de dados

Ramos, Kalleby Lee Araujo

Visualizar/Abrir

R - E - KALLEBY LEE ARAUJO RAMOS.pdf (481.1Kb)

Data

2020

Autor

Ramos, Kalleby Lee Araujo

Metadata

Mostrar registro completo

Resumo

Resumo : Extract Transform Load (ETL) é a sistematização do tratamento e limpeza dos dados gerados através dos diversos sistemas organizacionais para a sua posterior inserção, geralmente em Data Warehouse ou Data Mart. A urgência para processos de ETL mais ágeis é eminente. Contudo, em negócios com uma estrutura já arquitetada, a migração para arquiteturas recentes e escaláveis (Cloud) pode tornar a implantação um trabalho difícil. Neste contexto, o objetivo é melhorar a agilidade nos processos de ETL utilizando Machine Learning (Aprendizado de máquina). Para isto, foi feito um estudo do comportamento do banco de dados para detectar padrões de uso de processamento e taxa de transferência da memória e agendar vários processos de ETL. A agilidade dos processos ETL será maior devido à quantidade de vezes que o processo será realizado durante o dia. Normalmente os processos de ETL são realizados apenas uma vez por dia devido à concorrência de processamento, ao detectar padrões de comportamento os processos ETL poderão ser agendados mais de uma vez ao dia. Dessa maneira, a latência de atualização dos dados será otimizada e problemas como atraso de informações, atualmente em D-1 (atraso de 1 dia) poderão ser evitados.

Abstract : Extract Transform Load (ETL) is the systematization of the treatment of data generated by many organizational systems, usually stored in a Data Warehouse or Data Mart. The urgency for a more resource efficient ETL process is eminent. In this context, the objective is to improve the efficiency of the ETL processing using an adapted Machine Learning clustering algorithm. For this, we study the behavior of the ETL resource usage from many production ETL processes. Normally the ETL process is executed once a day due to resource contention issues. With our ML algorithm in a production scenario, the ETL processes can be scheduled to execute more than once a day. Thus, the latency of data update to feed analytic systems can be optimized and problems like information delay, currently in D – 1 (delay of one day) can be avoided.

URI

https://hdl.handle.net/1884/71069

Collections

Data Science & Big Data [191]