Hiveql self-tuning

Lucas Filho, Edson Ramiro, 1986-

dc.contributor.author	Lucas Filho, Edson Ramiro, 1986-	pt_BR
dc.contributor.other	Oliveira, Luis Eduardo de Soares	pt_BR
dc.contributor.other	Almeida, Eduardo Cunha de, 1977-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática	pt_BR
dc.date.accessioned	2021-06-07T16:59:22Z
dc.date.available	2021-06-07T16:59:22Z
dc.date.issued	2013	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/32427
dc.description	Orientador: Prof. Dr. Eduardo Cunha de Almeida	pt_BR
dc.description	Coorientador: Prof. Dr. Luis Eduardo S. Oliveira	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Pós-Graduaçao em Informática. Defesa: Curitiba, 27/08/2013	pt_BR
dc.description	Bibliografia: fls. 41-44	pt_BR
dc.description.abstract	Resumo: Bancos de dados construídos sobre MapReduce, tais como o Hive e Pig, traduzem suas consultas para um ou mais programas MapReduce. Tais programas sao organizados em um Grafo Acíclico Dirigido (GAD) e sao executados seguindo sua ordem de dependencia no GAD. O desempenho dos programas MapReduce depende diretamente da otimizacao (i.e., sintonia) dos parâmetros de configuracao definidos no codigo-fonte. Sistemas como Hive e Pig traduzem consultas para programas sem otimizar estes parâmetros. Existem solucoes que buscam a melhor configuraçao para programas MapReduce, entretanto, tais soluções precisam coletar informação de suporte durante a execuçao ou simulacão das consultas para realizar a prediçao de melhor configuracão. Coletar informacao de suporte pode adicionar uma sobrecarga no processo de otimizaçcãao do programa, mesmo quando o tamanho do dado de entrada e muito grande, ou quando usando apenas uma fraçao. Nossa hipótese e que pode-se evitar a coleta de informaçao de suporte por agrupar consultas que tenham a mesma assinatura de código para, entao, otimizar seus parâmetros com uma mesma configuração. Nesta dissertacao nos apresentamos uma abordagem de auto-sintonia para sistemas de data warehouse construídos sobre MapReduce. Nossa abordagem analisa em tempo de execuçao as consultas, extraindo as assinaturas de codigo (i.e., operadores de consulta como GroupBy e Select) e agrupando as consultas que exibem as mesmas assinaturas de codigo. Ao agrupar os programas MapReduce, nossa soluçao aplica uma configuracão unica para cada assinatura de código, baseando-se nas regras-de-ouro. Durante os experimentos nos observamos a existencia de um limite no qual a otimizacao realizada com as regras-de-ouro, ou mesmo com a nossa abordagem, nãao íe eficaz para consultas abaixo deste certo limite. Nos validamos a nossa abordagem por meio de ex- perimentaçao executando o TPC-H Benchmark.	pt_BR
dc.description.abstract	Abstract: In MapReduce, performance of the programs directly depends on tuning parameters manually set within their source-code by programmers. In the database context, MapReduce query front-ends, including Hive and Pig, automatically translate MapReduce programs from SQL-like queries written in HiveQL. However, these front-ends only care about translating queries and do not care about including tuning parameters. Different solutions seek for the appropriated setup for MapReduce queries, but they need to collect support information after execution or simulation. In the one hand, if there is no tuning of MapReduce queries, their response time increase due to waste of computer resources. In the other hand, collecting support information may add a costly overhead whether the size of the input data grows large, or even when using a fraction of the input data. Our hypothesis is that we can avoid collecting support information by finding queries with the same code signature and tuning them with similar configuration setup. In this dissertation, we present a HiveQL self-tuning approach for MapReduce data warehouse systems based on clustering queries that exhibit the same characteristics in terms of query operators. Our approach uses dynamic analysis to extract characteristics from running queries to build similarity clusters. By clustering the queries, our mechanism leverages tuning information gathered in advance, such as the rules-of-thumb, to allow on-the-fly adaptation of queries setup. During our experimentation we observed the existence of a threshold at which tuning with the rules-of-thumb is not effective. We validated our approach through experimentation running the TPC-H benchmark.	pt_BR
dc.format.extent	44f. : il. , grafs., tabs.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.relation	Disponível em formato digital	pt_BR
dc.subject	Dissertações	pt_BR
dc.subject	Teses	pt_BR
dc.subject	Controle automatico	pt_BR
dc.subject	Sistemas de controle ajustavel	pt_BR
dc.subject	Banco de dados	pt_BR
dc.subject	Ciência da Computação	pt_BR
dc.title	Hiveql self-tuning	pt_BR
dc.type	Dissertação	pt_BR

Arquivos deste item

Nome:: R - D - EDSON RAMIRO LUCAS ...
Tamanho:: 3.661Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses & Dissertações [9328]
Coleção que armazena as Teses e Dissertações da UFPR.

Mostrar registro simples