Mostrar registro simples

dc.contributor.authorLucas Filho, Edson Ramiro, 1986-pt_BR
dc.contributor.otherOliveira, Luis Eduardo de Soarespt_BR
dc.contributor.otherAlmeida, Eduardo Cunha de, 1977-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.date.accessioned2021-06-07T16:59:22Z
dc.date.available2021-06-07T16:59:22Z
dc.date.issued2013pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/32427
dc.descriptionOrientador: Prof. Dr. Eduardo Cunha de Almeidapt_BR
dc.descriptionCoorientador: Prof. Dr. Luis Eduardo S. Oliveirapt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Pós-Graduaçao em Informática. Defesa: Curitiba, 27/08/2013pt_BR
dc.descriptionBibliografia: fls. 41-44pt_BR
dc.description.abstractResumo: Bancos de dados construídos sobre MapReduce, tais como o Hive e Pig, traduzem suas consultas para um ou mais programas MapReduce. Tais programas sao organizados em um Grafo Acíclico Dirigido (GAD) e sao executados seguindo sua ordem de dependencia no GAD. O desempenho dos programas MapReduce depende diretamente da otimizacao (i.e., sintonia) dos parâmetros de configuracao definidos no codigo-fonte. Sistemas como Hive e Pig traduzem consultas para programas sem otimizar estes parâmetros. Existem solucoes que buscam a melhor configuraçao para programas MapReduce, entretanto, tais soluções precisam coletar informação de suporte durante a execuçao ou simulacão das consultas para realizar a prediçao de melhor configuracão. Coletar informacao de suporte pode adicionar uma sobrecarga no processo de otimizaçcãao do programa, mesmo quando o tamanho do dado de entrada e muito grande, ou quando usando apenas uma fraçao. Nossa hipótese e que pode-se evitar a coleta de informaçao de suporte por agrupar consultas que tenham a mesma assinatura de código para, entao, otimizar seus parâmetros com uma mesma configuração. Nesta dissertacao nos apresentamos uma abordagem de auto-sintonia para sistemas de data warehouse construídos sobre MapReduce. Nossa abordagem analisa em tempo de execuçao as consultas, extraindo as assinaturas de codigo (i.e., operadores de consulta como GroupBy e Select) e agrupando as consultas que exibem as mesmas assinaturas de codigo. Ao agrupar os programas MapReduce, nossa soluçao aplica uma configuracão unica para cada assinatura de código, baseando-se nas regras-de-ouro. Durante os experimentos nos observamos a existencia de um limite no qual a otimizacao realizada com as regras-de-ouro, ou mesmo com a nossa abordagem, nãao íe eficaz para consultas abaixo deste certo limite. Nos validamos a nossa abordagem por meio de ex- perimentaçao executando o TPC-H Benchmark.pt_BR
dc.description.abstractAbstract: In MapReduce, performance of the programs directly depends on tuning parameters manually set within their source-code by programmers. In the database context, MapReduce query front-ends, including Hive and Pig, automatically translate MapReduce programs from SQL-like queries written in HiveQL. However, these front-ends only care about translating queries and do not care about including tuning parameters. Different solutions seek for the appropriated setup for MapReduce queries, but they need to collect support information after execution or simulation. In the one hand, if there is no tuning of MapReduce queries, their response time increase due to waste of computer resources. In the other hand, collecting support information may add a costly overhead whether the size of the input data grows large, or even when using a fraction of the input data. Our hypothesis is that we can avoid collecting support information by finding queries with the same code signature and tuning them with similar configuration setup. In this dissertation, we present a HiveQL self-tuning approach for MapReduce data warehouse systems based on clustering queries that exhibit the same characteristics in terms of query operators. Our approach uses dynamic analysis to extract characteristics from running queries to build similarity clusters. By clustering the queries, our mechanism leverages tuning information gathered in advance, such as the rules-of-thumb, to allow on-the-fly adaptation of queries setup. During our experimentation we observed the existence of a threshold at which tuning with the rules-of-thumb is not effective. We validated our approach through experimentation running the TPC-H benchmark.pt_BR
dc.format.extent44f. : il. , grafs., tabs.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.relationDisponível em formato digitalpt_BR
dc.subjectDissertaçõespt_BR
dc.subjectTesespt_BR
dc.subjectControle automaticopt_BR
dc.subjectSistemas de controle ajustavelpt_BR
dc.subjectBanco de dadospt_BR
dc.subjectCiência da Computaçãopt_BR
dc.titleHiveql self-tuningpt_BR
dc.typeDissertaçãopt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples