Uma abordagem semântica baseada em ontologia para sintonia de parâmetros : um estudo de caso para MapReduce
Resumo
Resumo: MapReduce é um framework para processamento de grandes volumes de dados; e Hadoop é a sua implementação de código aberto mais conhecida e utilizada. Hadoop possui mais de uma centena de parâmetros de configuração e, destes, cerca de 29 parâmetros devem ser sintonizados, a fim de obter um melhor desempenho das aplicações a ele submetidas. No entanto, a melhor sintonização dos parâmetros não é uma tarefa muito simples de ser realizada. Além disso, o conhecimento para se saber quais os parâmetros que devem ser sintonizados e quais os melhores valores para eles só estão nos trabalhos científicos e livros que tratam especificamente deste assunto. Portanto, é necessária a criação de ferramentas ou ambientes que promovam e motivem o compartilhamento de informação e disseminação do conhecimento a respeito deste assunto. Dessa forma, é importante que todo o conhecimento adquirido seja organizado, com o objetivo de ser reutilizado o mais rápido, fácil e eficientemente possível, quando necessário. Sendo assim, este trabalho propõe uma abordagem semântica baseada em ontologia para a sintonia dos parâmetros de configuração do Hadoop MapReduce, com o objetivo de melhorar o desempenho das aplicações. Trata-se de um estudo que explora e visa compreender o framework Hadoop, seus parâmetros de configuração e as relações destes parâmetros com os padrões das cargas de trabalho que o utilizam. Para isso, foi elaborada uma revisão sistemática sobre o assunto e, baseada no conhecimento adquirido nesta revisão, foi modelada e implementada uma ontologia chamada OntoHadoop. O foco da ontologia é a representação do conhecimento semântico necessário para se obter a melhor sintonia dos parâmetros de configuração do Hadoop que têm influência sobre o desempenho das aplicações. O conhecimento semântico explora as características da carga de trabalho, bem como a taxonomia dos conceitos, propriedades, relações e axiomas da ontologia. Baseada na ontologia, foram definidas a arquitetura da abordagem e dos processos que criam as unidades de sintonia dos parâmetros. Por fim, a ontologia foi avaliada por consultas e inferências nas regras implementadas; e a abordagem semântica simulada como um ambiente computacional implementado. Os resultados obtidos ratificam o propósito de uma base de conhecimento sobre o assunto e se mostram promissores no sentido de indicarem sintonias relevantes para se alcançar um melhor desempenho das aplicações submetidas ao Hadoop. Isto é possível, principalmente, através de regras de caracterização de padrões das cargas de trabalho e regras de sintonia de parâmetros implementadas na ontologia. Além disso, a abordagem proposta direciona a tarefa de obtenção de sintonia de parâmetros rumo a Web Semântica. Abstract: MapReduce is a framework for processing large volumes of data; and Hadoop is the most know and used open source implementation. Hadoop has over a hundred configuration parameters and around 29 parameters should be tuned in order to obtain a better application performance. However, the best parameters tuning is not very simple task to be performed. Furthermore, the knowledge to know which parameters should be tuned and what the best values for them remain just in scientific papers and books which specifically dealing with this subject. Therefore, it is necessary to create tools or environments that will promote and motivate the information sharing and knowledge dissemination on this issue. Therefore, it is important that all knowledge acquired should be organized in order to be reused quickly, easily and efficiently as possible, when necessary. Thus, this work proposes an ontology-based semantic approach to tune the Hadoop MapReduce configuration parameters, aiming to improve application performance. This is a study that explores and aims to understand the Hadoop framework, its configuration parameters and the relationships of those parameters with the workload patterns that use it. For this, we developed a systematic review about it and, based on the knowledge acquired in this review, was modeled and implemented an ontology called OntoHadoop. The focus of ontology is the semantic knowledge representation needed to obtain the best Hadoop configuration parameters tuning that influence the performance of applications. Semantic knowledge explores the workload characteristics, as well as the taxonomy of concepts, properties, relations and axioms of the ontology. The approach architecture and the processes that create the units tuning parameters were defined based on ontology. Finally, the ontology was evaluated by queries and inferences in the implemented rules; and the simulated semantic approach as a computational environment implemented. The results confirm the purpose of a knowledge base about it and show promise towards indicate relevant tunings to achieve a better application performance. This is possible mainly through workload patterns rules and parameters tuning rules implemented in the ontology. Furthermore, the proposed approach directs the task of obtaining tuning parameters towards the Semantic Web.
Collections
- Teses [132]