Estudo de viabilidade de uma plataforma de baixo custo para Data Warehouse
Resumo
Resumo: O mundo empresarial necessita cada vez mais de instrumentos que melhorem a tomada de decisões diante do mercado competitivo. Porém, nem todas as empresas dispõem de recursos para a aquisição dos sistemas existentes e consolidados que o mercado oferece, face o seu alto custo. Esta dificuldade pode ser estendida a outros segmentos, como o governo e universidades, que também necessitam de dinamismo nas tomadas de decisões. Este trabalho é dedicado ao estudo da viabilidade de uma plataforma de baixo custo para data warehouse capaz de atender a esta clientela. Consideramos como plataforma de baixo custo a utilização de software de código aberto PostgreSQL e GNU/Linux. As características do PostgreSQL são brevemente descritas e apresentadas sugestões de implementações que podem aumentar o desempenho deste SGBD em ambientes de data warehousing. Para verificar a viabilidade desta plataforma em um ambiente de data warehousing, executamos benchmarks que são medições do desempenho de um sistema sob uma carga de trabalho. Neste trabalho foram utilizados os benchmarks TPC-H e DBT3 que simulam a carga de trabalho de um data warehousing. Estes benchmarks cobrem um ambiente multiusuario com consultas que realizam operações complexas, como por exemplo, agregações, sub-consultas aninhadas, múltiplas junções, sub-consultas dentro da clausula FROM, entre outras. Com os resultados aferidos foi possível apontar as dificuldades que o SGBD PostgreSQL teve na execução do TPC-H, motivo pelo qual executamos o DBT3 demonstrando a inviabilidade de utilizar o PostgreSQL versão 7.x como SGBD para data warehouse. Finalmente, em face dos resultados deste estudo, são sugeridas implementações para que este SGBD possa ser utilizado sem restrições em um projeto de data warehouse. Abstract: Often corporations need tools that increase the power of decisions in a competitive market. Facing that, several companies does not have resources to buy the commercial systems because of the high costs. This problem can be extended to other segments like government and universities. This work is dedicated to a feasibility study of a low cost platform to data warehouse to supply these customers. We consider as a low cost platform the use of open source software like DBMS PostgreSQL and GNU/Linux operational system. The PostgreSQL’s features are briefly presented and suggestions of implementations to increase data warehouse performance in this DBMS are pointed. We verify the feasibility of a data warehouse on this platform by executing benchmarks that serves as a point of reference. In this work we used TPC-H and DBT3 benchmarks that simulate a data warehouse workload. These benchmarks simulate multi-user environment and run complex queries, which executes: aggregations, nested sub queries, multi joins, in-line views and more. Considering the results we were able to highlight the PostgreSQL’s problems in the TPC-H execution, these problems were the main reason to execute the DBT3 benchmark and the reason to invalidate the use of PostgreSQL version 7.x as a data warehouse DBMS. Finally we make suggestions of implementations to this DBMS becomes available without reservations in data warehouse projects.
Collections
- Teses & Dissertações [9997]