Escalonamento de tarefas no fechamento de lacunas em plataformas de sequenciamento genético de nova geração
Resumo
Resumo: Este trabalho propõe um escalonador de tarefas para controlar a demanda de envio de lacunas de genoma para o processamento obtidas pelo processo, considerando os recursos computacionais disponíveis. O objetivo do escalonador é evitar que sejam solicitados mais recursos computacionais do que os que podem ser fornecidos, pois nesse caso, o sistema sofre degradação de desempenho e causa atraso no tempo de processamento da tarefa. A motivação para este trabalho é a melhoria na eficiência da execução do fechamento de lacunas no sequenciamento de genomas. Para a avaliação da proposta, foi implementado um escalonador de lacunas com políticas de escalonamento baseadas no monitoramento dos recursos computacionais. Desta forma, utilizando o escalonador, a melhoria de desempenho na execução das lacunas foi de 56% no tempo de processamento com a implementação do escalonador e depois de 70% diferenciando o uso ou nao do paralelismo, comparando com o uso da solução original, resultado do uso mais eficiente dos recursos disponíveis. Abstract: The next-generation genetic sequencers extract a large amount of genetic data into small fragments, disordered and repetitive. Process this large volume of fragmented genetic data to assemble a long genome is a difficult and a large scale computational problem. This processing is performed with the aid of the tool denovo2, a pipeline of programs which performs genetic sequencing with fragments obtained by genetic sequencer. During the execution of denovo2, after assembly of sequence, phase improvement of the result performs the closing of the gaps found in the genome assembled. The program responsible for this closure is the ASID, that calls the assembler velvet with each gap four different times, varying the parameters to search for parts that may complete the gap. This activity generates many concurrent tasks that consume a large amount of computing resources, such as memory. This master thesis proposes a task scheduler to control the demand for sending these gaps for processing, considering the computational resources available. The purpose of the scheduler is to prevent more computational resources are requested than what can be supplied, because in that case, the system suffers performance degradation and causes a delay in the processing time of the task. The motivation for this work is to improve the efficiency of the implementation of the closure of gaps in genome sequencing. For the evaluation of the proposed, we implemented a scheduler gaps with scheduling policies based on monitoring of computational resources. In this way, using the scheduler, the performance improvement in the execution of the gaps was 56 % in processing time with the implementation of the scheduler and after 70 % distinguishing the use or not of parallelism, compared to using the original solution , a result of more efficient use of available resources.
Collections
- Teses & Dissertações [10505]