Desenvolvimento da ferramenta para finalização de montagens de genomas in silico - FGAP
Resumo
Resumo: A finalização é a etapa que consome mais tempo e demanda maior esforço em projetos de determinação de sequências genômicas. Diversos métodos computacionais (in silico) foram propostos com o objetivo de resolver problemas de correção de erros, ordenação de contigs, fechamento de gaps, validação de montagem e refinamento. A etapa de fechamento de gaps envolve a identificação de sequências desconhecidas entre contigs adjacentes. A presença destes gaps ocorre pela falta de reads no conjunto de dados sequenciados, necessitando de dados adicionais para serem resolvidos, ou pela incapacidade dos programas de montagem de resolver regiões de repetição ou baixa cobertura, casos em que o fechamento de gaps in silico pode ser aplicado. Apresentamos um novo programa para fechamento de gaps em sequências de genomas recém-montados, o FGAP, que utiliza dados obtidos de diferentes programas de montagem ou diferentes tecnologias de sequenciamento. A ferramenta busca por sequências que sobreponham finais de contigs de scaffolds propostos para descobrir a sequência dos gaps. O FGAP foi testado em casos controlados e em casos reais, demonstrando capacidade de melhorar montagens apenas reutilizando dados previamente obtidos. Ele também foi comparado com programas desenvolvidos para o mesmo fim, mostrando performance superior e menor tempo de execução. Diversos testes em sequências de organismos procariotos foram realizados e verificados através de validações locais com sequências de referência. A taxa de acerto manteve-se acima de 93%. Análises de métricas globais da montagem após o fechamento comprovam a eficácia do método. O programa é altamente flexível, aceita diversos conjuntos de dados e suporta leituras longas da terceira geração de sequenciamento. Ele não depende de reads pareados e produz arquivos de saída detalhados e intuitivos. O FGAP pode ser executado localmente ou via web e está disponível em: www.bioinfo.ufpr.br/fgap Abstract: Finishing is the most time consuming and labor intensive step in genome sequencing projects. Several computational methods (in silico) have been proposed aiming to solve finishing problems such as error correction, contig ordering, gap filling, assembly validation and refining. Gap filling or gap closing involves the identification of sequences to fill in gaps between adjacent contigs. The presence of such gaps may be due to the absence of the respective reads in the database, which requires new sequencing data, or to inherent inability of the assembler to deal with repeated and low coverage regions, which can be improved by in silico gap filling approaches. We present a new tool for gap filling in newly assembled genome sequences, named FGAP, to make use of assemblies obtained with different assemblers or from different sequencing platforms. The tool searches for sequences overlapping contig ends of a proposed scaffold aiming to discover the gap sequences. FGAP was tested in controlled and real cases, showing the capacity for improving assemblies reusing data already obtained. It was also compared against other softwares with the same purpose, showing a superior performance and shorter execution time. Several tests were made using prokaryotic genome sequences and validated locally through reference sequences. The accuracy rate was above 93%. Global metrics obtained after gap closing demonstrate the effectiveness of the method. The software is highly flexible, supports many datasets and long reads from third generation sequencing. FGAP does not depends on paired reads and generates detailed and intuitive output files. FGAP can run locally or through the web and is available at: www.bioinfo.ufpr.br/fgap
Collections
- Teses & Dissertações [10558]