Análise filogenética da região codificante do genoma plastidial : uma abordagem livre de alinhamento utilizando o algoritmo SVect
Resumo
Resumo: Com o advento do sequenciamento massivo paralelo de DNA, o campo da bioinformática tornou-se desafiador no que diz respeito a análises genômicas envolvendo Big Data. A filogenômica possui duas principais abordagens que utilizam os dados em larga escala para gerar reconstruções filogenéticas: super-árvores e super-matrizes. Para análises filogenéticas em geral, a limitação dos métodos baseados em alinhamento múltiplo para a comparação de sequências se torna evidente devido à complexidade algorítmica para se obter um alinhamento. Para tornar o método viável, poucas sequências são utilizadas para um grande número de organismos ou vice-versa. Podemos perder informação evolutiva ao usarmos um número mínimo de sequencias, ou o prejuízo pode ser ocasionado no tempo computacional. Há a necessidade de um método capaz de gerar filogenias consistentes a partir de grandes volumes de dados em tempo computacional não-proibitivo. A partir do SVect, criamos uma metodologia livre de alinhamento para análises filogenéticas em larga escala utilizando a redução de dimensionalidade. O método se mostrou rápido, eficiente, conciso e capaz de analisar um grande volume de dados, inviável para o alinhamento múltiplo de sequencias. Desenvolvemos a primeira árvore filogenética global de organismos portadores de genoma plastidial utilizando as regiões codificantes dos plastomas, e pretendemos disponibilizar tanto a árvore como a ferramenta de análise para uso científico. Palavras-chave: Filogenia. Região codificante. SVect. Plastídio. Abstract: With the advent of large-scale genomic sequencing, the field of bioinformatics has become challenging with respect to genomic and proteomic analyzes involving Big Data. The phylogenomics have two main approaches that use the data in large scale to generate phylogenetic reconstructions: super-trees and super-matrices. For phylogenetic analyzes in general, the limitation of multiple alignment based methods for sequence comparison becomes apparent because of the algorithmic complexity to obtain an alignment. To make the method feasible, few sequences are used for a large number of organisms or vice versa. We can lose evolutionary information by using a minimal number of sequences, or the damage can be caused by computational time. Has the need for a method capable of generating consistent phylogenies from large data volumes in non-prohibitive computational time. From SVect, we created a free alignment methodology for large-scale phylogenetic analyzes using dimensionality reduction. The method was fast, efficient, concise and able to analyze a large volume of data, not feasible for multiple sequence alignment. We created the first global phylogenetic tree of organisms carrying plastids using the plastome's coding regions, and we intend to make available both the tree and the analysis tool for scientific use. Key-words: Phylogeny. Coding Region. SVect. Plastid.
Collections
- Dissertações [67]