Modelo computacional para comparação de táxons : filogenia global e mineração de dados na família Formicidae
Resumo
Resumo: Formigas são consideradas "engenheiras do ecossistema" pois oferecem inúmeros serviços ecológicos e têm impacto na produção de sistemas agrícolas. A interação delas com o ambiente pode afetar desde a composição do solo até o controle de pragas. Estudos filogenéticos acerca do grupo são importantes pois contribuem para a compreensão do funcionamento do ecossistema em que esses animais estão inseridos, além de permitirem a predição de como mudanças nesse funcionamento se comportarão no futuro. Apesar da importância, ainda não há uma filogenia que contemple todas as espécies de formigas. A grande diversidade de espécies (mais de 15 mil espécies e subespécies), técnicas de montagem de árvore computacionalmente custosas, a heterogeneidade na distribuição dos táxons e falta de dados moleculares são fatores que contribuem para a ausência de uma filogenia que contemple todas as espécies. O objetivo desse trabalho é propor uma metodologia para a construção de filogenias de grupos taxonômicos grandes, tendo como resultado final uma filogenia completa de formigas. O método proposto explora o modelo SWeeP e aprendizado de máquina para a vetorização e diminuição da dimensionalidade das sequências, inferência de dados faltantes e integração com informações taxonômicas já existentes. Como resultado, criou-se uma matriz (MAM) que sumarizou a informação molecular disponível. Os testes realizados mostraram que, apesar de dados incompletos, desbalanceados e heterogêneos, a MAM conseguiu representar os padrões taxonômicos e fenotípicos. Em um segundo momento, com a integração da informação taxonômica já existente, foi possível construir uma filogenia com 2.981 espécies congruente com a literatura e, por fim, integrar as espécies sem informação molecular, alcançando a filogenia global com 13.812 espécies de formiga. Abstract: Ants are considered "ecosystem engineers" as they offer numerous ecological services and have impact on the production of agricultural systems. Their interaction with the environment can affect from soil composition to pest control. Phylogenetic studies about the group are important because they contribute to the understanding of the ecosystem functioning in which these animals are inserted, in addition to allowing the prediction of how changes in this functioning will behave in the future. Despite its importance, there is still no phylogeny that includes all species of ants. The great diversity of species (more than 15 thousand species and subspecies), computationally expensive tree assembly techniques, heterogeneity in the distribution of taxa and lack of molecular data are factors that contribute to the absence of a phylogeny that includes all species. The objective of this work is to propose a methodology for the construction of phylogenies of large taxonomic groups, resulting in a complete phylogeny of ants. The proposed method explores the SWeeP model and machine learning for the vectorization and reduction of the dimensionality of the sequences, inference of missing data and integration with existing taxonomic information. As a result, a matrix (MAM) that summarized the available molecular information was created. The tests performed showed that, despite incomplete, unbalanced and heterogeneous data, MAM was able to represent the taxonomic and phenotypic patterns. In a second step, with the integration of the existing taxonomic information, it was possible to build a phylogeny with 2,981 species congruent with the literature. Finally, species without molecular information were integrated and the global phylogeny with 13,812 ant species was reached.
Collections
- Dissertações [67]