Tacos : avaliação de árvores filogenéticas
Resumo
Resumo: O estudo das relações entre sequências genéticas auxiliam diversas áreas biológicas. A filogenia pode ajudar a entender histórias e processos evolutivos, como estudo das migrações e dinâmica social. A filogenia pode acelerar a pesquisa sobre doenças virais como o HIV e o SARS-CoV-2, fornecendo insights e soluções para a criação de vacinas, por exemplo. As opções matemáticas para encontrar a melhor relação entre as sequências biológica são diversas e contam com diferentes propostas e abordagens. Essa larga variedade de métodos gera no pesquisador dúvidas quanto a qual método deve ser utilizado, principalmente quando grandes quantidades e extensas sequências são estudadas. Este trabalho propõem inferir os melhores métodos filogenéticos baseados em distância aplicados a sequências de nucleotídeos e a sequências de aminoácidos. Avaliou-se também os melhores métodos para abordagens dependente de alinhamento e livre de alinhamento. Além do processo de análise dos métodos, projetou-se um modelo baseado em machine learning capaz de classificar as árvores filogenéticas de acordo sua distância à árvore teórica ideal. Para isso, gerou-se mais de 5.000 árvores teóricas e mais de 600.000 árvores calculadas por diferentes métodos e métricas de clusterização. Abstract: The study of relationships between genetic sequences supports several biological areas. Phylogeny can help to understand evolutionary histories and processes, such as the study of migrations and social dynamics. Phylogeny can accelerate research into viral diseases such as HIV and SARSCoV- 2, providing insights and solutions for creating vaccines, for example. The mathematical options to find the best relationship between biological sequences are diverse and have different approaches. This wide variety of methods creates doubts about which method should be used, especially when large quantities and extensive sequences are studied. This work proposes to infer the best distance-based phylogenetic methods applied to nucleotide and amino acid sequences. The best methods for based-alignment and free-alignment approaches were also evaluated. In addition to the method analysis process, a model based on machine learning was designed, it is capable of classifying phylogenetic trees according to their distance from the ideal theoretical tree. For this, more than 5,000 theoretical trees were simulated and more than 600,000 trees were calculated by different clustering methods and metrics.
Collections
- Dissertações [67]