Estudo de caso : projeção vetorial de sequências metagenomicas intestinais
Resumo
Resumo : Microrganismos presentes no lúmen intestinal são fatores característicos dealgumasdoenças, tumores, diferenças morfológicas e endócrinas emseres humanos. Ometagenoma intestinal, caracterizado pela microbiota total encontrada nestehabitat,é obtido por meio de sequenciamentos de genomas completos (WGS). Estessequenciamentos geram dados com quantidades grandes de reads quepodemultrapassar facilmente 40 milhões de trechos de sequências, o que resultaemumaalta porcentagem de informações de organismos desconhecidos. Devidoàdificuldade de comparação destes dados, algumas metodologias emBioinformáticasão definitivas para resolver os problemas associados à manipulaçãodegrandesquantidades de dados, como é o caso de metagenomas. Existemdiversasferramentas que auxiliam no processamento de dados de larga escala, entretanto,até o momento não existem modelos específicos aplicados à análisesdemetagenomas que apresentem acurácia, agilidade e baixo custo computacional.Nesta perspectiva, a ferramenta SWeeP, que consiste em ummodelo computacional aplicado à análises de Machine Learning baseado em representaçãovetorial degenes, permite a redução de dimensionalidade das sequências biológicas,apresentado potencial para análises de grandes quantidades de dados. Dessaforma,devido à importância dos estudos relacionados ao microbioma intestinal humanoeadificuldade de manipulação destes dados, este estudo temcomopropósitoaexploração do modelo SWeeP para análises metagenômicas. Paraisso, foramselecionados para estudo de caso sequências biológicas da microbiotaintestinal dentre 2103 indivíduos, selecionados a partir de 11 estudos científicos, umúnicoestudo com 7 indivíduos e 70 amostras. Após filtragem e pré-processamentodestesdados, foi realizada a montagem dos metagenomas utilizando osoftwareMetaSPAdes, no intuito de obter contigs mais consistentes. Estes contigsforamrepresentados vetorialmente utilizando o SWeeP com parâmetros default. Testesdeperformance, redes neurais artificiais e análises filogenéticas foramconduzidasparaexplorar a capacidade do método na comparação de metagenomas, bemcomoaagilidade na construção dos vetores. As árvores filogenéticas indicaramumaproximidade entre as amostras dos mesmos indivíduos, apesar de seencontraralgumas amostras deslocadas. Por este motivo, foi treinado uma rede neural artificial identificando parcialmente algumas amostras como conjunto de treinamentoetestada em seguida. Obtivemos uma acurácia média de 96,43%, obtendocorrelaçãode Pearson média de 0,83
Collections
- Bacharelado [1169]