• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016066P4 Programa de Pós-Graduação em Bioinformática
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016066P4 Programa de Pós-Graduação em Bioinformática
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática

    Thumbnail
    Visualizar/Abrir
    R - T - CAMILA PEREIRA PERICO.pdf (12.22Mb)
    Data
    2025
    Autor
    Perico, Camila Pereira
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Diversos problemas da bioinformática envolvem dados de alta dimensionalidade. Dentre as soluções para lidar com grande volume de dados está a redução de dimensionalidade, que pode ser obtida pelo uso da projeção randômica (RP). A RP possui características que a tornam um método generalista, como manter a distância entre os pontos no espaço, e a independência do conjunto de dados. Já foi demonstrado que RP podem ser aplicados com sucesso na análise de sequências biológicas (nucleotídicas e aminoácidos) através da ferramenta SWeeP, um método de representação vetorial de sequências biológicas obtida através da aplicação de RP sobre frequência de k-mers. SWeeP é o primeiro a realizar a associação dessas técnicas. Neste estudo exploramos o conceito SWeeP e generalizamos a ferramenta para ser solução para diversos problemas de alta dimensionalidade em bioinformática. Desenvolvemos o pacote R, rSWeeP, com funções para vetorização de sequências biológicas e apresentamos otimizações. Como principal desenvolvimento, temos a função FGOP, capaz de gerar a matriz de projeção de forma determinística e com baixo uso de RAM, garantindo reprodutibilidade e permitindo análises mais robustas (maior k-mer e comprimento de projeção). FGOP vai além ao permitir projeções de espaços de dimensões muito grandes em espaços reduzidos, cuja aplicação não se limita a problemas biológicos. Realizamos dois estudos: (1) o uso de SWeeP em proteomas de SARS-CoV-2 sequenciados no Brasil, a fim de obter um panorama da pandemia no país e um protocolo de análise de proteomas virais; e (2) a aplicação de rSWeeP em proteomas bacterianos, a fim de obter um protocolo de análise para proteomas bacterianos e para validação do pacote desenvolvido; neste estudo também realizamos um benchmarking de rSWeeP com dois métodos livres de alinhamento no estado da arte, fastANI e Mash, avaliando comparativamente os resultados na obtenção de filogenias globais bacterianas. Como resultados, o uso de SWeeP no primeiro estudo mediou a descoberta de conhecimento, destacando as diferenças entre as variantes virais e suas relações filogenéticas. Com o segundo estudo, conseguimos compreender melhor a informação contida nos vetores e constatamos que o uso de genomas completos não fornece a melhor perspectiva para as filogenias globais. Ambos estudos demonstraram a efetividade do uso de vetores SWeeP para a implementação de métodos de aprendizado de máquina (ML) e para representar as sequências biológicas. No benchmarking realizado, rSWeeP se destacou em relação às demais ferramentas e permitiu obter a melhor filogenia global bacteriana. Para se obter uma filogenia de referência, ainda será necessário um aprofundamento no estudo. Por fim, obtivemos sucesso na validação de rSWeeP e na obtenção de protocolos de análise para dados virais e bacterianos. Demonstramos resultados superiores a métodos livres de alinhamento tradicionais. rSWeeP possui perspectivas para consolidação no estudo de outros grupos.
     
    Abstract: Many bioinformatics problems involve high-dimensional data. Among the solutions for dealing with large volumes of data there is the dimensionality reduction, which can be achieved by using random projection (RP). RP has characteristics that make it a generalised method, such as maintaining the distance between points in space and the independence of the data set. It has already been shown that RP can be successfully applied to analysing biological sequences (nucleotide and amino acids) using the SWeeP tool, a method of vector representation of biological sequences obtained by applying RP to the frequency of k-mers. SWeeP is the first to combine these techniques. In this study we explore the SWeeP concept and generalise the tool to be a solution for various high-dimensional problems in bioinformatics. We developed the R package, rSWeeP, with functions for vectorising biological sequences and present optimisations. The main development is the FGOP function, capable of generating the projection matrix deterministically and with low RAM usage, guaranteeing reproducibility and allowing for more robust analyses (greater k-mer and projection length). FGOP goes further by allowing projections of very large spaces into compact spaces, the application of which is not limited to biological problems. We carried out two studies: (1) the use of SWeeP in SARS-CoV-2 proteomes sequenced in Brazil, in order to obtain an overview of the pandemic in the country and a protocol for analysing viral proteomes; and (2) the application of rSWeeP to bacterial proteomes, in order to obtain an analysis protocol for bacterial proteomes and to validate the package developed; in this study we also benchmarked rSWeeP with two state-of-the-art alignment-free methods, fastANI and Mash, comparatively evaluating the results in obtaining global bacterial phylogenies. As a result, the use of SWeeP in the first study mediated knowledge discovery, highlighting the differences between viral variants and their phylogenetic relationships. With the second study, we were able to better understand the information contained in the vectors and realised that the use of complete genomes does not provide the best perspective for global phylogenies. Both studies demonstrated the effectiveness of using SWeeP vectors to implement machine learning (ML) methods and to represent the biological sequences. In the benchmarking carried out, rSWeeP stood out in relation to the other tools and made it possible to obtain the best global bacterial phylogeny. In order to obtain a reference phylogeny, further research is still needed. Finally, we were successful in validating rSWeeP and obtaining analysis protocols for viral and bacterial data. We demonstrated superior results to traditional alignment-free methods. rSWeeP has prospects for consolidation in the study of other groups.
     
    URI
    https://hdl.handle.net/1884/99586
    Collections
    • Teses [1]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV