Teses

Teses https://hdl.handle.net/1884/99584 2026-07-25T05:01:05Z 2026-07-25T05:01:05Z Incorporação de texto baseada em projeção aleatória inspirada em bioinformática https://hdl.handle.net/1884/101095 2026-02-27T14:33:33Z 2026-01-01T00:00:00Z

Incorporação de texto baseada em projeção aleatória inspirada em bioinformática Resumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree); Abstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree) Orientador: Prof. Dr. Roberto Tadeu Raittz; Coorientador: Prof. Dr. Fábio de Oliveira Pedrosa; Banca: Alexander Robert Kutzke (Presidente da Banca), Roberto Hirochi Herai, Dieval Guizelini, Eduardo Tieppo e Fabio de Oliveira Pedrosa; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 03/11/2025; Inclui referências; Área de concentração:

2026-01-01T00:00:00Z SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática https://hdl.handle.net/1884/99586 2025-12-02T19:16:27Z 2025-01-01T00:00:00Z

SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática Resumo: Diversos problemas da bioinformática envolvem dados de alta dimensionalidade. Dentre as soluções para lidar com grande volume de dados está a redução de dimensionalidade, que pode ser obtida pelo uso da projeção randômica (RP). A RP possui características que a tornam um método generalista, como manter a distância entre os pontos no espaço, e a independência do conjunto de dados. Já foi demonstrado que RP podem ser aplicados com sucesso na análise de sequências biológicas (nucleotídicas e aminoácidos) através da ferramenta SWeeP, um método de representação vetorial de sequências biológicas obtida através da aplicação de RP sobre frequência de k-mers. SWeeP é o primeiro a realizar a associação dessas técnicas. Neste estudo exploramos o conceito SWeeP e generalizamos a ferramenta para ser solução para diversos problemas de alta dimensionalidade em bioinformática. Desenvolvemos o pacote R, rSWeeP, com funções para vetorização de sequências biológicas e apresentamos otimizações. Como principal desenvolvimento, temos a função FGOP, capaz de gerar a matriz de projeção de forma determinística e com baixo uso de RAM, garantindo reprodutibilidade e permitindo análises mais robustas (maior k-mer e comprimento de projeção). FGOP vai além ao permitir projeções de espaços de dimensões muito grandes em espaços reduzidos, cuja aplicação não se limita a problemas biológicos. Realizamos dois estudos: (1) o uso de SWeeP em proteomas de SARS-CoV-2 sequenciados no Brasil, a fim de obter um panorama da pandemia no país e um protocolo de análise de proteomas virais; e (2) a aplicação de rSWeeP em proteomas bacterianos, a fim de obter um protocolo de análise para proteomas bacterianos e para validação do pacote desenvolvido; neste estudo também realizamos um benchmarking de rSWeeP com dois métodos livres de alinhamento no estado da arte, fastANI e Mash, avaliando comparativamente os resultados na obtenção de filogenias globais bacterianas. Como resultados, o uso de SWeeP no primeiro estudo mediou a descoberta de conhecimento, destacando as diferenças entre as variantes virais e suas relações filogenéticas. Com o segundo estudo, conseguimos compreender melhor a informação contida nos vetores e constatamos que o uso de genomas completos não fornece a melhor perspectiva para as filogenias globais. Ambos estudos demonstraram a efetividade do uso de vetores SWeeP para a implementação de métodos de aprendizado de máquina (ML) e para representar as sequências biológicas. No benchmarking realizado, rSWeeP se destacou em relação às demais ferramentas e permitiu obter a melhor filogenia global bacteriana. Para se obter uma filogenia de referência, ainda será necessário um aprofundamento no estudo. Por fim, obtivemos sucesso na validação de rSWeeP e na obtenção de protocolos de análise para dados virais e bacterianos. Demonstramos resultados superiores a métodos livres de alinhamento tradicionais. rSWeeP possui perspectivas para consolidação no estudo de outros grupos.; Abstract: Many bioinformatics problems involve high-dimensional data. Among the solutions for dealing with large volumes of data there is the dimensionality reduction, which can be achieved by using random projection (RP). RP has characteristics that make it a generalised method, such as maintaining the distance between points in space and the independence of the data set. It has already been shown that RP can be successfully applied to analysing biological sequences (nucleotide and amino acids) using the SWeeP tool, a method of vector representation of biological sequences obtained by applying RP to the frequency of k-mers. SWeeP is the first to combine these techniques. In this study we explore the SWeeP concept and generalise the tool to be a solution for various high-dimensional problems in bioinformatics. We developed the R package, rSWeeP, with functions for vectorising biological sequences and present optimisations. The main development is the FGOP function, capable of generating the projection matrix deterministically and with low RAM usage, guaranteeing reproducibility and allowing for more robust analyses (greater k-mer and projection length). FGOP goes further by allowing projections of very large spaces into compact spaces, the application of which is not limited to biological problems. We carried out two studies: (1) the use of SWeeP in SARS-CoV-2 proteomes sequenced in Brazil, in order to obtain an overview of the pandemic in the country and a protocol for analysing viral proteomes; and (2) the application of rSWeeP to bacterial proteomes, in order to obtain an analysis protocol for bacterial proteomes and to validate the package developed; in this study we also benchmarked rSWeeP with two state-of-the-art alignment-free methods, fastANI and Mash, comparatively evaluating the results in obtaining global bacterial phylogenies. As a result, the use of SWeeP in the first study mediated knowledge discovery, highlighting the differences between viral variants and their phylogenetic relationships. With the second study, we were able to better understand the information contained in the vectors and realised that the use of complete genomes does not provide the best perspective for global phylogenies. Both studies demonstrated the effectiveness of using SWeeP vectors to implement machine learning (ML) methods and to represent the biological sequences. In the benchmarking carried out, rSWeeP stood out in relation to the other tools and made it possible to obtain the best global bacterial phylogeny. In order to obtain a reference phylogeny, further research is still needed. Finally, we were successful in validating rSWeeP and obtaining analysis protocols for viral and bacterial data. We demonstrated superior results to traditional alignment-free methods. rSWeeP has prospects for consolidation in the study of other groups. Orientador: Roberto Tadeu Raittz; Coorientador: Ricardo Assunção Vialle; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 08/05/2025; Inclui referências; Área de concentração: Inteligência Artifical

2025-01-01T00:00:00Z