| dc.contributor.advisor | Raittz, Roberto Tadeu, 1966- | pt_BR |
| dc.contributor.other | Pedrosa, Fabio O., 1947- | pt_BR |
| dc.contributor.other | Herai, Roberto Hirochi | pt_BR |
| dc.contributor.other | Guizelini, Dieval, 1976- | pt_BR |
| dc.contributor.other | Tieppo, Eduardo | pt_BR |
| dc.contributor.other | Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática | pt_BR |
| dc.creator | Machado, Diogo de Jesus Soares | pt_BR |
| dc.date.accessioned | 2026-02-27T14:33:33Z | |
| dc.date.available | 2026-02-27T14:33:33Z | |
| dc.date.issued | 2026 | pt_BR |
| dc.identifier.uri | https://hdl.handle.net/1884/101095 | |
| dc.description | Orientador: Prof. Dr. Roberto Tadeu Raittz | pt_BR |
| dc.description | Coorientador: Prof. Dr. Fábio de Oliveira Pedrosa | pt_BR |
| dc.description | Banca: Alexander Robert Kutzke (Presidente da Banca), Roberto Hirochi Herai, Dieval Guizelini, Eduardo Tieppo e Fabio de Oliveira Pedrosa | pt_BR |
| dc.description | Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 03/11/2025 | pt_BR |
| dc.description | Inclui referências | pt_BR |
| dc.description | Área de concentração: | pt_BR |
| dc.description.abstract | Resumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree) | pt_BR |
| dc.description.abstract | Abstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree) | pt_BR |
| dc.format.extent | 1 recurso online : PDF. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language | Multilingua | pt_BR |
| dc.language | Texto em português e inglês | pt_BR |
| dc.language | poreng | pt_BR |
| dc.subject | Bioinformática | pt_BR |
| dc.subject | Processamento da linguagem natural (Computação) | pt_BR |
| dc.subject | Literatura - Textos | pt_BR |
| dc.subject | Ciências Biológicas | pt_BR |
| dc.title | Incorporação de texto baseada em projeção aleatória inspirada em bioinformática | pt_BR |
| dc.type | Tese Digital | pt_BR |