Mostrar registro simples

dc.contributor.advisorRaittz, Roberto Tadeu, 1966-pt_BR
dc.contributor.otherPedrosa, Fabio O., 1947-pt_BR
dc.contributor.otherHerai, Roberto Hirochipt_BR
dc.contributor.otherGuizelini, Dieval, 1976-pt_BR
dc.contributor.otherTieppo, Eduardopt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformáticapt_BR
dc.creatorMachado, Diogo de Jesus Soarespt_BR
dc.date.accessioned2026-02-27T14:33:33Z
dc.date.available2026-02-27T14:33:33Z
dc.date.issued2026pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/101095
dc.descriptionOrientador: Prof. Dr. Roberto Tadeu Raittzpt_BR
dc.descriptionCoorientador: Prof. Dr. Fábio de Oliveira Pedrosapt_BR
dc.descriptionBanca: Alexander Robert Kutzke (Presidente da Banca), Roberto Hirochi Herai, Dieval Guizelini, Eduardo Tieppo e Fabio de Oliveira Pedrosapt_BR
dc.descriptionTese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 03/11/2025pt_BR
dc.descriptionInclui referênciaspt_BR
dc.descriptionÁrea de concentração:pt_BR
dc.description.abstractResumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree)pt_BR
dc.description.abstractAbstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree)pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languageMultilinguapt_BR
dc.languageTexto em português e inglêspt_BR
dc.languageporengpt_BR
dc.subjectBioinformáticapt_BR
dc.subjectProcessamento da linguagem natural (Computação)pt_BR
dc.subjectLiteratura - Textospt_BR
dc.subjectCiências Biológicaspt_BR
dc.titleIncorporação de texto baseada em projeção aleatória inspirada em bioinformáticapt_BR
dc.typeTese Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples