• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016066P4 Programa de Pós-Graduação em Bioinformática
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016066P4 Programa de Pós-Graduação em Bioinformática
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Incorporação de texto baseada em projeção aleatória inspirada em bioinformática

    Thumbnail
    Visualizar/Abrir
    R - T - DIOGO DE JESUS SOARES MACHADO.pdf (3.409Mb)
    Data
    2026
    Autor
    Machado, Diogo de Jesus Soares
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree)
     
    Abstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree)
     
    URI
    https://hdl.handle.net/1884/101095
    Collections
    • Teses [2]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV