<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
<title>40001016066P4 Programa de Pós-Graduação em Bioinformática</title>
<link href="https://hdl.handle.net/1884/39719" rel="alternate"/>
<subtitle/>
<id>https://hdl.handle.net/1884/39719</id>
<updated>2026-04-25T13:28:59Z</updated>
<dc:date>2026-04-25T13:28:59Z</dc:date>
<entry>
<title>Mapeando "hypes" : exageros e esperanças na medicina</title>
<link href="https://hdl.handle.net/1884/101652" rel="alternate"/>
<author>
<name/>
</author>
<id>https://hdl.handle.net/1884/101652</id>
<updated>2026-04-14T15:39:21Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">Mapeando "hypes" : exageros e esperanças na medicina
Resumo: A inovação médica é frequentemente acompanhada por ciclos de otimismo e ceticismo, comumente expressos em inglês através do par retórico "hype or hope". Embora ampla mente utilizado como marcador de hesitação científica, esse discurso ainda não havia sido examinado em larga escala. Analisamos 422 artigos indexados no PubMed que continham ambos os termos em seus títulos ou resumos, com o objetivo de mapear alegações médicas contestadas na literatura biomédica. Utilizando uma metodologia híbrida que combinou processamento de linguagem natural, agrupamento hierárquico de embeddings de texto, sumarização dialética baseada em grandes modelos de lin guagem (LLM) e curadoria humana especializada, identificamos 23 tópicos principais abrangendo doenças e tratamentos. A prevalência dos tópicos no corpus do estudo foi então comparada à base de dados geral do PubMed usando análise de enriquecimento hipergeométrico. Os resultados revelaram diferenças marcantes entre os domínios biomédicos. Tópicos relacionados a tratamentos foram mais super-representados do que os relacionados a doenças, com biópsia líquida (enriquecimento de 22×) e terapias com células-tronco (13×) apresentando a maior super-representação; alto enriqueci mento também foi observado para medicina de precisão, inteligência artificial, cannabis e intervenções baseadas no microbioma. Entre as doenças, o autismo apresentou o maior enriquecimento (4,8×), enquanto o câncer foi o contexto mais frequente para o enquadramento "hype or hope". Em vez de resolver se inovações específicas consti tuem "hype" ou progresso genuíno, este estudo mapeia onde promessa e evidência divergem nos domínios biomédicos—demonstrando como a análise computacional de texto pode revelar padrões coletivos de incerteza científica; Abstract: Medical innovation is often accompanied by cycles of optimism and skepticism, com monly expressed through the rhetorical pairing "hype or hope". Although widely used as a marker of scientific hesitation, this discourse has not previously been examined at scale. We analyzed 422 PubMed-indexed articles that contained both terms in their titles or abstracts, aiming to map contested medical claims across the biomedical literature. Using a hybrid methodology that combined Natural Language Processing (NLP), hierarchical clustering of text embeddings, Large Language Model (LLM)–based dialectical summarization, and expert human curation, we identified 23 core topics spanning diseases and treatments. The prevalence of topics in the study corpus was then compared with that in the broader PubMed database using hypergeometric en richment analysis. The results revealed marked differences across biomedical domains. Treatment-related topics were more over-represented than disease-related ones, with liquid biopsy (22× enrichment) and stem cell therapies (13×) showing the strongest over-representation; high enrichment was also observed for precision medicine, ar tificial intelligence, cannabis, and microbiome-based interventions. Among diseases, autism showed the highest enrichment (4.8×) while cancer was the most frequent context for "hype or hope" framing. Rather than resolving whether specific innovations constitute hype or genuine progress, this study maps where promise and evidence diverge across biomedical domains—demonstrating how computational text analysis can uncover collective patterns of scientific uncertainty
Orientador: Prof. Dr. Roberto Tadeu Raittz; Banca: Mauro Antonio Alves Castro (Presidente da Banca), Nelson Alessandretti de Mello Lemos e Gertrudes Aparecida Dandolini; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educacao Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 10/12/2025; Inclui referências; Área de concentração: Bioinformática
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>Incorporação de texto baseada em projeção aleatória inspirada em bioinformática</title>
<link href="https://hdl.handle.net/1884/101095" rel="alternate"/>
<author>
<name/>
</author>
<id>https://hdl.handle.net/1884/101095</id>
<updated>2026-02-27T14:33:33Z</updated>
<published>2026-01-01T00:00:00Z</published>
<summary type="text">Incorporação de texto baseada em projeção aleatória inspirada em bioinformática
Resumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree); Abstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree)
Orientador: Prof. Dr. Roberto Tadeu Raittz; Coorientador: Prof. Dr. Fábio de Oliveira Pedrosa; Banca: Alexander Robert Kutzke (Presidente da Banca), Roberto Hirochi Herai, Dieval Guizelini, Eduardo Tieppo e Fabio de Oliveira Pedrosa; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 03/11/2025; Inclui referências; Área de concentração:
</summary>
<dc:date>2026-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática</title>
<link href="https://hdl.handle.net/1884/99586" rel="alternate"/>
<author>
<name/>
</author>
<id>https://hdl.handle.net/1884/99586</id>
<updated>2025-12-02T19:16:27Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática
Resumo: Diversos problemas da bioinformática envolvem dados de alta dimensionalidade. Dentre as soluções para lidar com grande volume de dados está a redução de dimensionalidade, que pode ser obtida pelo uso da projeção randômica (RP). A RP possui características que a tornam um método generalista, como manter a distância entre os pontos no espaço, e a independência do conjunto de dados. Já foi demonstrado que RP podem ser aplicados com sucesso na análise de sequências biológicas (nucleotídicas e aminoácidos) através da ferramenta SWeeP, um método de representação vetorial de sequências biológicas obtida através da aplicação de RP sobre frequência de k-mers. SWeeP é o primeiro a realizar a associação dessas técnicas. Neste estudo exploramos o conceito SWeeP e generalizamos a ferramenta para ser solução para diversos problemas de alta dimensionalidade em bioinformática. Desenvolvemos o pacote R, rSWeeP, com funções para vetorização de sequências biológicas e apresentamos otimizações. Como principal desenvolvimento, temos a função FGOP, capaz de gerar a matriz de projeção de forma determinística e com baixo uso de RAM, garantindo reprodutibilidade e permitindo análises mais robustas (maior k-mer e comprimento de projeção). FGOP vai além ao permitir projeções de espaços de dimensões muito grandes em espaços reduzidos, cuja aplicação não se limita a problemas biológicos. Realizamos dois estudos: (1) o uso de SWeeP em proteomas de SARS-CoV-2 sequenciados no Brasil, a fim de obter um panorama da pandemia no país e um protocolo de análise de proteomas virais; e (2) a aplicação de rSWeeP em proteomas bacterianos, a fim de obter um protocolo de análise para proteomas bacterianos e para validação do pacote desenvolvido; neste estudo também realizamos um benchmarking de rSWeeP com dois métodos livres de alinhamento no estado da arte, fastANI e Mash, avaliando comparativamente os resultados na obtenção de filogenias globais bacterianas. Como resultados, o uso de SWeeP no primeiro estudo mediou a descoberta de conhecimento, destacando as diferenças entre as variantes virais e suas relações filogenéticas. Com o segundo estudo, conseguimos compreender melhor a informação contida nos vetores e constatamos que o uso de genomas completos não fornece a melhor perspectiva para as filogenias globais. Ambos estudos demonstraram a efetividade do uso de vetores SWeeP para a implementação de métodos de aprendizado de máquina (ML) e para representar as sequências biológicas. No benchmarking realizado, rSWeeP se destacou em relação às demais ferramentas e permitiu obter a melhor filogenia global bacteriana. Para se obter uma filogenia de referência, ainda será necessário um aprofundamento no estudo. Por fim, obtivemos sucesso na validação de rSWeeP e na obtenção de protocolos de análise para dados virais e bacterianos. Demonstramos resultados superiores a métodos livres de alinhamento tradicionais. rSWeeP possui perspectivas para consolidação no estudo de outros grupos.; Abstract: Many bioinformatics problems involve high-dimensional data. Among the solutions for dealing with large volumes of data there is the dimensionality reduction, which can be achieved by using random projection (RP). RP has characteristics that make it a generalised method, such as maintaining the distance between points in space and the independence of the data set. It has already been shown that RP can be successfully applied to analysing biological sequences (nucleotide and amino acids) using the SWeeP tool, a method of vector representation of biological sequences obtained by applying RP to the frequency of k-mers. SWeeP is the first to combine these techniques. In this study we explore the SWeeP concept and generalise the tool to be a solution for various high-dimensional problems in bioinformatics. We developed the R package, rSWeeP, with functions for vectorising biological sequences and present optimisations. The main development is the FGOP function, capable of generating the projection matrix deterministically and with low RAM usage, guaranteeing reproducibility and allowing for more robust analyses (greater k-mer and projection length). FGOP goes further by allowing projections of very large spaces into compact spaces, the application of which is not limited to biological problems. We carried out two studies: (1) the use of SWeeP in SARS-CoV-2 proteomes sequenced in Brazil, in order to obtain an overview of the pandemic in the country and a protocol for analysing viral proteomes; and (2) the application of rSWeeP to bacterial proteomes, in order to obtain an analysis protocol for bacterial proteomes and to validate the package developed; in this study we also benchmarked rSWeeP with two state-of-the-art alignment-free methods, fastANI and Mash, comparatively evaluating the results in obtaining global bacterial phylogenies. As a result, the use of SWeeP in the first study mediated knowledge discovery, highlighting the differences between viral variants and their phylogenetic relationships. With the second study, we were able to better understand the information contained in the vectors and realised that the use of complete genomes does not provide the best perspective for global phylogenies. Both studies demonstrated the effectiveness of using SWeeP vectors to implement machine learning (ML) methods and to represent the biological sequences. In the benchmarking carried out, rSWeeP stood out in relation to the other tools and made it possible to obtain the best global bacterial phylogeny. In order to obtain a reference phylogeny, further research is still needed. Finally, we were successful in validating rSWeeP and obtaining analysis protocols for viral and bacterial data. We demonstrated superior results to traditional alignment-free methods. rSWeeP has prospects for consolidation in the study of other groups.
Orientador: Roberto Tadeu Raittz; Coorientador: Ricardo Assunção Vialle; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 08/05/2025; Inclui referências; Área de concentração: Inteligência Artifical
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>Ferramentas de inteligência artificial para aplicação em filogenia e em Grafo de Lattice</title>
<link href="https://hdl.handle.net/1884/98834" rel="alternate"/>
<author>
<name/>
</author>
<id>https://hdl.handle.net/1884/98834</id>
<updated>2025-10-14T16:02:11Z</updated>
<published>2024-01-01T00:00:00Z</published>
<summary type="text">Ferramentas de inteligência artificial para aplicação em filogenia e em Grafo de Lattice
Resumo: Esta dissertação apresenta as ferramentas rSWeeP e R3TO como inovações no campo da bioinformática e otimização de redes. O rSWeeP é uma implementação em R do método SWeeP, desenvolvida para popularizar esta metodologia no campo da bioinformática. Ao utilizar o SWeeP para representar sequências biológicas em vetores de baixa dimensão, o rSWeeP facilita análises rápidas e precisas de grandes volumes de dados genômicos em uma das plataformas mais populares na bioinformática: a linguagem R. O R3TO é introduzido como uma alternativa eficiente aos métodos tradicionais de cálculo de distância, como o algoritmo de Dijkstra, demonstrando superioridade ao lidar com redes de distribuição elétrica em áreas rurais. Esta pesquisa ainda propõe um uso sinérgico das capacidades do rSWeeP e do R3TO, que pode resultar em ganhos significativos de precisão e eficiência. O estudo, portanto, evidencia o potencial de ambas as ferramentas, isoladas e em conjunto, para impulsionar avanços na análise filogenética, ampliando as possibilidades de aplicações na área de bioinformática; Abstract: This dissertation presents the rSWeeP and R3TO tools as innovations in the field of bioinformatics and network optimization. rSWeeP is an R implementation of the SWeeP method, developed to popularize this methodology in the field of bioinformatics. By using SWeeP to represent biological sequences in low-dimensional vectors, rSWeeP facilitates fast and accurate analysis of large volumes of genomic data in one of the most popular platforms in bioinformatics: the R language. R3TO is introduced as an efficient alternative to traditional distance calculation methods, such as Dijkstra's algorithm, demonstrating superiority when dealing with electrical distribution networks in rural areas. This research also proposes a synergistic use of the capabilities of rSWeeP and R3TO, which can result in significant gains in accuracy and efficiency. The study, therefore, highlights the potential of both tools, alone and together, to drive advances in phylogenetic analysis, expanding the possibilities of applications in the field of bioinformatics
Orientador: Prof. Dr. Roberto Raittz; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 14/06/2024; Inclui referências; Área de concentração: Bioinformática
</summary>
<dc:date>2024-01-01T00:00:00Z</dc:date>
</entry>
</feed>
