40001016066P4 Programa de Pós-Graduação em Bioinformática

40001016066P4 Programa de Pós-Graduação em Bioinformática https://hdl.handle.net/1884/39719 2026-07-25T06:02:38Z Integração multiômica por análise fatorial revela mecanismos da heterogeneidade da doença de Alzheimer https://hdl.handle.net/1884/102079 Integração multiômica por análise fatorial revela mecanismos da heterogeneidade da doença de Alzheimer Resumo: Os correlatos moleculares da doença de Alzheimer (DA) vêm sendo cada vez mais definidos por abordagens ômicas. No entanto, os resultados obtidos de diferentes tipos de dados ou coortes costumam ser difíceis de reconciliar. A coleta de múltiplas ômicas de um mesmo indivíduo permite uma visão mais abrangente dos mecanismos moleculares da doença e ajuda a resolver contradições de análises ômicas isoladas. Essa abordagem multiômica pode revelar, por exemplo, quando alterações observadas no transcriptoma compartilham sinais distintos, porém coordenados, na epigenética e na proteômica, relações que, de outra forma, permaneceriam obscuras. Neste trabalho, empregamos uma abordagem integrativa multiômica baseada em dados para combinar informações epigenômicas, transcriptômicas, proteômicas, metabolômicas e de populações específicas de tipos celulares, obtidas de até 1.358 amostras de cérebro humano idoso dos estudos Religious Orders Study e Rush Memory and Aging Project. Demonstramos a existência de fatores biológicos interconectados entre diferentes ômicas e sistemas, que também se relacionam com fenótipos da DA. O fator mais fortemente associado à DA (fator 8) envolveu maior atividade imunológica em nível epigenético, redução da expressão de genes de choque térmico no transcriptoma e perturbações no metabolismo energético e na dinâmica do citoesqueleto na proteômica. Também identificamos fatores imunológicos (fatores 2 e 3) com enriquecimentos discordantes, refletindo subpopulações gliais reativas e contribuições protetoras de micróglias de vigilância. Ambos foram negativamente associados à patologia da DA, sugerindo potenciais mecanismos de resiliência imunológica. Por fim, a clusterização não supervisionada dos participantes revelou onze subtipos moleculares do cérebro envelhecido, incluindo três fortemente associados à DA, mas com assinaturas moleculares e características fenotípicas distintas. Nossas descobertas fornecem um panorama abrangente dos mecanismos moleculares que sustentam a heterogeneidade da DA, destacando o papel complexo dos processos neuroinflamatórios e apontando novos biomarcadores e alvos terapêuticos para abordagens de medicina de precisão no tratamento da doença; Abstract: The molecular correlates of Alzheimer’s disease (AD) are increasingly being defined by omics. Yet, the findings from different data types or cohorts are often difficult to reconcile. Collecting multiple omics from the same individuals allows a comprehensive view of disease-related molecular mechanisms, while addressing conflicting findings derived from single omics. Such same-sample multi-omics can reveal, for instance, when changes observed in the transcriptome share distinct but coordinated signals in epigenetics and proteomics, relationships otherwise unclear. Here, we apply a data-driven multi-omic framework to integrate epigenomic, transcriptomic, proteomic, metabolomic, and cell-type–specific population data from up to 1,358 aged human brain samples from the Religious Orders Study and Rush Memory and Aging Project. We demonstrate the existence of sprawling cross-omics cross-system biological factors that also relate to AD phenotypes. The strongest ADassociated factor (factor 8) involved elevated immune activity at the epigenetic level, decreased expression of heat shock genes in the transcriptome, and disrupted energy metabolism and cytoskeletal dynamics in the proteome. We also showed immunerelated factors (factors 2 and 3) with discordant enrichments, reflecting reactive-like glial subpopulations and protective contributions from surveillance microglia. Both were negatively associated with AD pathology, suggesting potential immune resilience mechanisms. Finally, unsupervised clustering of participants revealed eleven molecular subtypes of the aging brain, including three clusters strongly associated with AD but displaying distinct molecular signatures and phenotypic characteristics. Our findings provide a comprehensive map of molecular mechanisms underlying AD heterogeneity, highlighting the complex role of neuroinflammatory processes, and yielding potential novel biomarkers and therapeutic targets for precision medicine approaches to AD treatment Orientador: Prof. Dr. Ricardo Assunção Vialle; Coorientador: Prof. Dr. Roberto Tadeu Raittz; Banca: Gilderlanio Santana de Araújo (Presidente da Banca), Dieval Guizelini, Deisy Morselli Gysi e Roberto Tadeu Raittz; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 27/01/2026; Inclui referências; Área de concentração: Bioinformática 2025-01-01T00:00:00Z Mapeando "hypes" : exageros e esperanças na medicina https://hdl.handle.net/1884/101652 Mapeando "hypes" : exageros e esperanças na medicina Resumo: A inovação médica é frequentemente acompanhada por ciclos de otimismo e ceticismo, comumente expressos em inglês através do par retórico "hype or hope". Embora ampla mente utilizado como marcador de hesitação científica, esse discurso ainda não havia sido examinado em larga escala. Analisamos 422 artigos indexados no PubMed que continham ambos os termos em seus títulos ou resumos, com o objetivo de mapear alegações médicas contestadas na literatura biomédica. Utilizando uma metodologia híbrida que combinou processamento de linguagem natural, agrupamento hierárquico de embeddings de texto, sumarização dialética baseada em grandes modelos de lin guagem (LLM) e curadoria humana especializada, identificamos 23 tópicos principais abrangendo doenças e tratamentos. A prevalência dos tópicos no corpus do estudo foi então comparada à base de dados geral do PubMed usando análise de enriquecimento hipergeométrico. Os resultados revelaram diferenças marcantes entre os domínios biomédicos. Tópicos relacionados a tratamentos foram mais super-representados do que os relacionados a doenças, com biópsia líquida (enriquecimento de 22×) e terapias com células-tronco (13×) apresentando a maior super-representação; alto enriqueci mento também foi observado para medicina de precisão, inteligência artificial, cannabis e intervenções baseadas no microbioma. Entre as doenças, o autismo apresentou o maior enriquecimento (4,8×), enquanto o câncer foi o contexto mais frequente para o enquadramento "hype or hope". Em vez de resolver se inovações específicas consti tuem "hype" ou progresso genuíno, este estudo mapeia onde promessa e evidência divergem nos domínios biomédicos—demonstrando como a análise computacional de texto pode revelar padrões coletivos de incerteza científica; Abstract: Medical innovation is often accompanied by cycles of optimism and skepticism, com monly expressed through the rhetorical pairing "hype or hope". Although widely used as a marker of scientific hesitation, this discourse has not previously been examined at scale. We analyzed 422 PubMed-indexed articles that contained both terms in their titles or abstracts, aiming to map contested medical claims across the biomedical literature. Using a hybrid methodology that combined Natural Language Processing (NLP), hierarchical clustering of text embeddings, Large Language Model (LLM)–based dialectical summarization, and expert human curation, we identified 23 core topics spanning diseases and treatments. The prevalence of topics in the study corpus was then compared with that in the broader PubMed database using hypergeometric en richment analysis. The results revealed marked differences across biomedical domains. Treatment-related topics were more over-represented than disease-related ones, with liquid biopsy (22× enrichment) and stem cell therapies (13×) showing the strongest over-representation; high enrichment was also observed for precision medicine, ar tificial intelligence, cannabis, and microbiome-based interventions. Among diseases, autism showed the highest enrichment (4.8×) while cancer was the most frequent context for "hype or hope" framing. Rather than resolving whether specific innovations constitute hype or genuine progress, this study maps where promise and evidence diverge across biomedical domains—demonstrating how computational text analysis can uncover collective patterns of scientific uncertainty Orientador: Prof. Dr. Roberto Tadeu Raittz; Banca: Mauro Antonio Alves Castro (Presidente da Banca), Nelson Alessandretti de Mello Lemos e Gertrudes Aparecida Dandolini; Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educacao Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 10/12/2025; Inclui referências; Área de concentração: Bioinformática 2025-01-01T00:00:00Z Incorporação de texto baseada em projeção aleatória inspirada em bioinformática https://hdl.handle.net/1884/101095 Incorporação de texto baseada em projeção aleatória inspirada em bioinformática Resumo: Este estudo apresenta o SWeePtex, uma metodologia para a geração de incorpora ções vetoriais de texto (text embeddings) por meio de projeção aleatória, inspirada em técnicas de Bioinformática. A abordagem permite a criação de modelos a partir do zero (from scratch), sendo particularmente útil em domínios específicos. O SWe ePtex adapta o método SWeeP (Spaced Words Projection), originalmente concebido para sequências biológicas, partindo da premissa de que a linguagem natural e as sequências biológicas compartilham uma estrutura comum de sequências de entida des elementares. Esta analogia é formalizada por meio do conceito de texto como uma sequência biológica (Biological Sequence-Like, BSL), na qual textos são codificados no formato FASTA para a aplicação direta de métodos de Bioinformática. A proposta é desenvolvida por meio de três artigos: o Artigo 1 introduz o framework Biotext, que integra o SWeePtex por meio da manipulação de textos em BSL; o Artigo 2 apresenta uma avaliação quantitativa por meio de uma plataforma de comparação; e o Artigo 3 apresenta o TXTree (Text Tree), um gerador de interface portátil para a exploração de literatura. Consequentemente, o SWeePtex contribui para uma perspectiva episte mológica alternativa na modelagem de linguagem, fundamentada em princípios ma temáticos e de representação distintos dos paradigmas de aprendizado profundo pre dominantes. Como resultado, o SWeePtex estabelece-se como uma alternativa viável, atuando como um contraponto construtivo e um catalisador de soluções futuras. Qua litativamente, sua viabilidade e relevância são atestadas por meio de exemplos de uso e de uma publicação científica revisada por pares. Quantitativamente, embora resul tados preliminares o mostrem comparável a modelos neurais compactos, reconhece se que barreiras metodológicas de avaliação permanecem e devem ser abordadas em projetos futuros. Assim, o SWeePtex demonstra a generalização bem-sucedida do SWeeP para além do seu domínio original, posicionando-o como uma técnica ba seada no paradigma da projeção aleatória com potencial abrangente. Para fomentar avanços, o software está publicamente disponível em duas implementações: o pacote Biotext no PyPI (https://pypi.org/p/biotext) e a aplicação TXTree no SourceForge (https://sf.net/p/txtree); Abstract: This study presents SWeePtex, a methodology for generating text embeddings via ran dom projection, inspired by Bioinformatics techniques. The approach enables the cre ation of models from scratch, proving particularly useful for specific domains. SWeeP tex adapts the SWeeP method (Spaced Words Projection), originally conceived for biological sequences, based on the premise that natural language and biological se quences share a common structure of elementary entity sequences. This analogy is formalized through the concept of text as a biological sequence (Biological Sequence Like, BSL), where texts are encoded in the FASTA format for the direct application of Bioinformatics methods. The proposal is developed across three articles: Article 1 introduces the Biotext framework, which integrates SWeePtex by manipulating BSL texts; Article 2 provides a quantitative evaluation through a benchmarking platform; and Article 3 presents TXTree (Text Tree), a portable interface generator for litera ture exploration. Consequently, SWeePtex contributes to an alternative epistemolog ical perspective in language modeling, grounded in mathematical and representational principles distinct from prevailing deep learning paradigms. As a result, SWeePtex es tablishes itself as a viable alternative, serving as a constructive counterpoint and a catalyst for future solutions. Qualitatively, its feasibility and relevance are supported by usage examples and a peer-reviewed scientific publication. Quantitatively, although preliminary results indicate it is comparable to compact neural models, methodological evaluation barriers remain and must be addressed in future projects. Thus, SWeePtex demonstrates the successful generalization of the SWeeP beyond its original domain, positioning it as a random-projection-based technique with broad potential. To foster progress, the software is publicly available in two implementations: the Biotext package on PyPI (https://pypi.org/p/biotext) and the TXTree application on SourceForge (https://sf.net/p/txtree) Orientador: Prof. Dr. Roberto Tadeu Raittz; Coorientador: Prof. Dr. Fábio de Oliveira Pedrosa; Banca: Alexander Robert Kutzke (Presidente da Banca), Roberto Hirochi Herai, Dieval Guizelini, Eduardo Tieppo e Fabio de Oliveira Pedrosa; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 03/11/2025; Inclui referências; Área de concentração: 2026-01-01T00:00:00Z SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática https://hdl.handle.net/1884/99586 SWeeP e estudos de projeção randômica aplicados à problemas da bioinformática Resumo: Diversos problemas da bioinformática envolvem dados de alta dimensionalidade. Dentre as soluções para lidar com grande volume de dados está a redução de dimensionalidade, que pode ser obtida pelo uso da projeção randômica (RP). A RP possui características que a tornam um método generalista, como manter a distância entre os pontos no espaço, e a independência do conjunto de dados. Já foi demonstrado que RP podem ser aplicados com sucesso na análise de sequências biológicas (nucleotídicas e aminoácidos) através da ferramenta SWeeP, um método de representação vetorial de sequências biológicas obtida através da aplicação de RP sobre frequência de k-mers. SWeeP é o primeiro a realizar a associação dessas técnicas. Neste estudo exploramos o conceito SWeeP e generalizamos a ferramenta para ser solução para diversos problemas de alta dimensionalidade em bioinformática. Desenvolvemos o pacote R, rSWeeP, com funções para vetorização de sequências biológicas e apresentamos otimizações. Como principal desenvolvimento, temos a função FGOP, capaz de gerar a matriz de projeção de forma determinística e com baixo uso de RAM, garantindo reprodutibilidade e permitindo análises mais robustas (maior k-mer e comprimento de projeção). FGOP vai além ao permitir projeções de espaços de dimensões muito grandes em espaços reduzidos, cuja aplicação não se limita a problemas biológicos. Realizamos dois estudos: (1) o uso de SWeeP em proteomas de SARS-CoV-2 sequenciados no Brasil, a fim de obter um panorama da pandemia no país e um protocolo de análise de proteomas virais; e (2) a aplicação de rSWeeP em proteomas bacterianos, a fim de obter um protocolo de análise para proteomas bacterianos e para validação do pacote desenvolvido; neste estudo também realizamos um benchmarking de rSWeeP com dois métodos livres de alinhamento no estado da arte, fastANI e Mash, avaliando comparativamente os resultados na obtenção de filogenias globais bacterianas. Como resultados, o uso de SWeeP no primeiro estudo mediou a descoberta de conhecimento, destacando as diferenças entre as variantes virais e suas relações filogenéticas. Com o segundo estudo, conseguimos compreender melhor a informação contida nos vetores e constatamos que o uso de genomas completos não fornece a melhor perspectiva para as filogenias globais. Ambos estudos demonstraram a efetividade do uso de vetores SWeeP para a implementação de métodos de aprendizado de máquina (ML) e para representar as sequências biológicas. No benchmarking realizado, rSWeeP se destacou em relação às demais ferramentas e permitiu obter a melhor filogenia global bacteriana. Para se obter uma filogenia de referência, ainda será necessário um aprofundamento no estudo. Por fim, obtivemos sucesso na validação de rSWeeP e na obtenção de protocolos de análise para dados virais e bacterianos. Demonstramos resultados superiores a métodos livres de alinhamento tradicionais. rSWeeP possui perspectivas para consolidação no estudo de outros grupos.; Abstract: Many bioinformatics problems involve high-dimensional data. Among the solutions for dealing with large volumes of data there is the dimensionality reduction, which can be achieved by using random projection (RP). RP has characteristics that make it a generalised method, such as maintaining the distance between points in space and the independence of the data set. It has already been shown that RP can be successfully applied to analysing biological sequences (nucleotide and amino acids) using the SWeeP tool, a method of vector representation of biological sequences obtained by applying RP to the frequency of k-mers. SWeeP is the first to combine these techniques. In this study we explore the SWeeP concept and generalise the tool to be a solution for various high-dimensional problems in bioinformatics. We developed the R package, rSWeeP, with functions for vectorising biological sequences and present optimisations. The main development is the FGOP function, capable of generating the projection matrix deterministically and with low RAM usage, guaranteeing reproducibility and allowing for more robust analyses (greater k-mer and projection length). FGOP goes further by allowing projections of very large spaces into compact spaces, the application of which is not limited to biological problems. We carried out two studies: (1) the use of SWeeP in SARS-CoV-2 proteomes sequenced in Brazil, in order to obtain an overview of the pandemic in the country and a protocol for analysing viral proteomes; and (2) the application of rSWeeP to bacterial proteomes, in order to obtain an analysis protocol for bacterial proteomes and to validate the package developed; in this study we also benchmarked rSWeeP with two state-of-the-art alignment-free methods, fastANI and Mash, comparatively evaluating the results in obtaining global bacterial phylogenies. As a result, the use of SWeeP in the first study mediated knowledge discovery, highlighting the differences between viral variants and their phylogenetic relationships. With the second study, we were able to better understand the information contained in the vectors and realised that the use of complete genomes does not provide the best perspective for global phylogenies. Both studies demonstrated the effectiveness of using SWeeP vectors to implement machine learning (ML) methods and to represent the biological sequences. In the benchmarking carried out, rSWeeP stood out in relation to the other tools and made it possible to obtain the best global bacterial phylogeny. In order to obtain a reference phylogeny, further research is still needed. Finally, we were successful in validating rSWeeP and obtaining analysis protocols for viral and bacterial data. We demonstrated superior results to traditional alignment-free methods. rSWeeP has prospects for consolidation in the study of other groups. Orientador: Roberto Tadeu Raittz; Coorientador: Ricardo Assunção Vialle; Tese (doutorado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 08/05/2025; Inclui referências; Área de concentração: Inteligência Artifical 2025-01-01T00:00:00Z