PGPTracker : desenvolvimento de uma pipeline bioinformática para predição funcional de promotores de crescimento vegetal
Resumo
Resumo: O microbioma do solo desempenha um papel crucial na agricultura sustentável, oferecendo serviços ecossistêmicos vitais por meio de características de promoção de crescimento vegetal. No entanto, a complexidade de traduzir dados taxonômicos de 16S rRNA em insights funcionais permanece um desafio, frequentemente limitado por ferramentas computacionais que exigem infraestrutura de alto desempenho e pela dificuldade de correlacionar esses dois tipos de dados. Assim, este trabalho apresenta o desenvolvimento do PGPTracker (Plant GrowthPromoter Tracker), uma interface de linha de comando bioinformática projetada para conectar a taxonomia microbiana à funcionalidade potencial. A ferramenta implementa um pipeline em dois estágios: (1) Processamento das sequências do usuário, no qual se utilizam envoltórios de algoritmos estabelecidos do QIIME2 e PICRUSt2 para classificação taxonômica e predição dos KEGG Orthologs (KOs). Em seguida, esses dados são relacionados à PLaBAse. Os resultados desse estágio compreendem duas tabelas de abundância: uma que indica quais PGPTs estão presentes em cada amostra e outra que relaciona quais táxons são responsáveis pela produção de cada PGPT. (2) Análise, em que primeiro se aplica a normalização Centered Log-Ratio (CLR), seguida por testes estatísticos de diversidade funcional, testes de hipótese (por exemplo, Kruskal–Wallis), abordagens de aprendizado de máquina (Random Forest, Boruta) e geração de visualizações integradas. Por fim, uma interface gráfica permite que o usuário explore visualmente como seus dados se relacionam com os PGPTs. A ferramenta foi validada utilizando dados do Earth Microbiome Project (EMP), demonstrando capacidade de processar grandes volumes de dados em hardware de especificações moderadas (64GB RAM, 8 vCPUs). O PGPTracker oferece uma solução acessível e robusta para pesquisadores que desejam correlacionar a composição microbiana com promotores de crescimento vegetal, incluindo análise estratificada que atribui contribuições funcionais a táxons específicos Abstract: The soil microbiome plays a crucial role in sustainable agriculture, providing vital ecosystem services through plant growth-promoting traits. However, the complexity of translating 16S rRNA taxonomic data into functional insights remains a challenge, often limited by computational tools that require high-performance infrastructure and by the difficulty of correlating these two types of data. This work presents the development of PGPTracker (Plant Growth-Promoter Tracker), a bioinformatics command-line interface designed to connect microbial taxonomy to potential functionality. The tool implements a two-stage pipeline: (1) Processing of user sequences, using wrappers around established QIIME2 and PICRUSt2 algorithms for taxonomic classification and prediction of KEGG Orthologs (KOs), which are then mapped to PLaBAse. The final outputs of this stage are two abundance tables: one indicating which PGPTs are present in each sample, and another showing which taxa are responsible for producing each PGPT. (2) Analysis, in which the Centered Log-Ratio (CLR) normalization is applied, followed by statistical tests of functional diversity, hypothesis testing (for example, Kruskal– Wallis), machine-learning approaches (Random Forest, Boruta), and integrated visualizations. Finally, a graphical interface allows the user to visually explore how their data relates to PGPTs. The tool was validated using data from the Earth Microbiome Project (EMP), demonstrating the ability to process large datasets on moderate hardware (64 GB RAM, 8 vCPUs). PGPTracker provides an accessible and robust solution for researchers aiming to correlate microbial community composition with plant growth-promoting traits, including stratified analysis that assigns functional contributions to specific taxa