Otimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumannii
Visualizar/ Abrir
Data
2025Autor
D’Espindula, Helena Regina Salome
Metadata
Mostrar registro completoResumo
Resumo: O crescimento exponencial de dados genômicos tem ampliado os desafios de desempenho computacional em bioinformática, demandando soluções escaláveis e eficientes. Este trabalho apresenta um estudo de caso de otimização do fsm-lite, ferramenta em C++ utilizada para análises de similaridade baseadas em k-mers, aplicada ao processamento de mais de 8.860 genomas de Acinetobacter baumannii. Na execução original, mesmo em um servidor de alto desempenho com 1,5 TB de RAM (limite de 800 GB), a execução falhou após 72 horas devido ao consumo excessivo de memória. Foram conduzidos testes sistemáticos variando parâmetros de execução e implementadas modificações incrementais no código, incluindo inserção de logs verbosos, instrumentação para depuração e estratégias explícitas de liberação de memória. As métricas de desempenho incluíram tempo de execução, uso de CPU e pico de memória (max_rss). As otimizações resultaram em ganhos consistentes de estabilidade e eficiência, preservando a equivalência dos resultados. Este estudo evidencia como ajustes relativamente simples de engenharia de software podem viabilizar o uso de ferramentas científicas em cenários de big data, ampliando sua aplicabilidade em epidemiologia genômica e em análises comparativas de larga escala Abstract: The exponential growth of genomic data has intensified computational performance challenges in bioinformatics, requiring scalable and efficient solutions. This study presents a case study on the optimization of fsm-lite, a C++ tool for k-mer–based similarity analysis, applied to the processing of more than 8,000 Acinetobacter baumannii genomes. In its original execution, even on a high-performance server with 1.5 TB of RAM (limited to 800 GB), the execution failed after 72 hours due to excessive memory usage. Systematic tests were performed by varying execution parameters, and incremental code modifications were implemented, including verbose logging, debugging instrumentation, and explicit memory release strategies. Performance metrics included execution time, CPU usage, and peak memory consumption (max_rss). The optimizations resulted in consistent improvements in stability and efficiency while preserving output equivalence. This work demonstrates how relatively simple software engineering adjustments can enable the use of scientific tools in big data scenarios, expanding their applicability to genomic epidemiology and large-scale comparative analyses
Collections
- Data Science & Big Data [163]