Otimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumannii

D’Espindula, Helena Regina Salome

Visualizar/Abrir

R - E - HELENA REGINA SALOME DESPINDULA.pdf (7.499Mb)

Data

2025

Autor

D’Espindula, Helena Regina Salome

Metadata

Mostrar registro completo

Resumo

Resumo: O crescimento exponencial de dados genômicos tem ampliado os desafios de desempenho computacional em bioinformática, demandando soluções escaláveis e eficientes. Este trabalho apresenta um estudo de caso de otimização do fsm-lite, ferramenta em C++ utilizada para análises de similaridade baseadas em k-mers, aplicada ao processamento de mais de 8.860 genomas de Acinetobacter baumannii. Na execução original, mesmo em um servidor de alto desempenho com 1,5 TB de RAM (limite de 800 GB), a execução falhou após 72 horas devido ao consumo excessivo de memória. Foram conduzidos testes sistemáticos variando parâmetros de execução e implementadas modificações incrementais no código, incluindo inserção de logs verbosos, instrumentação para depuração e estratégias explícitas de liberação de memória. As métricas de desempenho incluíram tempo de execução, uso de CPU e pico de memória (max_rss). As otimizações resultaram em ganhos consistentes de estabilidade e eficiência, preservando a equivalência dos resultados. Este estudo evidencia como ajustes relativamente simples de engenharia de software podem viabilizar o uso de ferramentas científicas em cenários de big data, ampliando sua aplicabilidade em epidemiologia genômica e em análises comparativas de larga escala

Abstract: The exponential growth of genomic data has intensified computational performance challenges in bioinformatics, requiring scalable and efficient solutions. This study presents a case study on the optimization of fsm-lite, a C++ tool for k-mer–based similarity analysis, applied to the processing of more than 8,000 Acinetobacter baumannii genomes. In its original execution, even on a high-performance server with 1.5 TB of RAM (limited to 800 GB), the execution failed after 72 hours due to excessive memory usage. Systematic tests were performed by varying execution parameters, and incremental code modifications were implemented, including verbose logging, debugging instrumentation, and explicit memory release strategies. Performance metrics included execution time, CPU usage, and peak memory consumption (max_rss). The optimizations resulted in consistent improvements in stability and efficiency while preserving output equivalence. This work demonstrates how relatively simple software engineering adjustments can enable the use of scientific tools in big data scenarios, expanding their applicability to genomic epidemiology and large-scale comparative analyses

URI

https://hdl.handle.net/1884/98957

Collections

Data Science & Big Data [171]