Otimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumannii

D’Espindula, Helena Regina Salome

dc.contributor.advisor	Oliveira, Lucas Ferrari de, 1976-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data	pt_BR
dc.creator	D’Espindula, Helena Regina Salome	pt_BR
dc.date.accessioned	2025-10-22T18:02:03Z
dc.date.available	2025-10-22T18:02:03Z
dc.date.issued	2025	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/98957
dc.description	Orientador: : Prof. Dr Lucas Ferrari de Oliveira	pt_BR
dc.description	Artigo apresentado como Trabalho de Conclusão de Curso	pt_BR
dc.description	Artigo (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: O crescimento exponencial de dados genômicos tem ampliado os desafios de desempenho computacional em bioinformática, demandando soluções escaláveis e eficientes. Este trabalho apresenta um estudo de caso de otimização do fsm-lite, ferramenta em C++ utilizada para análises de similaridade baseadas em k-mers, aplicada ao processamento de mais de 8.860 genomas de Acinetobacter baumannii. Na execução original, mesmo em um servidor de alto desempenho com 1,5 TB de RAM (limite de 800 GB), a execução falhou após 72 horas devido ao consumo excessivo de memória. Foram conduzidos testes sistemáticos variando parâmetros de execução e implementadas modificações incrementais no código, incluindo inserção de logs verbosos, instrumentação para depuração e estratégias explícitas de liberação de memória. As métricas de desempenho incluíram tempo de execução, uso de CPU e pico de memória (max_rss). As otimizações resultaram em ganhos consistentes de estabilidade e eficiência, preservando a equivalência dos resultados. Este estudo evidencia como ajustes relativamente simples de engenharia de software podem viabilizar o uso de ferramentas científicas em cenários de big data, ampliando sua aplicabilidade em epidemiologia genômica e em análises comparativas de larga escala	pt_BR
dc.description.abstract	Abstract: The exponential growth of genomic data has intensified computational performance challenges in bioinformatics, requiring scalable and efficient solutions. This study presents a case study on the optimization of fsm-lite, a C++ tool for k-mer–based similarity analysis, applied to the processing of more than 8,000 Acinetobacter baumannii genomes. In its original execution, even on a high-performance server with 1.5 TB of RAM (limited to 800 GB), the execution failed after 72 hours due to excessive memory usage. Systematic tests were performed by varying execution parameters, and incremental code modifications were implemented, including verbose logging, debugging instrumentation, and explicit memory release strategies. Performance metrics included execution time, CPU usage, and peak memory consumption (max_rss). The optimizations resulted in consistent improvements in stability and efficiency while preserving output equivalence. This work demonstrates how relatively simple software engineering adjustments can enable the use of scientific tools in big data scenarios, expanding their applicability to genomic epidemiology and large-scale comparative analyses	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject	Genômica	pt_BR
dc.subject	Big data	pt_BR
dc.title	Otimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumannii	pt_BR
dc.type	TCC Especialização Digital	pt_BR

Arquivos deste item

Nome:: R - E - HELENA REGINA SALOME ...
Tamanho:: 7.499Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Data Science & Big Data [191]

Mostrar registro simples