Mostrar registro simples

dc.contributor.advisorOliveira, Lucas Ferrari de, 1976-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Datapt_BR
dc.creatorD’Espindula, Helena Regina Salomept_BR
dc.date.accessioned2025-10-22T18:02:03Z
dc.date.available2025-10-22T18:02:03Z
dc.date.issued2025pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/98957
dc.descriptionOrientador: : Prof. Dr Lucas Ferrari de Oliveirapt_BR
dc.descriptionArtigo apresentado como Trabalho de Conclusão de Cursopt_BR
dc.descriptionArtigo (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Datapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: O crescimento exponencial de dados genômicos tem ampliado os desafios de desempenho computacional em bioinformática, demandando soluções escaláveis e eficientes. Este trabalho apresenta um estudo de caso de otimização do fsm-lite, ferramenta em C++ utilizada para análises de similaridade baseadas em k-mers, aplicada ao processamento de mais de 8.860 genomas de Acinetobacter baumannii. Na execução original, mesmo em um servidor de alto desempenho com 1,5 TB de RAM (limite de 800 GB), a execução falhou após 72 horas devido ao consumo excessivo de memória. Foram conduzidos testes sistemáticos variando parâmetros de execução e implementadas modificações incrementais no código, incluindo inserção de logs verbosos, instrumentação para depuração e estratégias explícitas de liberação de memória. As métricas de desempenho incluíram tempo de execução, uso de CPU e pico de memória (max_rss). As otimizações resultaram em ganhos consistentes de estabilidade e eficiência, preservando a equivalência dos resultados. Este estudo evidencia como ajustes relativamente simples de engenharia de software podem viabilizar o uso de ferramentas científicas em cenários de big data, ampliando sua aplicabilidade em epidemiologia genômica e em análises comparativas de larga escalapt_BR
dc.description.abstractAbstract: The exponential growth of genomic data has intensified computational performance challenges in bioinformatics, requiring scalable and efficient solutions. This study presents a case study on the optimization of fsm-lite, a C++ tool for k-mer–based similarity analysis, applied to the processing of more than 8,000 Acinetobacter baumannii genomes. In its original execution, even on a high-performance server with 1.5 TB of RAM (limited to 800 GB), the execution failed after 72 hours due to excessive memory usage. Systematic tests were performed by varying execution parameters, and incremental code modifications were implemented, including verbose logging, debugging instrumentation, and explicit memory release strategies. Performance metrics included execution time, CPU usage, and peak memory consumption (max_rss). The optimizations resulted in consistent improvements in stability and efficiency while preserving output equivalence. This work demonstrates how relatively simple software engineering adjustments can enable the use of scientific tools in big data scenarios, expanding their applicability to genomic epidemiology and large-scale comparative analysespt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectBioinformáticapt_BR
dc.subjectGenômicapt_BR
dc.subjectBig datapt_BR
dc.titleOtimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumanniipt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples