• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Otimização do processamento em larga escala de genomas bacterianos com o fsm-lite : um estudo de caso de Acinetobacter baumannii

    Thumbnail
    Visualizar/Abrir
    R - E - HELENA REGINA SALOME DESPINDULA.pdf (7.499Mb)
    Data
    2025
    Autor
    D’Espindula, Helena Regina Salome
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: O crescimento exponencial de dados genômicos tem ampliado os desafios de desempenho computacional em bioinformática, demandando soluções escaláveis e eficientes. Este trabalho apresenta um estudo de caso de otimização do fsm-lite, ferramenta em C++ utilizada para análises de similaridade baseadas em k-mers, aplicada ao processamento de mais de 8.860 genomas de Acinetobacter baumannii. Na execução original, mesmo em um servidor de alto desempenho com 1,5 TB de RAM (limite de 800 GB), a execução falhou após 72 horas devido ao consumo excessivo de memória. Foram conduzidos testes sistemáticos variando parâmetros de execução e implementadas modificações incrementais no código, incluindo inserção de logs verbosos, instrumentação para depuração e estratégias explícitas de liberação de memória. As métricas de desempenho incluíram tempo de execução, uso de CPU e pico de memória (max_rss). As otimizações resultaram em ganhos consistentes de estabilidade e eficiência, preservando a equivalência dos resultados. Este estudo evidencia como ajustes relativamente simples de engenharia de software podem viabilizar o uso de ferramentas científicas em cenários de big data, ampliando sua aplicabilidade em epidemiologia genômica e em análises comparativas de larga escala
     
    Abstract: The exponential growth of genomic data has intensified computational performance challenges in bioinformatics, requiring scalable and efficient solutions. This study presents a case study on the optimization of fsm-lite, a C++ tool for k-mer–based similarity analysis, applied to the processing of more than 8,000 Acinetobacter baumannii genomes. In its original execution, even on a high-performance server with 1.5 TB of RAM (limited to 800 GB), the execution failed after 72 hours due to excessive memory usage. Systematic tests were performed by varying execution parameters, and incremental code modifications were implemented, including verbose logging, debugging instrumentation, and explicit memory release strategies. Performance metrics included execution time, CPU usage, and peak memory consumption (max_rss). The optimizations resulted in consistent improvements in stability and efficiency while preserving output equivalence. This work demonstrates how relatively simple software engineering adjustments can enable the use of scientific tools in big data scenarios, expanding their applicability to genomic epidemiology and large-scale comparative analyses
     
    URI
    https://hdl.handle.net/1884/98957
    Collections
    • Data Science & Big Data [163]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV