• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    chembl_miner : um pacote Python para automação de ML-QSAR com dados do ChEMBL

    Thumbnail
    Visualizar/Abrir
    R - E - HENRIQUE GABRIEL WUCHRYN MARTINS.pdf (910.7Kb)
    Data
    2026
    Autor
    Martins, Henrique Gabriel Wuchryn
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A descoberta de fármacos é um processo oneroso, onde a modelagem de Relação Estrutura-Atividade Quantitativa baseada em aprendizado de máquina (ML-QSAR) surge como estratégia vital para explorar grandes volumes de dados de bioatividade disponíveis em repositórios como o ChEMBL. No entanto, a complexidade do pré-processamento de dados e da implementação de algoritmos limita o uso autônomo dessas técnicas por muitos pesquisadores. Este trabalho apresenta o chembl_miner, um pacote em Python desenvolvido para automatizar e padronizar o fluxo de trabalho de MLQSAR. A ferramenta integra etapas de recuperação de dados via API do ChEMBL, limpeza, curadoria (tratamento de duplicatas e padronização de unidades) e cálculo de descritores moleculares via RDKit e PaDEL-Descriptor. Para a modelagem, o pacote utiliza algoritmos de mechine learning com otimização de hiperparâmetros via Algoritmo Genético, divisão estrutural dos dados (scaffold split) e definição do Domínio de Aplicação via One-Class SVM. A aplicabilidade foi validada em um estudo de caso para predição de atividade antifúngica contra Candida albicans utilizando XGBoost, processando mais de 36.000 registros. Os resultados demonstraram robustez estatística e consistência na validação cruzada e em testes independentes, confirmando que o chembl_miner facilita o acesso à metodologia MLQSAR, promove a reprodutibilidade científica e acelera a transformação de dados brutos em conhecimento químico
     
    Abstract: Drug discovery is a costly endeavor wherein Machine Learning-based Quantitative Structure-Activity Relationship (ML-QSAR) modeling has become a strategic tool for leveraging massive bioactivity datasets from repositories like ChEMBL. However, the complexity associated with data preprocessing and algorithm implementation often hinders the autonomous application of these techniques by researchers. This work introduces chembl_miner, a Python package designed to automate and standardize the ML-QSAR workflow. The tool integrates data retrieval via the ChEMBL API, cleaning, curation (duplicate treatment and unit standardization), and molecular descriptor calculation using RDKit and PaDEL-Descriptor. For modeling, the package employs machine learning algorithms featuring hyperparameter optimization via Genetic Algorithm, scaffold splitting, and Applicability Domain definition using One-Class SVM. Its applicability was validated through a case study predicting antifungal activity against Candida albicans using XGBoost, processing over 36,000 records. Results showed statistical robustness and consistency in both cross-validation and independent testing, confirming that chembl_miner simplifies access to ML-QSAR methodology, promotes scientific reproducibility, and accelerates the transformation of raw data into actionable chemical knowledge
     
    URI
    https://hdl.handle.net/1884/100400
    Collections
    • Data Science & Big Data [191]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV