chembl_miner : um pacote Python para automação de ML-QSAR com dados do ChEMBL

Martins, Henrique Gabriel Wuchryn

dc.contributor.advisor	Gysi, Deisy Morselli, 1990-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data	pt_BR
dc.creator	Martins, Henrique Gabriel Wuchryn	pt_BR
dc.date.accessioned	2026-01-20T18:24:13Z
dc.date.available	2026-01-20T18:24:13Z
dc.date.issued	2026	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/100400
dc.description	Orientador: Prof. Dra. Deisy Morselli Gysi	pt_BR
dc.description	Artigo apresentado como Trabalho de Conclusão de Curso	pt_BR
dc.description	Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Data	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: A descoberta de fármacos é um processo oneroso, onde a modelagem de Relação Estrutura-Atividade Quantitativa baseada em aprendizado de máquina (ML-QSAR) surge como estratégia vital para explorar grandes volumes de dados de bioatividade disponíveis em repositórios como o ChEMBL. No entanto, a complexidade do pré-processamento de dados e da implementação de algoritmos limita o uso autônomo dessas técnicas por muitos pesquisadores. Este trabalho apresenta o chembl_miner, um pacote em Python desenvolvido para automatizar e padronizar o fluxo de trabalho de MLQSAR. A ferramenta integra etapas de recuperação de dados via API do ChEMBL, limpeza, curadoria (tratamento de duplicatas e padronização de unidades) e cálculo de descritores moleculares via RDKit e PaDEL-Descriptor. Para a modelagem, o pacote utiliza algoritmos de mechine learning com otimização de hiperparâmetros via Algoritmo Genético, divisão estrutural dos dados (scaffold split) e definição do Domínio de Aplicação via One-Class SVM. A aplicabilidade foi validada em um estudo de caso para predição de atividade antifúngica contra Candida albicans utilizando XGBoost, processando mais de 36.000 registros. Os resultados demonstraram robustez estatística e consistência na validação cruzada e em testes independentes, confirmando que o chembl_miner facilita o acesso à metodologia MLQSAR, promove a reprodutibilidade científica e acelera a transformação de dados brutos em conhecimento químico	pt_BR
dc.description.abstract	Abstract: Drug discovery is a costly endeavor wherein Machine Learning-based Quantitative Structure-Activity Relationship (ML-QSAR) modeling has become a strategic tool for leveraging massive bioactivity datasets from repositories like ChEMBL. However, the complexity associated with data preprocessing and algorithm implementation often hinders the autonomous application of these techniques by researchers. This work introduces chembl_miner, a Python package designed to automate and standardize the ML-QSAR workflow. The tool integrates data retrieval via the ChEMBL API, cleaning, curation (duplicate treatment and unit standardization), and molecular descriptor calculation using RDKit and PaDEL-Descriptor. For modeling, the package employs machine learning algorithms featuring hyperparameter optimization via Genetic Algorithm, scaffold splitting, and Applicability Domain definition using One-Class SVM. Its applicability was validated through a case study predicting antifungal activity against Candida albicans using XGBoost, processing over 36,000 records. Results showed statistical robustness and consistency in both cross-validation and independent testing, confirming that chembl_miner simplifies access to ML-QSAR methodology, promotes scientific reproducibility, and accelerates the transformation of raw data into actionable chemical knowledge	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Python (Linguagem de programação de computador)	pt_BR
dc.subject	Recuperação de dados (Computação)	pt_BR
dc.subject	Indústria farmacêutica - Inovações tecnológicas	pt_BR
dc.title	chembl_miner : um pacote Python para automação de ML-QSAR com dados do ChEMBL	pt_BR
dc.type	TCC Especialização Digital	pt_BR

Arquivos deste item

Nome:: R - E - HENRIQUE GABRIEL WUCHRYN ...
Tamanho:: 910.7Kb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Data Science & Big Data [190]

Mostrar registro simples