Mostrar registro simples

dc.contributor.advisorGysi, Deisy Morselli, 1990-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Datapt_BR
dc.creatorMartins, Henrique Gabriel Wuchrynpt_BR
dc.date.accessioned2026-01-20T18:24:13Z
dc.date.available2026-01-20T18:24:13Z
dc.date.issued2026pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/100400
dc.descriptionOrientador: Prof. Dra. Deisy Morselli Gysipt_BR
dc.descriptionArtigo apresentado como Trabalho de Conclusão de Cursopt_BR
dc.descriptionMonografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Datapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: A descoberta de fármacos é um processo oneroso, onde a modelagem de Relação Estrutura-Atividade Quantitativa baseada em aprendizado de máquina (ML-QSAR) surge como estratégia vital para explorar grandes volumes de dados de bioatividade disponíveis em repositórios como o ChEMBL. No entanto, a complexidade do pré-processamento de dados e da implementação de algoritmos limita o uso autônomo dessas técnicas por muitos pesquisadores. Este trabalho apresenta o chembl_miner, um pacote em Python desenvolvido para automatizar e padronizar o fluxo de trabalho de MLQSAR. A ferramenta integra etapas de recuperação de dados via API do ChEMBL, limpeza, curadoria (tratamento de duplicatas e padronização de unidades) e cálculo de descritores moleculares via RDKit e PaDEL-Descriptor. Para a modelagem, o pacote utiliza algoritmos de mechine learning com otimização de hiperparâmetros via Algoritmo Genético, divisão estrutural dos dados (scaffold split) e definição do Domínio de Aplicação via One-Class SVM. A aplicabilidade foi validada em um estudo de caso para predição de atividade antifúngica contra Candida albicans utilizando XGBoost, processando mais de 36.000 registros. Os resultados demonstraram robustez estatística e consistência na validação cruzada e em testes independentes, confirmando que o chembl_miner facilita o acesso à metodologia MLQSAR, promove a reprodutibilidade científica e acelera a transformação de dados brutos em conhecimento químicopt_BR
dc.description.abstractAbstract: Drug discovery is a costly endeavor wherein Machine Learning-based Quantitative Structure-Activity Relationship (ML-QSAR) modeling has become a strategic tool for leveraging massive bioactivity datasets from repositories like ChEMBL. However, the complexity associated with data preprocessing and algorithm implementation often hinders the autonomous application of these techniques by researchers. This work introduces chembl_miner, a Python package designed to automate and standardize the ML-QSAR workflow. The tool integrates data retrieval via the ChEMBL API, cleaning, curation (duplicate treatment and unit standardization), and molecular descriptor calculation using RDKit and PaDEL-Descriptor. For modeling, the package employs machine learning algorithms featuring hyperparameter optimization via Genetic Algorithm, scaffold splitting, and Applicability Domain definition using One-Class SVM. Its applicability was validated through a case study predicting antifungal activity against Candida albicans using XGBoost, processing over 36,000 records. Results showed statistical robustness and consistency in both cross-validation and independent testing, confirming that chembl_miner simplifies access to ML-QSAR methodology, promotes scientific reproducibility, and accelerates the transformation of raw data into actionable chemical knowledgept_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectPython (Linguagem de programação de computador)pt_BR
dc.subjectRecuperação de dados (Computação)pt_BR
dc.subjectIndústria farmacêutica - Inovações tecnológicaspt_BR
dc.titlechembl_miner : um pacote Python para automação de ML-QSAR com dados do ChEMBLpt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples