Análise preditiva em testes de estabilidade dentro do desenvolvimento de produtos no setor de cosméticos
Resumo
Resumo : A realização de teste de estabilidade é uma etapa essencial no desenvolvimento e comercialização de produtos. É responsabilidade da empresa a seguridade do teste e cabe a Anvisa a fiscalização. Cada componente, variáveis extrínsecas ou intrínsecas podem afetar a estabilidade de um produto. Os testes seguem um protocolo e recomendações conforme o Guia de Estabilidade de Produtos Cosméticos - Anvisa [1] e devem seguir determinadas condições de armazenamento, parâmetros de avaliação e periodicidade. O objetivo deste trabalho é encontrar uma metodologia de aprendizado de máquina que possibilite predizer com um bom nível de acurácia se o estudo sofrerá alteração ou não ao final da avaliação t90. O presente estudo teve início com a criação de um banco de dados relacional, agrupando dados de duas tabelas. Foram aplicados os modelos de Naive Bayes, Regressão logística com regularização(GLM) e Support vector machine. Como métrica de avaliação foi utilizada a matriz de confusão, acurácia e especificidade. Foram gerados 5 dataframes conforme a FAMILIA que
o estudo pertence e suas características. O modelo com melhor desempenho foi o GLM, utilizando kfold = 10 com uma acurácia média entre as FAMILIAS de 92%. Palavras-chave: ANVISA, CRISP-DM, classificação supervisionada,caret, GLM, Naive Bayes, SVM, matriz de
confusão, acurácia, especificidade, varImp, linguagem R. Abstract : Performing a stability testing has been an essential phase in the development and selling of products. The company is responsible for the suitability of test, and the inspection belongs to Anvisa (Brazilian Health Regulatory Agency) [1]. On each component, extrinsic and intrinsic variables may be affecting the stability of a product. Product testing follows the guidance of "Guia de Estabilidade de Produtos Cosméticos - Anvisa"and must follow recommendations for storage conditions, test parameters and its frequency. This final paper intends to find a machine learning methodology, which may help predicting with a good accuracy level whether the study suffers modification or not at the end of t90 estimation. This study has begun on a relational database with grouped data of two tables. Naive Bayes Classifiers, Logistic regression with regularization(GLM) and Support vector machine had been applied to. Confusion matrix, accuracy and specificity had been used as evaluation metrics. This had generated five data frames for the clusters and characteristics which the study belongs to. GLM has had the best performance with kfold = 10 and 92% of average accuracy among clusters. Keywords: ANVISA, CRISP-DM, supervised classification, caret, GLM, Naive Bayes, SVM, confusion matrix, accuracy, specificity, varImp, R Language.
Collections
- Data Science & Big Data [138]