Memorial de projetos : seleção de métricas de avaliação em aprendizado de máquina
Resumo
Resumo: Este parecer técnico analisa a seleção de métricas de avaliação em aprendizado de máquina como fator crítico para o sucesso de modelos preditivos, demonstrando através de experimentos práticos como a escolha inadequada de métricas pode comprometer a eficácia das soluções desenvolvidas. O estudo examina casos empíricos incluindo classificação de diabetes, onde métricas tradicionais como acurácia mascaravam disparidades importantes entre sensibilidade e especificidade; predição de preços de carros brasileiros, evidenciando como diferentes métricas de regressão capturam aspectos distintos do erro; e classificação de veículos com classes desbalanceadas, revelando o paradoxo da alta acurácia em conjunto de dados com distribuições desiguais. A análise propõe diretrizes práticas para seleção de métricas, enfatizando a necessidade de abordagem multimétrica, consideração do contexto específico do problema, tratamento adequado de desequilíbrio de classes e validação estatística robusta. O trabalho destaca que em domínios críticos como medicina e finanças, onde decisões baseadas em modelos têm impactos significativos, a interpretação correta de métricas torna-se fundamental para garantir que os modelos desenvolvidos efetivamente resolvam os problemas propostos. Além disso, o documento apresenta os resultados dos trabalhos desenvolvidos ao longo das quinze disciplinas do curso de Especialização em Inteligência Artificial Aplicada da UFPR, demonstrando a aplicação prática de conceitos desde fundamentos de IA até implementações avançadas em deep learning, visão computacional e processamento de linguagem natural Abstract: This technical report analyzes the selection of evaluation metrics in machine learning as a critical factor for the success of predictive models, demonstrating through practical experiments how inadequate metric selection can compromise the effectiveness of developed solutions. The study examines empirical cases including diabetes classification, where traditional metrics such as accuracy masked important disparities between sensitivity and specificity; Brazilian car price prediction, showing how different regression metrics capture distinct aspects of error; and vehicle classification with imbalanced classes, revealing the paradox of high accuracy in datasets with unequal distributions. The analysis proposes practical guidelines for metric selection, emphasizing the need for a multi-metric approach, consideration of specific problem context, adequate treatment of class imbalance, and robust statistical validation. The work highlights that in critical domains such as medicine and finance, where model-based decisions have significant impacts, correct interpretation of metrics becomes fundamental to ensure that developed models effectively solve proposed problems. Additionally, the document presents the results of projects developed throughout the fifteen courses of the Applied Artificial Intelligence Specialization program at UFPR, demonstrating practical application of concepts from AI fundamentals to advanced implementations in deep learning, computer vision, and natural language processing