Comparação de modelos de IA para classificação de alimentos
Resumo
Resumo: Este trabalho compara o desempenho de três modelos de inteligência artificial (ViT-Base, Swin-Base e SigLIP2-Base) na tarefa de classificação de alimentos, utilizando o conjunto de dados Food-101. Foram avaliadas a acurácia, o custo computacional (parâmetros, FLOPs e latência de inferência) e as diferenças arquiteturais, com foco nos mecanismos de atenção e no tipo de pré-treinamento. Os resultados mostraram que todos os modelos atingiram alta acurácia (acima de 89%), com o Swin-Base apresentando o melhor equilíbrio entre desempenho e eficiência. O SigLIP2-Base obteve a maior precisão Top-1 e F1-macro, enquanto o ViT-Base destacou-se no Top-5. A análise fornece subsídios para a escolha de modelos eficientes em aplicações de visão computacional para reconhecimento de alimentos Abstract: This study compares the performance of three artificial intelligence models (ViT-Base, Swin-Base, and SigLIP2-Base) for food classification using the Food-101 dataset. The evaluation considered accuracy, computational cost (parameters, FLOPs and inference latency), and architectural differences, focusing on attention mechanisms and pre-training strategies. Results showed that all models achieved high accuracy (above 89%), with Swin-Base providing the best balance between performance and efficiency. SigLIP2-Base achieved the highest Top-1 and macro F1 scores, while ViT-Base stood out in Top-5 accuracy. This analysis offers insights for selecting efficient models for food recognition tasks in computer vision
Collections
- Data Science & Big Data [191]