Estudo de caso : avaliação de modelos de identificação e contagem de pessoas por frame em amostras de vídeos
Resumo
Resumo: Este relatório apresenta uma possível solução para a identificação de colaboradores (humanos) em uma linha de produção de uma fábrica do segmento de Cuidado e Beleza. Através da correta identificação dos funcionários e suas respectivas posições geográficas em uma indústria, é possível trabalhar tanto em projetos de otimização de mão de obra quanto de segurança. O relatório analisou 4 modelos de detecção de pessoas- Haar Cascade, HOG, YOLO v8 e CSRnet- aplicados em uma amostra de 5 vídeos com o intuito de contar a quantidade de pessoas por frame. Com o objetivo de analisar o caráter generalista dos modelos, foram consideradas as mesmas operações de pré processamento para as famílias dos modelos, mudando apenas o valor dos parâmetros utilizados em cada cenário. Considerando os 60 cenários de resultados, o algoritmo com melhor trade-off entre assertividade na contagem de pessoas e performance de execução é o YOLO modelo_tuned, sendo capaz de obter a melhor qualidade na contagem de pessoas por frame de vídeo de todos os modelos- através das métricas de MAE, MSE e RMSE- ao passo que manteve um tempo de processamento médio razoável Abstract: This report presents a feasible solution for identifying workers (humans) on a production line in a factory within the Care and Beauty segment. Through the correct identification of employees and their respective geographic positions within an industry, it is possible to work on both labor optimization and safety projects. The report analyzed four people detection models —Haar Cascade, HOG, YOLO v8, and CSRnet — applied to a sample of five videos with the purpose of counting the number of people per frame. To guarantee the generalist nature of the models, the same preprocessing operations were applied across the model families, changing only the parameter values used in each scenario. Considering the 60 result scenarios, the algorithm with the best trade-off between accuracy in people counting and execution performance is the YOLO tuned model, which achieved the highest quality in counting people per video frame among all models — based on the MAE, MSE, and RMSE metrics — while maintaining a reasonable average processing time