Room type classification : an application of image classification using Convolutional Neural Networks (CNNs) on indoor house photos
Resumo
Resumo: As redes neurais convolucionais (RNCs) têm demonstrado nos últimos anos um desempenho excepcional em diversas tarefas na área de visão computacional, como detecção de objetos e classificação de imagens. O sucesso das RNCs é atribuído à sua capacidade de extrair características e aprender ricas representações intermediárias de imagens. No entanto, treinar RNCs requer uma grande quantidade de imagens rotuladas para estimar milhões de parâmetros. Este trabalho tem como objetivo comparar dois modelos de RNCs (ResNet50 e VGG16) e dois classificadores (k-nearest neighbors e random forest), usando um conjunto de dados de imagens internas de ambientes para testá-los. Os resultados obtidos demonstram que a combinação de modelos e classificadores gerou resultados significativamente diferentes, com melhores métricas de desempenho encontradas com o modelo ResNet50 e classificação na camada densa. Finalmente, uma rede neural pré-treinada (ImageNet) é ajustada usando dados aumentados na tarefa de classificação do tipo de cômodo. A combinação de técnicas de aprendizado por transferência e aumento de dados contribuiu para melhorar as métricas de desempenho escolhidas. Este artigo também sugere possíveis contribuições para trabalhos futuros. Abstract: Convolutional neural networks (CNNs) have shown over the last years outstanding performance in various computer vision tasks, such as object detection and image classification. The success of CNNs is attributed to their ability to extract characteristics and learn rich mid-level image representations. However, training CNNs requires a large number of annotated image samples to estimate millions of parameters. This paper aims to compare two CNNs models for feature extraction (ResNet50 and VGG16) and two classifiers (k-nearest neighbors and random forest), using an indoor house image dataset to test them. The results demonstrate that the combination of models and classifiers provided significantly different results, with higher performance metrics found with the ResNet50 model and classification on its fully connected layer. Finally, a pre-trained CNN model (ImageNet) is finetuned using augmented data for the room-type classification task. The combination of transfer learning and data augmentation techniques contributed to increasing performance metrics. This paper also suggests possible contributions for future works.
Collections
- Data Science & Big Data [107]