Multispectral remote sensing image registration through supervised learning with convolutional neural networks
Resumo
Resumo: O registro ou alinhamento de imagens é um requisito importante para muitas aplicações de processamento de imagens em medicina e campos de Sensoriamento Remoto (SR). Abordagens clássicas têm sido amplamente utilizados em SR, mas essas abordagens produzem resultados úteis principalmente para imagens monomodais e têm mostrado limitações quando aplicadas a imagens multimodais. Recentemente, técnicas de Deep Learning (DL) produziram resultados promissores na área médica mas muito menos esforço de pesquisa é encontrado aplicando-o ao campo de SR e, quando existem, as pesquisas tendem a ser aplicadas à imagens de satélite. Buscando tirar proveito das técnicas de Deep Learning (DL) utilizadas em outras áreas elaboramos a hipótese de que os 3 canais RGB mais as imagens multispectrais seriam suficientes para criar um dataset de treinamento formado por pares de imagens registradas e não registradas com desalinhamenntos conhecidos para aprender o Vetor de Deslocamento Denso (DDV) entre as imagens fixa e móvel. Para validar essa hipótese utilizamos uma arquitetura DL composta, no primeiro bloco, de uma Siamese Neural Network (SNN) para extrair características relevantes das duas imagens que serão registradas, seguida, no segundo bloco, de uma Encoder-Decoder network (U-Net) para aprender o DDV que alinha pares de imagens rótuladas. Nesta pesquisa, as imagens para treinamento vieram dos 3 canais de imagens RGB e de imagens multispectrais selecionadas de um dataset sintético desenhado especificamente para essa atividade baseada em 34.696 imagens capturadas, pelo autor, por sensores montados em VANT sem "gimble" no centro do estado do Paraná no Brasil na microregião de Cascavel, aproximadamente à 45 Km da cidade de Garaniaçu entre os municípios de Guaporé e Campina da Lagoa. Essa area é dominada por fazendas de criação de gado e agricultura. Nas imagens RGB, os três canais Vermelho da Imagem RGB (RGB-r), Verde da Imagem RGB (RGB-g) e Azul da Imagem RGB (RGB-b) são capturados ao mesmo tempo portanto as imagens já estão registradas ou alinhadas entre si mesmas. Aplicamos DL para registrar as imagens do nosso dataset e comparar os resultados com os obtidos em nossos experimentos preliminares baseados em área guiado por metrica de similaridade. Após treinar a SNN-Unet com 60 imagens a abordagem DL apresentou resultados 10 vezes melhores para mutual information (MU) na maioria dos casos, e resultados um pouco piores para Root Mean Square Error (RMSE) e Structural Similarity Index (SSIM), do que os obtidos nos experimentos preliminares baseados em área. A piora nos indices RMSE e SSIM pode ter sido causada pela distorção, correção e reconstrução das imagens no processamento por esta abordagem. Abstract: Image registration or alignment is an important requirement for many image processing applications in medicine and Remote Sensing (RS) fields. Classical approaches have been widely used in RS, but these approaches produce useful results mainly for single-modal images and have shown limitations when applied to multi-modal images. Recently, Deep Learning (DL) techniques have produced promising results in the medical field but much less research effort is found applying it to the field of RS and, when it exists, the research tends to be applied to satellite imagery. Seeking to take advantage of DL techniques used in other areas, we developed the hypothesis that the 3 RGB channels plus multi-spectral images would be sufficient to create a training Image Dataset formed by pairs of registered and unregistered images with known misalignment to learn the Dense Displacement Vector (DDV) between fixed and moving images. To validate this hypothesis, we use a DL architecture composed of two blocks, the first is a Siamese Neural Network (SNN) to extract relevant features from the two images that will be registered, followed by the second block that is an Encoder-Decoder network (U-Net) to learn the DDV that aligns pairs of labeled images. In this research, the images for training came from 3 channels of RGB images and multi-spectral images selected from a Image Dataset composed of 34,696 images captured, by the author, by sensors mounted on a VANT without a gimble in the center of the state of Paraná in Brazil in the Cascavel micro-region, approximately 45 km from the city of Garaniaçu between the municipalities of Guaporé and Campina da Lagoa. In RGB images, the three channels Red channel from RGB Image (RGB-r), Green channel from RGB Image (RGB-g) and Blue channel from RGB Image (RGB-b) are captured at the same time so the images are already registered or aligned between themselves. We apply DL to register images from our Image Dataset and compare the results with those obtained in our preliminary area-based experiments guided by similarity metrics. After training Siamese Neural Network (SNN) with 60 images, the DL approach showed 10 times better results for mutual information (MU) in most cases, and slightly worse results for Root Mean Square Error (RMSE) and Structural Similarity Index (SSIM), than those obtained by our area based preliminary experiments. The worsening of the RMSE e SSIM indices may have been caused by the distortion, correction, and reconstruction of the images processed by this approach.
Collections
- Dissertações [355]