Improving data augmentation applied to the Covid-19 lung CTsegmentation with a novel technique based on visual salience
Resumo
Resumo: Devido à pandemia global de COVID-19, o diagnóstico assistido por computador de imagens médicas ganhou significativa atenção. Fornecer uma segmentação semântica robusta de tomografias computadorizadas (CT) é altamente desejável, pois permite um diagnóstico rápido e reduz a carga de tempo sobre os especialistas. Muitos estudos empregaram técnicas de aprendizado profundo e redes neurais profundas, alcançando resultados impressionantes na segmentação eficaz de tomografias de COVID-19. As redes neurais profundas são amplamente utilizadas em várias tarefas de segmentação devido à sua capacidade de generalizar e aprender a representação de diferentes classes de objetos dentro das imagens. No entanto, esses métodos requerem uma quantidade substancial de dados para o treinamento, e o problema de segmentação de tomografias de COVID-19 carece de dados disponíveis na literatura. Este estudo propõe uma nova técnica de aumento de dados baseada em características de saliência visual para enfrentar esse desafio e pode ser dividido em três fases. A primeira fase deste estudo envolveu uma avaliação extensiva de cento e vinte redes de segmentação, compostas por vinte codificadores combinados com seis decodificadores, em cinco conjuntos de dados. A principal conclusão dessa etapa destacou a necessidade crítica de técnicas eficazes de aumento de dados. Na segunda fase, foram avaliadas vinte técnicas de aumento de dados, cada uma testada com dez probabilidades de aplicação. As técnicas de aumento foram avaliadas de duas maneiras. Primeiro, foram aplicadas separadamente aos conjuntos de treinamento de cada conjunto de dados. Em seguida, os conjuntos de treinamento de todos os conjuntos de dados foram combinados em um conjunto unificado, com as técnicas de aumento aplicadas a esse conjunto unificado. Os resultados indicaram que as técnicas de aumento de dados tiveram melhor desempenho no conjunto unificado. Além disso, as técnicas de transformação espacial alcançaram melhores resultados no geral. No entanto, apesar das melhorias trazidas pelo aumento de dados, as técnicas genéricas não produziram consistentemente melhores resultados em todos os conjuntos de dados, destacando a necessidade de uma abordagem específica de aumento de dados para o problema. A terceira fase deste trabalho envolveu o desenvolvimento e a avaliação de uma nova técnica de aumento de dados. O fluxo de trabalho do aumento proposto utiliza um modelo GAN para gerar tomografias CT saudáveis de regiões pulmonares, combinando-as com lesões de COVID-19 já rotuladas para criar amostras adicionais de treinamento, aprimorando o processo de treinamento de segmentação. Esta fase avaliou duas versões do fluxo de trabalho proposto: uma sem o algoritmo de saliência, onde as lesões foram adicionadas aleatoriamente às tomografias saudáveis, e outra que utiliza a distância de saliência visual para adicionar as lesões. A técnica de aumento proposta com o uso de saliência visual alcançou os melhores resultados no conjunto de dados Ricord1a em comparação com as técnicas genéricas de aumento e a versão aleatória da proposta. Por fim, combinada com técnicas clássicas de aumento, a técnica proposta apresentou os melhores resultados em quatro conjuntos de dados Abstract: Due to the COVID-19 global pandemic, computer-assisted diagnosis of medical images has gained significant attention. Providing robust semantic segmentation of Computed Tomography (CT) scans is highly desirable because it allows rapid diagnosis and reduces the time burden on specialists. Many studies have employed deep learning techniques and deep neural networks and achieved impressive results in effectively segmenting COVID-19 CT scans. Deep neural networks are widely used in various segmentation tasks due to their generalization ability to learn the representation of different classes of objects within images. However, these methods require substantial data for training, with the COVID-19 CT problem needing more available data in the literature. This study proposes a novel data augmentation technique based on visual salience features to address this challenge and can be divided into three phases. The first phase of this study involved an extensive evaluation of one hundred and twenty segmentation networks, comprising twenty encoders combined with six decoders across five datasets. The main conclusion from this step highlighted the critical need for effective data augmentation techniques. Twenty data augmentation techniques were evaluated in the second phase, each tested with ten application probabilities. The augmentation techniques were evaluated in two ways. First, they were applied separately to the training sets of each dataset. Second, the training sets of all datasets were combined into a unified training set, with the augmentation techniques applied to this unified set. The results indicated that augmentation techniques performed better on the unified training set. Additionally, spatial transform techniques achieved higher results overall. However, despite the improvements brought by data augmentation, generic techniques did not consistently yield better results across all datasets, underscoring the need for a problem-specific data augmentation approach. The third phase of this work involved developing and evaluating a novel data augmentation technique. The proposed augmentation workflow utilizes a Generative Adversarial Network (GAN) model to generate healthy CT scans of lung regions, combining them with existing labeled COVID-19 lesions to create additional training samples, enhancing the segmentation training process. This phase evaluated two versions of the proposed workflow: one without the saliency algorithm, where lesions were randomly added to the healthy CT scans, and one that uses visual salience distance to add lesions. The proposed augmentation technique with the visual salience achieved the highest results on the Ricord1a dataset compared to generic augmentation techniques and the random version of the proposed augmentation. Finally, combined with classic augmentation techniques, the proposed augmentation yielded the best results in four datasets
Collections
- Teses [134]