Machine Learning para identificação de NFS-e
Abstract
Resumo: A digitalização de dados contidos em Documentos Auxiliares da Nota Fiscal de Serviços Eletrônica (DANFSE) é uma tarefa comum em empresas do Brasil. Com frequência, este trabalho é realizado de forma manual. Nesse sentido, a automação de trabalhos repetitivos é uma das principais áreas de aplicação da inteligência artificial e a digitação de documentos para alimentar sistemas corporativos é um processo que pode ser substituído. Esse processo de automação pode ser otimizado se a primeira etapa for uma filtragem do tipo de documento. Nesse contexto, o presente trabalho visa apresentar uma metodologia para a primeira etapa do processo de digitalização de DANFSEs, a filtragem dos documentos. O sistema proposto filtra documentos em duas classes: ‘DANFSE’ e ‘outros documentos’. Para simplificação do treinamento do modelo, os documentos que compuseram a base de testes foram divididos em dois grupos. O primeiro conjunto foi composto de 500 exemplares de notas fiscais de serviço, enquanto o segundo apresentou 400 documentos de diferentes tipos selecionados aleatoriamente. Para a criação do modelo foi utilizado redes convolucionais. Após os treinamentos com diversas configurações de redes, o melhor resultado obtido apresentou acurácia de 96,93% de detecção de notas fiscais. Arquivos que continham tabelas, como por exemplo boletos, foram classificados erroneamente em 1,6% da amostra de validação. E, por fim, sete arquivos de notas fiscais que não faziam parte da base de treinamento, foram identificadas com sucesso.