Identificacão de modelos de arquivos PDF através de texto e metadados
Resumo
Resumo: O grande volume de documentos PDF gerados por aplicações comerciais exige o uso de algoritmos de classificação eficientes para organizar estes arquivos de maneira automática. Este trabalho apresenta uma solução para o caso específico em que seja necessário diferenciar modelos de documentos sujeitos a alterações constantes na organização dos dados a fim de viabilizar um tratamento posterior bastante específico para cada classe. O algoritmo escolhido é o KNN com similaridade de documentos usando o texto junto com os metadados e medida via shingling. Algumas opções de algoritmos são analisadas e comparadas com a implementação proposta. Os resultados são comparados numa base de referência e então conclui-se que a abordagem escolhida atende aos requisitos propostos e é satisfatória para esta aplicação.