Identificacão de modelos de arquivos PDF através de texto e metadados
View/ Open
Date
2021Author
Hasse, Mozart
Metadata
Show full item recordSubject
Inteligência artificialAlgorítmos de computador
Software - Desenvolvimento
xmlui.dri2xhtml.METS-1.0.item-type
Monografia Especialização DigitalAbstract
Resumo: O grande volume de documentos PDF gerados por aplicações comerciais exige o uso de algoritmos de classificação eficientes para organizar estes arquivos de maneira automática. Este trabalho apresenta uma solução para o caso específico em que seja necessário diferenciar modelos de documentos sujeitos a alterações constantes na organização dos dados a fim de viabilizar um tratamento posterior bastante específico para cada classe. O algoritmo escolhido é o KNN com similaridade de documentos usando o texto junto com os metadados e medida via shingling. Algumas opções de algoritmos são analisadas e comparadas com a implementação proposta. Os resultados são comparados numa base de referência e então conclui-se que a abordagem escolhida atende aos requisitos propostos e é satisfatória para esta aplicação.