Identificacão de modelos de arquivos PDF através de texto e metadados

Hasse, Mozart

Visualizar/Abrir

R - E - MOZART HASSE.pdf (2.496Mb)

Data

2021

Autor

Hasse, Mozart

Metadata

Mostrar registro completo

Resumo

Resumo: O grande volume de documentos PDF gerados por aplicações comerciais exige o uso de algoritmos de classificação eficientes para organizar estes arquivos de maneira automática. Este trabalho apresenta uma solução para o caso específico em que seja necessário diferenciar modelos de documentos sujeitos a alterações constantes na organização dos dados a fim de viabilizar um tratamento posterior bastante específico para cada classe. O algoritmo escolhido é o KNN com similaridade de documentos usando o texto junto com os metadados e medida via shingling. Algumas opções de algoritmos são analisadas e comparadas com a implementação proposta. Os resultados são comparados numa base de referência e então conclui-se que a abordagem escolhida atende aos requisitos propostos e é satisfatória para esta aplicação.

URI

https://hdl.handle.net/1884/76441

Collections

Inteligência Artificial Aplicada [131]