Docaug : new augmentation models for document recognition

Wojcik, Lucas

Visualizar/Abrir

R - D - LUCAS MATHEUS LEITE WOJCIK.pdf (1.743Mb)

Data

2025

Autor

Wojcik, Lucas

Metadata

Mostrar registro completo

Resumo

Resumo: A literatura recente em Reconhecimento de Documentos tem visto muitos avanços. Desde a incorporação do modelo BERT ao domínio de documentos, técnicas baseadas em Transformers têm dominado o estado da arte, e assim como acontece no campo de NLP, este estado da arte geralmente é superado através de modelagem de atenção ou ajustes no pré-treino. No entanto, qualidade de dados tem sido um tópico cada vez mais pungente em vários campos de deep learning, mas o escopo de documentos ainda não tem visto muitos avanços nesta discussão. Além disso, existem vários domínios no campo de Reconhecimento de Documentos cujos documentos apresentam tarefas few-shot onde anotações de qualidade são escassas. Com o objetivo de avançar a pesquisa em documentos neste tópico, apresentamos duas técnicas de aumento de dados que focam em maximizar o conhecimento contido nas instâncias de documentos conhecidas, utilizando técnicas sem imagem. Prosseguimos na linha de utilizar algumas técnicas do campo de NLP com um modelo baseado em LLMs para reescrita de textos, uma técnica de aumento de dados que foi primeiro apresentada em alguns cenários de NLP. Além disso, criamos um algoritmo para extrair templates de documentos de acordo com uma estrutura de grafos gerada pelas respectivas entidades (nós). Estes templates possuem a informação de layout de cada documento embutida, e podem ser usados para aumentação de dados numa estratégia simples de preencher o formulário com algum método de geração de texto. Cada uma de nossas técnicas de aumentação são testadas através de um dataset público da literatura, e realizamos a etapa de fine-tuning em um modelo pré-treinado para veriocar se nossas aumentações auxiliam na melhora da performance. Nossos resultados mostram que estas técnicas conseguem melhorar as métricas de qualidade consistentemente, para ambas as técnicas e em todos os cenários de teste, reduzindo a taxa de erro em cerca de dez por cento para o FUNSD e em até cinquenta para o EPHOIE

Abstract: The most recent literature in Document Recognition has seen many advances. Ever since the adaptation of BERT, Transformer-based approaches have been dominating and, in line with other NLP improvements, the state of the art is usually broken through attention modeling or pre-training adjustments. However, data quality has been an increasingly relevant topic in various deep learning oelds, but the document scope has not seen many advancements in this discussion yet. Furthermore, many areas of Document Recognition involve important few-shot tasks where annotated documents are scarce. To further the document research on this topic, we present two new data augmentation techniques that focus on maximizing the knowledge from the known document instances, using imageless techniques. We continue on the line of employing some techniques from the NLP oeld with an LLM-based approach for text rewriting, a data augmentation approach pioneered in some NLP scenarios. Furthermore, we also create an algorithm to extract templates from documents based on a graph structure generated by the respective entities (nodes). These templates encode the layout information from each document and can be used for data augmentation by olling the template out with a generator’s text. Each of our approaches is validated in a different public dataset taken from the literature, and we one-tune a pre-trained model to evaluate whether our augmentations help boost its performance. We ond out that these techniques consistently improve the quality measure, for both techniques and in all testing scenarios, reducing the error rate in around ten percent for FUNSD and up to ofty for EPHOIE

URI

https://hdl.handle.net/1884/96033

Collections

Dissertações [274]