• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Docaug : new augmentation models for document recognition

    Thumbnail
    Visualizar/Abrir
    R - D - LUCAS MATHEUS LEITE WOJCIK.pdf (1.743Mb)
    Data
    2025
    Autor
    Wojcik, Lucas
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A literatura recente em Reconhecimento de Documentos tem visto muitos avanços. Desde a incorporação do modelo BERT ao domínio de documentos, técnicas baseadas em Transformers têm dominado o estado da arte, e assim como acontece no campo de NLP, este estado da arte geralmente é superado através de modelagem de atenção ou ajustes no pré-treino. No entanto, qualidade de dados tem sido um tópico cada vez mais pungente em vários campos de deep learning, mas o escopo de documentos ainda não tem visto muitos avanços nesta discussão. Além disso, existem vários domínios no campo de Reconhecimento de Documentos cujos documentos apresentam tarefas few-shot onde anotações de qualidade são escassas. Com o objetivo de avançar a pesquisa em documentos neste tópico, apresentamos duas técnicas de aumento de dados que focam em maximizar o conhecimento contido nas instâncias de documentos conhecidas, utilizando técnicas sem imagem. Prosseguimos na linha de utilizar algumas técnicas do campo de NLP com um modelo baseado em LLMs para reescrita de textos, uma técnica de aumento de dados que foi primeiro apresentada em alguns cenários de NLP. Além disso, criamos um algoritmo para extrair templates de documentos de acordo com uma estrutura de grafos gerada pelas respectivas entidades (nós). Estes templates possuem a informação de layout de cada documento embutida, e podem ser usados para aumentação de dados numa estratégia simples de preencher o formulário com algum método de geração de texto. Cada uma de nossas técnicas de aumentação são testadas através de um dataset público da literatura, e realizamos a etapa de fine-tuning em um modelo pré-treinado para veriocar se nossas aumentações auxiliam na melhora da performance. Nossos resultados mostram que estas técnicas conseguem melhorar as métricas de qualidade consistentemente, para ambas as técnicas e em todos os cenários de teste, reduzindo a taxa de erro em cerca de dez por cento para o FUNSD e em até cinquenta para o EPHOIE
     
    Abstract: The most recent literature in Document Recognition has seen many advances. Ever since the adaptation of BERT, Transformer-based approaches have been dominating and, in line with other NLP improvements, the state of the art is usually broken through attention modeling or pre-training adjustments. However, data quality has been an increasingly relevant topic in various deep learning oelds, but the document scope has not seen many advancements in this discussion yet. Furthermore, many areas of Document Recognition involve important few-shot tasks where annotated documents are scarce. To further the document research on this topic, we present two new data augmentation techniques that focus on maximizing the knowledge from the known document instances, using imageless techniques. We continue on the line of employing some techniques from the NLP oeld with an LLM-based approach for text rewriting, a data augmentation approach pioneered in some NLP scenarios. Furthermore, we also create an algorithm to extract templates from documents based on a graph structure generated by the respective entities (nodes). These templates encode the layout information from each document and can be used for data augmentation by olling the template out with a generator’s text. Each of our approaches is validated in a different public dataset taken from the literature, and we one-tune a pre-trained model to evaluate whether our augmentations help boost its performance. We ond out that these techniques consistently improve the quality measure, for both techniques and in all testing scenarios, reducing the error rate in around ten percent for FUNSD and up to ofty for EPHOIE
     
    URI
    https://hdl.handle.net/1884/96033
    Collections
    • Dissertações [255]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV