Memorial de projetos : proposta de solução de retrieval augmented generation (RAG) para consulta de acervos jornalísticos digitais
Resumo
Resumo: Este memorial apresenta uma proposta de Retrieval-Augmented Generation (RAG) para otimizar a consulta a acervos jornalísticos digitais, enfrentando o desafio de filtrar conteúdo preciso e contextualmente relevante em grandes volumes de texto. O trabalho detalha o desenvolvimento de um protótipo funcional, construído com tecnologias de código aberto em etapas que incluem raspagem de dados, limpeza, vetorização semântica e geração de respostas com um Grande Modelo de Linguagem (LLM) local. O resultado é uma arquitetura acessível e replicável que aprimora a apuração jornalística. A discussão final aborda as limitações do modelo, especialmente em escalabilidade e na fidelidade do raciocínio causal, um requisito essencial para a integridade da informação no jornalismo Abstract: This abstract presents a proposal for Retrieval-Augmented Generation (RAG) to optimize querying in digital journalistic archives, addressing the challenge of filtering precise and contextually relevant content from large volumes of text. The work details the development of a functional prototype, built with open-source technologies in stages that include data scraping, cleaning, semantic vectorization, and response generation with a local Large Language Model (LLM). The result is an accessible and replicable architecture that enhances journalistic investigation. The final discussion addresses the model's limitations, especially in scalability and the fidelity of causal reasoning, an essential requirement for the integrity of information in journalism