Melhorando o acesso a informações farmacêuticas contextuais

Ortiz, Henrique Pereira Tesser

Visualizar/Abrir

R - E - HENRIQUE PEREIRA TESSER ORTIZ.pdf (431.1Kb)

Data

2025

Autor

Ortiz, Henrique Pereira Tesser

Metadata

Mostrar registro completo

Resumo

Resumo: A complexidade e a extensão das bulas de medicamentos representam uma barreira significativa para a acessibilidade da informação farmacêutica. Para mitigar este problema, este trabalho apresenta o desenvolvimento de um sistema de Retrieval-augmented Generation (RAG) capaz de responder a consultas em linguagem natural. O sistema opera sobre um corpus de 8.479 bulas de medicamentos coletadas da ANVISA, que são processadas e armazenadas em um banco de dados vetorial. A arquitetura RAG utiliza um Large Language Model (LLM) para sintetizar respostas a partir de trechos (chunks) relevantes recuperados de forma semântica. A avaliação da acurácia semântica foi conduzida contra um Golden Standard de 180 perguntas e respostas, e os resultados foram mensurados através da Similaridade de Cossenos. A performance geral do sistema revelou uma similaridade média de 0.63, confirmando sua capacidade de gerar respostas pertinentes. Contudo, a variação da similaridade entre diferentes categorias de perguntas sugere oportunidades de aprimoramento no componente de recuperação e na estratégia de chunking para garantir a consistência e a relevância das respostas, especialmente em tópicos de maior complexidade

Abstract: The complexity and length of drug package inserts pose a significant barrier to the accessibility of pharmaceutical information for the general public. To mitigate this issue, this work presents the development of a Retrieval-Augmented Generation (RAG) system capable of responding to natural language queries. The system operates on a corpus of 8,479 drug package inserts collected from ANVISA, which are processed and stored in a vector database. A Large Language Model (LLM) is utilized to synthesize responses by leveraging relevant text chunks retrieved semantically from this database. The system's semantic accuracy was evaluated against a Golden Standard of 180 questions and answers, with results measured using Cosine Similarity. The overall performance of the system revealed an average similarity of 0.63, confirming its ability to generate pertinent responses. However, the variation in similarity across different question categories suggests opportunities for improvement in the retrieval component and the chunking strategy to enhance the consistency and relevance of responses, particularly for more complex topics

URI

https://hdl.handle.net/1884/98928

Collections

Data Science & Big Data [191]