Mostrar registro simples

dc.contributor.advisorBonat, Wagner Hugo, 1985-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Datapt_BR
dc.creatorOrtiz, Henrique Pereira Tesserpt_BR
dc.date.accessioned2025-10-21T19:00:42Z
dc.date.available2025-10-21T19:00:42Z
dc.date.issued2025pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/98928
dc.descriptionOrientador: Prof. Wagner Hugo Bonatpt_BR
dc.descriptionArtigo apresentado como Trabalho de Conclusão de Cursopt_BR
dc.descriptionArtigo (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Datapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: A complexidade e a extensão das bulas de medicamentos representam uma barreira significativa para a acessibilidade da informação farmacêutica. Para mitigar este problema, este trabalho apresenta o desenvolvimento de um sistema de Retrieval-augmented Generation (RAG) capaz de responder a consultas em linguagem natural. O sistema opera sobre um corpus de 8.479 bulas de medicamentos coletadas da ANVISA, que são processadas e armazenadas em um banco de dados vetorial. A arquitetura RAG utiliza um Large Language Model (LLM) para sintetizar respostas a partir de trechos (chunks) relevantes recuperados de forma semântica. A avaliação da acurácia semântica foi conduzida contra um Golden Standard de 180 perguntas e respostas, e os resultados foram mensurados através da Similaridade de Cossenos. A performance geral do sistema revelou uma similaridade média de 0.63, confirmando sua capacidade de gerar respostas pertinentes. Contudo, a variação da similaridade entre diferentes categorias de perguntas sugere oportunidades de aprimoramento no componente de recuperação e na estratégia de chunking para garantir a consistência e a relevância das respostas, especialmente em tópicos de maior complexidadept_BR
dc.description.abstractAbstract: The complexity and length of drug package inserts pose a significant barrier to the accessibility of pharmaceutical information for the general public. To mitigate this issue, this work presents the development of a Retrieval-Augmented Generation (RAG) system capable of responding to natural language queries. The system operates on a corpus of 8,479 drug package inserts collected from ANVISA, which are processed and stored in a vector database. A Large Language Model (LLM) is utilized to synthesize responses by leveraging relevant text chunks retrieved semantically from this database. The system's semantic accuracy was evaluated against a Golden Standard of 180 questions and answers, with results measured using Cosine Similarity. The overall performance of the system revealed an average similarity of 0.63, confirming its ability to generate pertinent responses. However, the variation in similarity across different question categories suggests opportunities for improvement in the retrieval component and the chunking strategy to enhance the consistency and relevance of responses, particularly for more complex topicspt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectBulas de medicamentospt_BR
dc.subjectAcesso à informaçãopt_BR
dc.subjectInteligência artificialpt_BR
dc.titleMelhorando o acesso a informações farmacêuticas contextuaispt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples