Memorial de projetos : estudo sobre métricas de avaliação em modelos de inteligência artificial generativa

Simon Júnior, Hideraldo Luís

Visualizar/Abrir

R - E - HIDERALDO LUIS SIMON JUNIOR.pdf (78.72Mb)

Data

2025

Autor

Simon Júnior, Hideraldo Luís

Metadata

Mostrar registro completo

Resumo

Resumo: Este parecer técnico explora as métricas de avaliação de modelos de inteligência artificial generativa. Desde o lançamento do ChatGPT presenciou-se um ritmo de adoção de tecnologia jamais visto. De um dia para o outro, usuários do mundo todo, tiveram acesso a uma ferramenta de grande potencial de geração de conteúdo em poucos comandos. Com tamanho poder e tamanha adoção na rotina das pessoas, é necessário que esses modelos sejam minuciosamente validados para que suas respostas sejam adequadas. Sendo imprescindível avaliações não somente de qualidade como, também, de confiabilidade dos textos, imagens ou códigos gerados. O estudo apresenta as principais métricas (comparação lexical, qualidade semântica e segurança e ética), bem como alguns algoritmos e validadores, além de exemplos de uso. Também pontuando os riscos críticos referentes a não adoção das métricas citadas. Por fim, o documento apresenta os resultados dos trabalhos desenvolvidos ao longo das disciplinas, demonstrando como cada aprendizado foi incorporado na elaboração deste parecer técnico

Abstract: This technical report explores the evaluation metrics for generative artificial intelligence models. Since the launch of ChatGPT, we’ve witnessed an unprecedented rate of technology adoption. Overnight, users all over the world gained access to a powerful tool capable of generating content with just a few prompts. With such power and widespread adoption in people’s daily lives, it is necessary that these models be thoroughly validated to ensure their responses are appropriate. It is therefore essential to conduct assessments not only of quality but also of the reliability of the generated texts, images, or code. The study presents the main metrics (lexical comparison, semantic quality, and safety and ethics), along with some algorithms and validators, as well as use cases. It also highlights the critical risks associated with the non-adoption of these metrics. Finally, the document presents the results of the work developed throughout the coursework, demonstrating how each learning outcome was incorporated into the preparation of this technical report

URI

https://hdl.handle.net/1884/99263

Collections

Inteligência Artificial Aplicada [86]