Memorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentos

Leite, Vinicius Juan Borges

Visualizar/Abrir

R - E - VINICIUS JUAN BORGES LEITE.pdf (6.659Mb)

Data

2025

Autor

Leite, Vinicius Juan Borges

Metadata

Mostrar registro completo

Resumo

Resumo: Este trabalho examina a trajetória dos modelos de linguagem baseados em Transformers, abordando fundamentos teóricos, eficiência computacional e escalonamento. A arquitetura de atenção reconfigurou a modelagem sequencial ao dissociar alinhamento e representação, viabilizando processamento paralelo em larga escala. O pré-treinamento bidirecional expandiu significativamente a compreensão contextual dos modelos. O escalonamento coordenado de parâmetros, dados e capacidade computacional consolidou o aprendizado em poucos exemplos e propiciou efeitos emergentes. Arquiteturas recentes reforçaram essa dinâmica mediante engenharia distribuída e curadoria sistemática de dados. Para processar documentos extensos, abordagens de atenção esparsa e técnicas de otimização atenuam custos computacionais quadráticos. Analisam-se compromissos entre comprimento de contexto, eficiência amostral e robustez, além de desafios em avaliação e generalização. Propõe-se maior transparência nos processos de pré-treinamento, desenvolvimento de métricas orientadas a tarefas específicas e integração com sistemas de recuperação de informação. Prioriza-se, ainda, eficiência energética e mecanismos explícitos de controle, objetivando modelos mais úteis, auditáveis, socialmente responsáveis e seguros

Abstract: This study examines the trajectory of Transformer-based language models, addressing theoretical foundations, computational efficiency, and scaling dynamics. The attention architecture reconfigured sequential modeling by decoupling alignment and representation, enabling large-scale parallel processing. Bidirectional pre-training significantly expanded contextual understanding in these models. Coordinated scaling of parameters, data, and computational capacity consolidated few-shot learning capabilities and facilitated emergent effects. Recent architectures have reinforced this dynamic through distributed engineering and systematic data curation. To process extensive documents, sparse attention approaches and optimization techniques mitigate quadratic computational costs. Trade-offs between context length, sample efficiency, and robustness are analyzed, alongside challenges in evaluation and generalization. The work proposes greater transparency in pre-training processes, development of task-oriented metrics, and integration with information retrieval systems. Priority is given to energy efficiency and explicit control mechanisms, aiming for models that are more useful, auditable, socially responsible, and safe. These considerations address both technical advancement and broader implications for responsible AI deployment in diverse applications

URI

https://hdl.handle.net/1884/99877

Collections

Inteligência Artificial Aplicada [118]