Memorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentos
Resumo
Resumo: Este trabalho examina a trajetória dos modelos de linguagem baseados em Transformers, abordando fundamentos teóricos, eficiência computacional e escalonamento. A arquitetura de atenção reconfigurou a modelagem sequencial ao dissociar alinhamento e representação, viabilizando processamento paralelo em larga escala. O pré-treinamento bidirecional expandiu significativamente a compreensão contextual dos modelos. O escalonamento coordenado de parâmetros, dados e capacidade computacional consolidou o aprendizado em poucos exemplos e propiciou efeitos emergentes. Arquiteturas recentes reforçaram essa dinâmica mediante engenharia distribuída e curadoria sistemática de dados. Para processar documentos extensos, abordagens de atenção esparsa e técnicas de otimização atenuam custos computacionais quadráticos. Analisam-se compromissos entre comprimento de contexto, eficiência amostral e robustez, além de desafios em avaliação e generalização. Propõe-se maior transparência nos processos de pré-treinamento, desenvolvimento de métricas orientadas a tarefas específicas e integração com sistemas de recuperação de informação. Prioriza-se, ainda, eficiência energética e mecanismos explícitos de controle, objetivando modelos mais úteis, auditáveis, socialmente responsáveis e seguros Abstract: This study examines the trajectory of Transformer-based language models, addressing theoretical foundations, computational efficiency, and scaling dynamics. The attention architecture reconfigured sequential modeling by decoupling alignment and representation, enabling large-scale parallel processing. Bidirectional pre-training significantly expanded contextual understanding in these models. Coordinated scaling of parameters, data, and computational capacity consolidated few-shot learning capabilities and facilitated emergent effects. Recent architectures have reinforced this dynamic through distributed engineering and systematic data curation. To process extensive documents, sparse attention approaches and optimization techniques mitigate quadratic computational costs. Trade-offs between context length, sample efficiency, and robustness are analyzed, alongside challenges in evaluation and generalization. The work proposes greater transparency in pre-training processes, development of task-oriented metrics, and integration with information retrieval systems. Priority is given to energy efficiency and explicit control mechanisms, aiming for models that are more useful, auditable, socially responsible, and safe. These considerations address both technical advancement and broader implications for responsible AI deployment in diverse applications