Memorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentos

Leite, Vinicius Juan Borges

dc.contributor.advisor	Montaño, Razer Anthom Nizer Rojas, 1975-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Curso de Especialização em Inteligência Artificial Aplicada	pt_BR
dc.creator	Leite, Vinicius Juan Borges	pt_BR
dc.date.accessioned	2025-12-29T13:22:24Z
dc.date.available	2025-12-29T13:22:24Z
dc.date.issued	2025	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/99877
dc.description	Orientador: Prof. Dr. Razer Anthom Nizer Rojas Montaño	pt_BR
dc.description	Memorial de Projetos (especialização) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Curso de Especialização em Inteligência Artificial Aplicada	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: Este trabalho examina a trajetória dos modelos de linguagem baseados em Transformers, abordando fundamentos teóricos, eficiência computacional e escalonamento. A arquitetura de atenção reconfigurou a modelagem sequencial ao dissociar alinhamento e representação, viabilizando processamento paralelo em larga escala. O pré-treinamento bidirecional expandiu significativamente a compreensão contextual dos modelos. O escalonamento coordenado de parâmetros, dados e capacidade computacional consolidou o aprendizado em poucos exemplos e propiciou efeitos emergentes. Arquiteturas recentes reforçaram essa dinâmica mediante engenharia distribuída e curadoria sistemática de dados. Para processar documentos extensos, abordagens de atenção esparsa e técnicas de otimização atenuam custos computacionais quadráticos. Analisam-se compromissos entre comprimento de contexto, eficiência amostral e robustez, além de desafios em avaliação e generalização. Propõe-se maior transparência nos processos de pré-treinamento, desenvolvimento de métricas orientadas a tarefas específicas e integração com sistemas de recuperação de informação. Prioriza-se, ainda, eficiência energética e mecanismos explícitos de controle, objetivando modelos mais úteis, auditáveis, socialmente responsáveis e seguros	pt_BR
dc.description.abstract	Abstract: This study examines the trajectory of Transformer-based language models, addressing theoretical foundations, computational efficiency, and scaling dynamics. The attention architecture reconfigured sequential modeling by decoupling alignment and representation, enabling large-scale parallel processing. Bidirectional pre-training significantly expanded contextual understanding in these models. Coordinated scaling of parameters, data, and computational capacity consolidated few-shot learning capabilities and facilitated emergent effects. Recent architectures have reinforced this dynamic through distributed engineering and systematic data curation. To process extensive documents, sparse attention approaches and optimization techniques mitigate quadratic computational costs. Trade-offs between context length, sample efficiency, and robustness are analyzed, alongside challenges in evaluation and generalization. The work proposes greater transparency in pre-training processes, development of task-oriented metrics, and integration with information retrieval systems. Priority is given to energy efficiency and explicit control mechanisms, aiming for models that are more useful, auditable, socially responsible, and safe. These considerations address both technical advancement and broader implications for responsible AI deployment in diverse applications	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Linguagem de programação (Computadores)	pt_BR
dc.subject	Eficiência	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.title	Memorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentos	pt_BR
dc.type	TCC Especialização Digital	pt_BR

Arquivos deste item

Nome:: R - E - VINICIUS JUAN BORGES ...
Tamanho:: 6.659Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Inteligência Artificial Aplicada [118]

Mostrar registro simples