Mostrar registro simples

dc.contributor.advisorMontaño, Razer Anthom Nizer Rojas, 1975-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Curso de Especialização em Inteligência Artificial Aplicadapt_BR
dc.creatorLeite, Vinicius Juan Borgespt_BR
dc.date.accessioned2025-12-29T13:22:24Z
dc.date.available2025-12-29T13:22:24Z
dc.date.issued2025pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/99877
dc.descriptionOrientador: Prof. Dr. Razer Anthom Nizer Rojas Montañopt_BR
dc.descriptionMemorial de Projetos (especialização) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Curso de Especialização em Inteligência Artificial Aplicadapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: Este trabalho examina a trajetória dos modelos de linguagem baseados em Transformers, abordando fundamentos teóricos, eficiência computacional e escalonamento. A arquitetura de atenção reconfigurou a modelagem sequencial ao dissociar alinhamento e representação, viabilizando processamento paralelo em larga escala. O pré-treinamento bidirecional expandiu significativamente a compreensão contextual dos modelos. O escalonamento coordenado de parâmetros, dados e capacidade computacional consolidou o aprendizado em poucos exemplos e propiciou efeitos emergentes. Arquiteturas recentes reforçaram essa dinâmica mediante engenharia distribuída e curadoria sistemática de dados. Para processar documentos extensos, abordagens de atenção esparsa e técnicas de otimização atenuam custos computacionais quadráticos. Analisam-se compromissos entre comprimento de contexto, eficiência amostral e robustez, além de desafios em avaliação e generalização. Propõe-se maior transparência nos processos de pré-treinamento, desenvolvimento de métricas orientadas a tarefas específicas e integração com sistemas de recuperação de informação. Prioriza-se, ainda, eficiência energética e mecanismos explícitos de controle, objetivando modelos mais úteis, auditáveis, socialmente responsáveis e segurospt_BR
dc.description.abstractAbstract: This study examines the trajectory of Transformer-based language models, addressing theoretical foundations, computational efficiency, and scaling dynamics. The attention architecture reconfigured sequential modeling by decoupling alignment and representation, enabling large-scale parallel processing. Bidirectional pre-training significantly expanded contextual understanding in these models. Coordinated scaling of parameters, data, and computational capacity consolidated few-shot learning capabilities and facilitated emergent effects. Recent architectures have reinforced this dynamic through distributed engineering and systematic data curation. To process extensive documents, sparse attention approaches and optimization techniques mitigate quadratic computational costs. Trade-offs between context length, sample efficiency, and robustness are analyzed, alongside challenges in evaluation and generalization. The work proposes greater transparency in pre-training processes, development of task-oriented metrics, and integration with information retrieval systems. Priority is given to energy efficiency and explicit control mechanisms, aiming for models that are more useful, auditable, socially responsible, and safe. These considerations address both technical advancement and broader implications for responsible AI deployment in diverse applicationspt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectLinguagem de programação (Computadores)pt_BR
dc.subjectEficiênciapt_BR
dc.subjectInteligência artificialpt_BR
dc.titleMemorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentospt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples