• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Memorial de projetos : a evolução dos large language models - uma análise da arquitetura transformer e seus desdobramentos

    Thumbnail
    Visualizar/Abrir
    R - E - VINICIUS JUAN BORGES LEITE.pdf (6.659Mb)
    Data
    2025
    Autor
    Leite, Vinicius Juan Borges
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho examina a trajetória dos modelos de linguagem baseados em Transformers, abordando fundamentos teóricos, eficiência computacional e escalonamento. A arquitetura de atenção reconfigurou a modelagem sequencial ao dissociar alinhamento e representação, viabilizando processamento paralelo em larga escala. O pré-treinamento bidirecional expandiu significativamente a compreensão contextual dos modelos. O escalonamento coordenado de parâmetros, dados e capacidade computacional consolidou o aprendizado em poucos exemplos e propiciou efeitos emergentes. Arquiteturas recentes reforçaram essa dinâmica mediante engenharia distribuída e curadoria sistemática de dados. Para processar documentos extensos, abordagens de atenção esparsa e técnicas de otimização atenuam custos computacionais quadráticos. Analisam-se compromissos entre comprimento de contexto, eficiência amostral e robustez, além de desafios em avaliação e generalização. Propõe-se maior transparência nos processos de pré-treinamento, desenvolvimento de métricas orientadas a tarefas específicas e integração com sistemas de recuperação de informação. Prioriza-se, ainda, eficiência energética e mecanismos explícitos de controle, objetivando modelos mais úteis, auditáveis, socialmente responsáveis e seguros
     
    Abstract: This study examines the trajectory of Transformer-based language models, addressing theoretical foundations, computational efficiency, and scaling dynamics. The attention architecture reconfigured sequential modeling by decoupling alignment and representation, enabling large-scale parallel processing. Bidirectional pre-training significantly expanded contextual understanding in these models. Coordinated scaling of parameters, data, and computational capacity consolidated few-shot learning capabilities and facilitated emergent effects. Recent architectures have reinforced this dynamic through distributed engineering and systematic data curation. To process extensive documents, sparse attention approaches and optimization techniques mitigate quadratic computational costs. Trade-offs between context length, sample efficiency, and robustness are analyzed, alongside challenges in evaluation and generalization. The work proposes greater transparency in pre-training processes, development of task-oriented metrics, and integration with information retrieval systems. Priority is given to energy efficiency and explicit control mechanisms, aiming for models that are more useful, auditable, socially responsible, and safe. These considerations address both technical advancement and broader implications for responsible AI deployment in diverse applications
     
    URI
    https://hdl.handle.net/1884/99877
    Collections
    • Inteligência Artificial Aplicada [118]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV