Memorial de projetos : a arquitetura transformer e seu impacto no processamento de linguagem natural
Resumo
Resumo: A arquitetura Transformer, proposta por Vaswani et al. (2017), revolucionou o Processamento de Linguagem Natural (PLN) ao substituir RNNs por mecanismos de autoatenção que geram vetores Query, Key e Value para calcular a Scaled DotProduct Attention. Com atenção multi-cabeças, o modelo captura diversas relações entre tokens em paralelo, enquanto codificações posicionais de seno e cosseno mantêm a ordem sequencial. Blocos de encoder e decoder incluem subcamadas de autoatenção e redes feed-forward com ativação ReLU. Essa estrutura fundamentou o desenvolvimento de BERT, focado em compreensão de texto, e GPT, voltado à geração autorregressiva, redefinindo o estado da arte em PLN Abstract: The Transformer architecture, proposed by Vaswani et al. (2017), revolutionized Natural Language Processing (NLP) by replacing RNNs with selfattention mechanisms that generate Query, Key, and Value vectors to calculate Scaled Dot-Product Attention. With multi-head attention, the model captures diverse token relationships in parallel, while sine and cosine positional encodings maintain sequential order. Encoder and decoder blocks include self-attention sublayers and feed-forward networks with ReLU activation. This structure laid the foundation for developing BERT, focused on text comprehension, and GPT, aimed at autoregressive generation, redefining the state-of-the-art in NLP