Memorial de projetos : a arquitetura long short-term memory (LSTM) no tratamento de dependências temporais
Resumo
Resumo: A arquitetura Long Short-Term Memory (LSTM), também conhecida comomemória de longo e curto prazo, constitui uma extensão das redes neurais recorrentesdesenvolvida com o propósito de mitigar os problemas de desvanecimento e explosãodo gradiente no treinamento de sequências temporais longas. Este parecer técnicoapresenta uma análise conceitual da LSTM, descrevendo seus fundamentos teóricosessenciais e sua relevância no processamento de dados sequenciais. São abordadosos principais elementos da arquitetura, com destaque para a célula de memória e paraos mecanismos de controle baseados em portas de entrada, esquecimento e saída,responsáveis pela regulação do fluxo de informações ao longo do tempo. Ressalta-seo papel do constant error carousel na preservação do gradiente e na aprendizagemde dependências temporais de longo alcance. O texto também discute as limitaçõesda LSTM, incluindo a elevada complexidade computacional, a necessidade degrandes volumes de dados para treinamento adequado, as restrições de paralelizaçãodecorrentes do processamento sequencial e as dificuldades de generalização paravalores extremos fora da distribuição de treinamento. Conclui-se que, emboraamplamente utilizada, a adoção da LSTM deve considerar a disponibilidade de dados,os recursos computacionais e as características das dependências temporaisenvolvidas, sendo, em alguns cenários, recomendável a avaliação de arquiteturasalternativas Abstract: The Long Short-Term Memory (LSTM) architecture is an extension of recurrentneural networks designed to address the vanishing and exploding gradient problemsin the training of long temporal sequences. This technical report presents a conceptualanalysis of LSTM, outlining its main theoretical foundations and its relevance insequential data processing. The core components of the architecture are discussed,with emphasis on the memory cell and the gate-based control mechanisms, namelythe input, forget, and output gates, which regulate the flow of information over time.The role of the constant error carousel in preserving gradients and enabling thelearning of long-term temporal dependencies is highlighted. The report also examinesthe main limitations of LSTM, including high computational complexity, the requirementfor large datasets for effective training, limited parallelization due to sequentialprocessing, and challenges in generalizing to extreme values outside the training datadistribution. It is concluded that, although widely adopted, the use of LSTM should beevaluated considering data availability, computational resources, and the nature of thetemporal dependencies involved