• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Memorial de projetos : multimodais – convergência entre visão computacional e LLM

    Thumbnail
    Visualizar/Abrir
    R - E - MAGNUS HERMAN SOUZA SILVA.pdf (26.88Mb)
    Data
    2025
    Autor
    Silva, Magnus Herman Souza
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho percorre um panorama histórico-conceitual da evolução da Inteligência Artificial (IA), concentrando-se na convergência entre duas áreas inicialmente separadas: os Modelos de Linguagem de Grande Porte (LLMs – Large Language Model) e a Visão Computacional. A Inteligência Artificial (IA) consolidouse como disciplina nas décadas de 1940-1950, passando por ciclos de avanços ("primaveras") e estagnação ("invernos"). A virada para a IA (Inteligência Artificial) moderna deu-se com as redes neurais, que permitem aprender padrões diretamente dos dados. Inicialmente, redes recorrentes (RNNs - Recurrent Neural Networks, LSTM - Long Short Term Memory) processavam sequências como texto, mas com limitações. A revolução veio em 2017 com a arquitetura Transformer e seu mecanismo de auto-atenção, base dos atuais Modelos de Linguagem de Grande Porte (LLMs – Large Language Model), como GPT (Generative Pre-trained Transformer) e BERT (Bidirectional Encoder Representations from Transformers), que compreendem e geram linguagem com profundidade sem precedentes. Paralelamente, a Visão Computacional evoluiu com Redes Neurais Convolucionais (CNNs - Convolutional Neural Network), capacitando máquinas a "enxergarem" e interpretarem imagens. A fronteira atual reside na integração multimodal, onde modelos como o CLIP (Contrastive Language–Image Pre-Training) alinham representações de texto e imagem em um espaço vetorial comum. Isso permite que sistemas compreendam cenas visuais por meio da linguagem, classificando imagens sem treinamento prévio (zero-shot) e descrevendo-as detalhadamente. Essa convergência entre LLMs (Large Language Model) e Visão Computacional está criando assistentes inteligentes, robôs autônomos e ferramentas inovadoras, redefinindo a interação homem-máquina ao unir visão e linguagem em uma percepção artificial unificada e contextualizada
     
    Abstract: This work traces a historical-conceptual panorama of the evolution of Artificial Intelligence (AI), focusing on the convergence between two initially separate areas: Large Language Models (LLMs - Large Language Models) and Computer Vision. Artificial Intelligence (AI) was established as a discipline in the 1940s-1950s, going through cycles of advances ("springs") and stagnation ("winters"). The turning point for modern AI (Artificial Intelligence) came with neural networks, which allow learning patterns directly from data. Initially, recurrent networks (RNNs - Recurrent Neural Networks, LSTM - Long Short-Term Memory) processed sequences like text, but with limitations. The revolution came in 2017 with the Transformer architecture and its self-attention mechanism, the basis of current Large Language Models (LLMs - Large Language Models), such as GPT (Generative Pre-trained Transformer) and BERT (Bidirectional Encoder Representations from Transformers), which understand and generate language with unprecedented depth. In parallel, Computer Vision evolved with Convolutional Neural Networks (CNNs - Convolutional Neural Networks), enabling machines to "see" and interpret images. The current frontier lies in multimodal integration, where models like CLIP (Contrastive Language-Image Pretraining) align text and image representations in a common vector space. This allows systems to understand visual scenes through language, classifying images without prior training (zero-shot) and describing them in detail. This convergence between LLMs (Large Language Models) and Computer Vision is creating intelligent assistants, autonomous robots, and innovative tools, redefining human-machine interaction by uniting vision and language into a unified and contextualized artificial perception
     
    URI
    https://hdl.handle.net/1884/99862
    Collections
    • Inteligência Artificial Aplicada [106]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV