Especificação técnica da arquitetura de agentes para orquestração de modelos multimodais fundacionais em oncologia de precisão
Resumo
Resumo: O crescimento exponencial do volume de dados em saúde e a complexidade inerente à patologia digital demandam ferramentas de apoio à decisão capazes de integrar informações multimodais. Este trabalho apresenta o desenvolvimento de uma arquitetura de software baseada em um agente de IA, projetada para integrar o vision– language foundation model MUSK (Multimodal transformer with Unified maSKed modeling) ao fluxo de diagnóstico histopatológico. Metodologicamente, a solução evoluiu de uma prova de conceito baseada em RetrievalAugmented Generation (RAG) para uma arquitetura modular, composta por uma interface conversacional, uma camada de orquestração e um agente de inteligência artificial responsável por coordenar ferramentas de busca vetorial. Os resultados da verificação funcional indicam que a arquitetura é capaz de interpretar intenções em linguagem natural, acionar o modelo MUSK para extração de embeddings e recuperar casos clínicos semelhantes com seus respectivos metadados. Conclui-se que a solução demonstra a viabilidade técnica de integrar um modelo multimodal fundacional ao processo de apoio ao diagnóstico em patologia digital. Isso é alcançado por meio de uma arquitetura de software baseada em um agente de IA, na qual a separação entre interface, orquestração e serviços de inferência e busca vetorial favorece a modularidade, a extensibilidade e a evolução futura de sistemas interativos de apoio à decisão The exponential growth of big data in healthcare and the inherent complexity of digital pathology require decision support tools capable of integrating multimodal information. This work proposes an agent-oriented software architecture designed to integrate the vision-language foundation model MUSK (Multimodal transformer with Unified maSKed modeling) into the histopathological diagnostic workflow. Methodologically, the solution evolved from a Retrieval-Augmented Generation (RAG) proof of concept to a modular architecture, composed of a conversational interface, an orchestration layer, and an Artificial Intelligence agent responsible for coordinating vector search tools. Functional verification results indicate that the architecture is capable of interpreting natural language intentions, triggering the MUSK model for embedding extraction, and retrieving similar clinical cases with their respective metadata. It is concluded that the implemented approach proved effective for the proposed orchestration, exhibiting characteristics of modularity and extensibility that suggest a promising path for building interactive decision support systems in digital pathology