What question did this study set out to answer?

Esta pesquisa visa melhorar o desempenho na resposta a perguntas em tempo real usando uma abordagem multimodal.

May 9, 2026Open Access

Geração Aumentada por Recuperação Usando Modelos de Linguagem Grande Multimodais para Resposta a Perguntas Baseadas em Conhecimento em Tempo Real

Key Points

Esta pesquisa visa melhorar o desempenho na resposta a perguntas em tempo real usando uma abordagem multimodal.
Introdução da estrutura MultiRAG integrando modelos de linguagem grande multimodais com um sistema de QA em tempo real.
Uso de uma espinha dorsal de recuperação densa com bi-codificador e de um modelo visão-linguagem para processamento e geração.
Realização de experimentos em quatro conjuntos de dados de referência incluindo Natural Questions e RKUB-2024.
Alcançou 87,3% de Correspondência Exata e 91,4% de pontuação de fidelidade da resposta em QA de domínio aberto.
Demonstrou redução de 6,7× na taxa de alucinação comparada a baselines padrão de LLM.
Redução de alucinação em 82% sobre a implantação padrão de LLM, superando modelos aumentados por recuperação em 4,2–9,8 pontos percentuais.

Abstract

O crescimento exponencial de informações digitais heterogêneas em repositórios estruturados e não estruturados apresenta um desafio crítico para modelos de linguagem grande (LLMs): a incapacidade de acessar e raciocinar sobre conhecimentos que evoluem dinamicamente sem o custo de retreinamento do modelo. Este artigo introduz uma estrutura abrangente de Geração Aumentada por Recuperação (RAG) que integra modelos de linguagem grande multimodais (MLLMs) com sistemas de resposta a perguntas baseadas em conhecimento em tempo real. A arquitetura proposta — MultiRAG — combina uma espinha dorsal de recuperação densa com bi-codificador e um módulo de fusão cross-modal capaz de indexar e recuperar conjuntamente texto, imagens, tabelas e dados estruturados. A evidência multimodal recuperada é processada por um modelo visão-linguagem (VLM) atuando como espinha dorsal generativa, condicionado ao contexto recuperado através de um novo mecanismo de aterramento por atenção cruzada que reduz alucinações ao impor restrições de fidelidade no nível de token. Experimentos realizados em quatro conjuntos de dados de referência — Natural Questions, WebQA, MultiModalQA e um benchmark personalizado de atualização de conhecimento em tempo real (RKUB-2024) — demonstram que o MultiRAG alcança 87,3% de Correspondência Exata em QA de domínio aberto, 91,4% de pontuação de fidelidade da resposta e uma redução de 6,7× na taxa de alucinação comparado a baselines de LLMs convencionais. A latência do pipeline de ingestão de conhecimento em tempo real é em média 340 ms por documento, suportando o aterramento contínuo do conhecimento sem ajuste fino do modelo. O sistema reduz alucinações em 82% sobre a implantação padrão de LLM e supera todas as abordagens aumentadas por recuperação em 4,2–9,8 pontos percentuais em métricas de avaliação.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dr. K. Sujatha

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Geração Aumentada por Recuperação Usando Modelos de Linguagem Grande Multimodais para Resposta a Perguntas Baseadas em Conhecimento em Tempo Real

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider