Pesquisas atuais sobre Geração Aumentada por Recuperação Multimodal (MRAG) permitem entradas multimodais diversas, mas permanecem limitadas a saídas de uma única modalidade, restringindo a capacidade expressiva e a utilidade prática. Em contraste, aplicações do mundo real frequentemente exigem tanto entradas multimodais quanto saídas multimodais para comunicação eficaz e raciocínio fundamentado. Motivados pelo sucesso recente do Aprendizado por Reforço (RL) em tarefas complexas de raciocínio para Grandes Modelos de Linguagem (LLMs), adotamos o RL como um paradigma fundamentado e eficaz para enfrentar os desafios multi-etapas e orientados a resultados inerentes à geração de saídas multimodais. Aqui, introduzimos o M2IO-R1, um framework inovador para Geração Multimodal Aumentada por Recuperação Multimodal (MRAMG) que suporta tanto entradas quanto saídas multimodais. Elemento central do nosso framework é um inseridor baseado em RL, Inserter-R1-3B, treinado com Otimização de Política Relativa de Grupo para orientar a seleção e posicionamento de imagens de forma controlável e semanticamente alinhada. Resultados empíricos mostram que nosso inseridor leve de 3B alcança fortes capacidades de raciocínio com latência significativamente reduzida, superando as linhas de base em qualidade e eficiência.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhiyou Xiao
Qinhan Yu
Binghui Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiao et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68f12bfb2107091eab27a45d — DOI: https://doi.org/10.48550/arxiv.2508.06328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: