What type of study is this?

This is a Experimental Study study.

October 16, 2025Open Access

M2IO-R1: Um Framework Eficiente de Raciocínio Aprimorado por RL para Geração Multimodal Aumentada por Recuperação Multimodal

Key Points

M2IO-R1 demonstra melhoras nas capacidades de raciocínio e eficiência na geração multimodal.
Resultados empíricos indicam redução significativa na latência e aumento da qualidade em relação às linhas de base.
Elemento central do framework é um inseridor baseado em RL que orienta efetivamente a seleção e posicionamento de imagens.
Esta abordagem enfrenta os desafios na geração de saídas multimodais a partir de entradas multimodais diversas.

Abstract

Pesquisas atuais sobre Geração Aumentada por Recuperação Multimodal (MRAG) permitem entradas multimodais diversas, mas permanecem limitadas a saídas de uma única modalidade, restringindo a capacidade expressiva e a utilidade prática. Em contraste, aplicações do mundo real frequentemente exigem tanto entradas multimodais quanto saídas multimodais para comunicação eficaz e raciocínio fundamentado. Motivados pelo sucesso recente do Aprendizado por Reforço (RL) em tarefas complexas de raciocínio para Grandes Modelos de Linguagem (LLMs), adotamos o RL como um paradigma fundamentado e eficaz para enfrentar os desafios multi-etapas e orientados a resultados inerentes à geração de saídas multimodais. Aqui, introduzimos o M2IO-R1, um framework inovador para Geração Multimodal Aumentada por Recuperação Multimodal (MRAMG) que suporta tanto entradas quanto saídas multimodais. Elemento central do nosso framework é um inseridor baseado em RL, Inserter-R1-3B, treinado com Otimização de Política Relativa de Grupo para orientar a seleção e posicionamento de imagens de forma controlável e semanticamente alinhada. Resultados empíricos mostram que nosso inseridor leve de 3B alcança fortes capacidades de raciocínio com latência significativamente reduzida, superando as linhas de base em qualidade e eficiência.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhiyou Xiao

Qinhan Yu

Binghui Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

M2IO-R1: Um Framework Eficiente de Raciocínio Aprimorado por RL para Geração Multimodal Aumentada por Recuperação Multimodal

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider