What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

Perception-R1：通过视觉感知奖励提升多模态大语言模型的多模态推理能力

Key Points

Perception-R1通过一种创新的视觉感知奖励，提升了MLLMs的多模态感知与推理能力。
大量实验显示，仅需1,442条训练数据即可实现最先进的基准表现。
现有RLVR方法对多模态感知挑战的解决不足，限制了MLLMs的推理能力。
视觉感知奖励是在评估生成响应与视觉注释一致性后分配的。

Abstract

提升多模态大语言模型（MLLMs）的多模态推理能力是一项具有挑战性的任务，已引起社区越来越多的关注。近期，若干研究将可验证奖励的强化学习（RLVR）应用于多模态领域，以增强MLLMs的推理能力。然而，这些工作在很大程度上忽视了提升MLLMs多模态感知能力的重要性，而多模态感知能力是复杂多模态推理的核心前提和基础组成部分。通过McNemar检验，我们发现现有RLVR方法未能有效提升MLLMs的多模态感知能力，限制了它们多模态推理的进一步提升。为解决此限制，我们提出Perception-R1，引入了一种全新的视觉感知奖励，明确鼓励MLLMs准确感知视觉内容，从而有效激励它们的多模态感知和推理能力。具体而言，我们首先收集来自多模态问题CoT轨迹的文本视觉注释，作为奖励分配的视觉参考。在RLVR训练过程中，我们使用判定LLM评估视觉注释与MLLM生成响应之间的一致性，并基于这种一致性判断分配视觉感知奖励。在多个多模态推理基准上的大量实验表明，Perception-R1效果显著，在多数基准上仅用1,442条训练数据即达成了最先进表现。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tong Xiao

Xin Xu

Zhenya Huang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Perception-R1：通过视觉感知奖励提升多模态大语言模型的多模态推理能力

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider