提升多模态大语言模型(MLLMs)的多模态推理能力是一项具有挑战性的任务,已引起社区越来越多的关注。近期,若干研究将可验证奖励的强化学习(RLVR)应用于多模态领域,以增强MLLMs的推理能力。然而,这些工作在很大程度上忽视了提升MLLMs多模态感知能力的重要性,而多模态感知能力是复杂多模态推理的核心前提和基础组成部分。通过McNemar检验,我们发现现有RLVR方法未能有效提升MLLMs的多模态感知能力,限制了它们多模态推理的进一步提升。为解决此限制,我们提出Perception-R1,引入了一种全新的视觉感知奖励,明确鼓励MLLMs准确感知视觉内容,从而有效激励它们的多模态感知和推理能力。具体而言,我们首先收集来自多模态问题CoT轨迹的文本视觉注释,作为奖励分配的视觉参考。在RLVR训练过程中,我们使用判定LLM评估视觉注释与MLLM生成响应之间的一致性,并基于这种一致性判断分配视觉感知奖励。在多个多模态推理基准上的大量实验表明,Perception-R1效果显著,在多数基准上仅用1,442条训练数据即达成了最先进表现。
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Xiao
Xin Xu
Zhenya Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiao等人(Sun,)研究了此问题。
www.synapsesocial.com/papers/68de5d9c83cbc991d0a202cd — DOI: https://doi.org/10.48550/arxiv.2506.07218
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: