What type of study is this?

This is a Literature Review study.

September 29, 2025Open Access

Ajuste fino por reforço potencia a capacidade de raciocínio dos grandes modelos de linguagem multimodal

Key Points

O ajuste fino por reforço melhora a capacidade de raciocínio em modelos de linguagem multimodal, aprimorando o desempenho em tarefas.
Avanços principais incluem melhores algoritmos de treinamento e frameworks de engenharia, abordando modalidades e domínios diversos.
Direções futuras de pesquisa focam em aproveitar benchmarks abundantes para otimizar métodos de ajuste fino por reforço.
O crescimento da inteligência artificial geral depende fortemente do refinamento das capacidades de raciocínio via abordagens multimodais.

Abstract

Em 2025, em um momento crítico na busca pela Inteligência Artificial Geral (AGI), o ajuste fino por reforço (RFT) demonstrou potencial significativo para melhorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs) e levou ao desenvolvimento de modelos de IA de ponta como OpenAI-o1 e DeepSeek-R1. Além disso, a aplicação eficiente do RFT para aprimorar a capacidade de raciocínio de grandes modelos de linguagem multimodal (MLLMs) tem atraído ampla atenção da comunidade. Neste artigo de posição, argumentamos que o ajuste fino por reforço potencia a capacidade de raciocínio dos grandes modelos de linguagem multimodal. Para começar, fornecemos uma introdução detalhada ao conhecimento fundamental que pesquisadores interessados nesta área devem conhecer. Além disso, resumimos cuidadosamente as melhorias do RFT no aprimoramento da capacidade de raciocínio dos MLLMs em cinco pontos-chave: modalidades diversas, tarefas e domínios variados, melhores algoritmos de treinamento, benchmarks abundantes e frameworks de engenharia prósperos. Por fim, propomos cinco direções promissoras para pesquisas futuras que a comunidade pode considerar. Esperamos que este artigo de posição forneça insights valiosos para a comunidade neste estágio crucial para o avanço rumo à AGI. Um resumo dos trabalhos realizados sobre RFT para MLLMs está disponível em https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoyuan Sun

Jiaqi Wu

Bo Xia

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ajuste fino por reforço potencia a capacidade de raciocínio dos grandes modelos de linguagem multimodal

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider