대형 언어 모델(LLM)은 검증 가능한 보상을 사용하는 강화 학습(RLVR) 방법을 통해 뛰어난 추론 능력을 보여주었습니다. 그러나 기존 접근법의 주요 한계는 전체 경로 수준에서 정의된 보상이 추론 과정의 중간 단계 최적화에 충분한 지침을 제공하지 않는다는 점입니다. 이를 해결하기 위해, 우리는 트리 샘플링을 사용하여 다양한 추론 단계에서 보상의 기댓값을 추정하는 새로운 방법을 도입합니다. 별도의 단계 보상 모델에 의존하는 이전 방법과 달리, 이 방법은 이 샘플링 과정을 통해 직접적으로 보상을 추정합니다. GRPO의 그룹 상대 보상 훈련 메커니즘을 기반으로 하여, 트리 샘플링 중 생성된 단계별 그룹을 바탕으로 보상을 혁신적으로 계산합니다. 이 발전은 세분화되고 밀집된 보상 신호를 생성할 수 있게 하여 학습 과정과 LLM의 전체 성능을 크게 향상시킵니다. 실험 결과 우리 알고리즘은 테스트 벤치마크에서 Qwen-2.5-Math의 평균 Pass@1 정확도를 19.0%에서 35.5%로 크게 향상시켰습니다. 또한 GRPO에 비해 성능이 2.9% 우수할 뿐 아니라 평균 응답 길이를 18.1% 줄여 그 효율성과 효과를 입증했습니다. 우리의 코드는 https://github.com/yangzhch6/TreeRPO 에서 제공될 예정입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhicheng Yang
Zhijiang Guo
Yinya Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
양(Yang) 등은 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac36222 — DOI: https://doi.org/10.48550/arxiv.2506.05183
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: