What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

TreeRPO: 트리 상대 정책 최적화

Key Points

TreeRPO는 중간 추론 단계에 대한 보상 신호를 미세 조정하여 LLM의 성능을 향상시킵니다.
이 알고리즘은 Qwen-2.5-Math의 평균 Pass@1 정확도를 19.0%에서 35.5%로 향상시켜 큰 성과를 보여줍니다.
TreeRPO는 별도의 보상 모델 대신 트리 샘플링을 사용하여 보상을 혁신적으로 계산함으로써 과정을 간소화합니다.
GRPO와 비교하여 TreeRPO는 성능을 2.9% 향상시키면서 응답 길이를 18.1% 줄여 효율성을 나타냅니다.

Abstract

대형 언어 모델(LLM)은 검증 가능한 보상을 사용하는 강화 학습(RLVR) 방법을 통해 뛰어난 추론 능력을 보여주었습니다. 그러나 기존 접근법의 주요 한계는 전체 경로 수준에서 정의된 보상이 추론 과정의 중간 단계 최적화에 충분한 지침을 제공하지 않는다는 점입니다. 이를 해결하기 위해, 우리는 트리 샘플링을 사용하여 다양한 추론 단계에서 보상의 기댓값을 추정하는 새로운 방법을 도입합니다. 별도의 단계 보상 모델에 의존하는 이전 방법과 달리, 이 방법은 이 샘플링 과정을 통해 직접적으로 보상을 추정합니다. GRPO의 그룹 상대 보상 훈련 메커니즘을 기반으로 하여, 트리 샘플링 중 생성된 단계별 그룹을 바탕으로 보상을 혁신적으로 계산합니다. 이 발전은 세분화되고 밀집된 보상 신호를 생성할 수 있게 하여 학습 과정과 LLM의 전체 성능을 크게 향상시킵니다. 실험 결과 우리 알고리즘은 테스트 벤치마크에서 Qwen-2.5-Math의 평균 Pass@1 정확도를 19.0%에서 35.5%로 크게 향상시켰습니다. 또한 GRPO에 비해 성능이 2.9% 우수할 뿐 아니라 평균 응답 길이를 18.1% 줄여 그 효율성과 효과를 입증했습니다. 우리의 코드는 https://github.com/yangzhch6/TreeRPO 에서 제공될 예정입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhicheng Yang

Zhijiang Guo

Yinya Huang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

TreeRPO: 트리 상대 정책 최적화

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider