May 17, 2026Open Access

Found-RL: 비동기 VLM 피드백을 통한 기초 모델 강화 기법으로 자율주행 강화 학습 향상

Key Points

Key points are not available for this paper at this time.

Abstract

강화 학습(RL)은 실시간 추론을 필요로 하는 종단 간 자율주행(AD)에서 지배적인 패러다임으로 부상했습니다. 그러나 RL은 일반적으로 복잡한 시나리오에서 샘플 비효율성과 의미론적 해석 가능성 부족 문제를 겪습니다. 이러한 한계를 완화하기 위해, 기초 모델(특히 비전-언어 모델(VLM))을 통합하면 풍부하고 맥락 인지 지식을 제공하는 장점이 있습니다. 그럼에도 불구하고, 높은 빈도의 다중 환경 RL 학습 루프 내에서 이러한 계산 집약적 모델을 배치하는 것은 심각한 추론 지연과 통합 플랫폼 부재로 인해 크게 제한됩니다. 이 격차를 해소하기 위해, 우리는 자율주행용 RL을 효율적으로 향상시키기 위해 기초 모델을 활용하는 맞춤형 플랫폼인 Found-RL을 제안합니다. 제안된 플랫폼의 핵심 혁신은 무거운 VLM 추론을 시뮬레이션 루프에서 분리하는 비동기 배치 추론 프레임워크입니다. 이 설계는 지연 병목현상을 효과적으로 해결하여 VLM 피드백으로부터 실시간 또는 근실시간 RL 학습을 지원합니다. 제안 플랫폼을 사용하여 도메인별 문제를 해결하기 위한 다양한 감독 메커니즘을 도입했습니다: 먼저 전문가 수준의 VLM 행동 제안을 RL 정책에 효과적으로 증류하는 값-마진 정규화(VMR)와 이점 가중 행동 안내(AWAG)를 구현했습니다. 또한 밀집 감독을 위해 보상 형성에 고처리량 CLIP을 채택했습니다. CLIP의 동적 시각 소실 및 확률 희석 문제를 속성 대비 행동 정렬(Conditional Contrastive Action Alignment)을 통해 완화했으며, 이는 속도를 이산화 및 명령에 기반한 프롬프트 조정과 문맥 특이적 행동-앵커 점수로부터 정규화되고 마진 기반 보너스를 산출합니다. Found-RL은 모듈화 지원과 함께 미세 조정된 VLM 통합을 위한 종단 간 파이프라인을 제공하며, 수백만 파라미터의 경량 RL 모델이 수십억 파라미터의 VLM과 비교해 근접한 성능을 유지하면서 실시간 추론(~500 FPS)을 달성할 수 있음을 보입니다. 코드, 데이터, 모델은 https://github.com/ys-qu/found-rl 에서 공개될 예정입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yansong Qu

Zihao Sheng

Zilin Huang

Journals

Communications in Transportation Research

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Found-RL: 비동기 VLM 피드백을 통한 기초 모델 강화 기법으로 자율주행 강화 학습 향상

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider