Key points are not available for this paper at this time.
대규모 다중 모달 모델(LMM)은 인간 지시 이해에 뛰어나며 다양한 작업에서 놀라운 결과를 보입니다. 인간 피드백 기반 강화 학습(RLHF)과 AI 피드백 기반 강화 학습(RLAIF)은 LLM을 특정 선호에 맞게 더욱 정제합니다. 이 방법들은 주로 전체 생성물에 대한 순위 기반 피드백을 사용합니다. GPT-4와 Claude 3 Opus 같은 고급 AI 모델(Teacher)을 통해 인간이 제공하기 어려운 다양한 상세 피드백을 요청할 수 있습니다. 우리는 강화 학습(RL)과 감독 미세 튜닝(SFT)을 교대로 수행하는 두 단계 알고리즘 ARES를 제안합니다. 먼저, Teacher에게 연쇄 사고(CoT)에서 각 문장이 문제 해결에 얼마나 기여하는지 점수를 매기도록 요청합니다. 이 문장 수준 피드백은 개별 중요한 세그먼트를 고려하게 하여 RL 절차에서 더 세분화된 보상을 제공합니다. 둘째, RL 단계 후에 Teacher에게 잘못된 추론을 교정하도록 요청합니다. RL 절차는 하이퍼파라미터 튜닝에 많은 노력이 필요하며 반복 단어, 불완전한 문장 등의 오류를 자주 생성합니다. 교정 피드백을 통해 SFT로 RL 미세 튜닝된 모델을 안정화합니다. ScienceQA와 A-OKVQA 다중 모달 데이터셋에서 제안 방법의 효과를 입증했습니다. ARES의 근거 추론은 GPT-4o가 평가한 기준 모델 대비 약 70% 승률을 기록했습니다. 또한 향상된 근거 추론은 다중 모달 데이터셋의 추론 정답 정확도를 평균 2.5% 증가시켰습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ju-Seung Byun
Jiyun Chun
Jihyung Kil
Building similarity graph...
Analyzing shared references across papers
Loading...
Byun 등(Tue,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e636cab6db6435875c8f6e — DOI: https://doi.org/10.48550/arxiv.2407.00087
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: