ARES: 다양한 AI 피드백을 통한 향상된 다중 모달 사고 연쇄 추론을 위한 강화 학습과 감독 미세조정의 교대 적용 | Synapse