대규모 평가 데이터에 대한 생성형 AI 챗봇 평가: LLM-판사와 인간 평가 비교 | Synapse