Evaluación de chatbots de IA generativa para datos de evaluación a gran escala: comparación entre LLM-como-juez y calificaciones humanas | Synapse