Avaliando chatbots generativos de IA para dados de avaliação em larga escala: comparando LLM-como-juiz e avaliações humanas | Synapse