评估用于大规模测试数据的生成式AI聊天机器人:比较LLM作为评审与人工评分 | Synapse