Los puntos clave no están disponibles para este artículo en este momento.
En la evaluación de IA conversacional orientada a tareas, los métodos no supervisados se correlacionan pobremente con los juicios humanos y los enfoques supervisados carecen de generalización. Los avances recientes en modelos de lenguaje grandes (LLMs) muestran capacidades sólidas de zero-shot y few-shot en tareas de PLN. Este artículo explora el uso de LLMs para la evaluación automatizada de la calidad del diálogo, experimentando con diversas configuraciones en conjuntos de datos públicos y propios. Manipulando factores como el tamaño del modelo, ejemplos en contexto y técnicas de selección, examinamos el razonamiento "cadena de pensamiento" (CoT) y los procedimientos de extracción de etiquetas. Nuestros resultados muestran que (1) modelos más grandes generan etiquetas de diálogo más precisas; (2) la selección algorítmica de ejemplos en contexto supera a la selección aleatoria; (3) el razonamiento CoT donde se solicita a un LLM que provea justificaciones antes de emitir etiquetas finales mejora el desempeño; y (4) los LLMs afinados superan a los listos para usar. Nuestros resultados indican que LLMs adecuadamente afinados y con suficientes capacidades de razonamiento pueden aprovecharse para la evaluación automatizada del diálogo.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinghan Jia
Abi Komma
Timothy Leffel
Building similarity graph...
Analyzing shared references across papers
Loading...
Jia et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e636c5b6db6435875c8ad5 — DOI: https://doi.org/10.48550/arxiv.2406.17304
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: