June 25, 2024Open Access

Aprovechamiento de LLMs para la Medición de la Calidad del Diálogo

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En la evaluación de IA conversacional orientada a tareas, los métodos no supervisados se correlacionan pobremente con los juicios humanos y los enfoques supervisados carecen de generalización. Los avances recientes en modelos de lenguaje grandes (LLMs) muestran capacidades sólidas de zero-shot y few-shot en tareas de PLN. Este artículo explora el uso de LLMs para la evaluación automatizada de la calidad del diálogo, experimentando con diversas configuraciones en conjuntos de datos públicos y propios. Manipulando factores como el tamaño del modelo, ejemplos en contexto y técnicas de selección, examinamos el razonamiento "cadena de pensamiento" (CoT) y los procedimientos de extracción de etiquetas. Nuestros resultados muestran que (1) modelos más grandes generan etiquetas de diálogo más precisas; (2) la selección algorítmica de ejemplos en contexto supera a la selección aleatoria; (3) el razonamiento CoT donde se solicita a un LLM que provea justificaciones antes de emitir etiquetas finales mejora el desempeño; y (4) los LLMs afinados superan a los listos para usar. Nuestros resultados indican que LLMs adecuadamente afinados y con suficientes capacidades de razonamiento pueden aprovecharse para la evaluación automatizada del diálogo.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinghan Jia

Abi Komma

Timothy Leffel

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprovechamiento de LLMs para la Medición de la Calidad del Diálogo

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider