Los puntos clave no están disponibles para este artículo en este momento.
Trabajos previos han demostrado que afinar modelos grandes de lenguaje (LLMs) utilizando datos para seguir instrucciones generados por máquina permite que tales modelos alcancen capacidades notables de cero entrenamiento en nuevas tareas, sin necesidad de instrucciones escritas por humanos. En este artículo, presentamos el primer intento de usar GPT-4 para generar datos de seguimiento de instrucciones para el afinamiento de LLMs. Nuestros experimentos iniciales con modelos LLaMA ajustados por instrucciones muestran que los 52K datos de seguimiento de instrucciones en inglés y chino generados por GPT-4 conducen a un desempeño superior en tareas nuevas con cero entrenamiento, en comparación con los datos para seguir instrucciones generados por modelos previos de última generación. También recopilamos datos de retroalimentación y comparación de GPT-4 para permitir una evaluación exhaustiva y el entrenamiento de modelos de recompensa. Ponemos a disposición pública nuestros datos generados usando GPT-4 y nuestro código.
Building similarity graph...
Analyzing shared references across papers
Loading...
Baolin Peng
Chunyuan Li
Pengcheng He
Building similarity graph...
Analyzing shared references across papers
Loading...
Peng et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a04a89af25296fdf376606b — DOI: https://doi.org/10.48550/arxiv.2304.03277