April 6, 2023Open Access

Ajuste de instrucciones con GPT-4

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Trabajos previos han demostrado que afinar modelos grandes de lenguaje (LLMs) utilizando datos para seguir instrucciones generados por máquina permite que tales modelos alcancen capacidades notables de cero entrenamiento en nuevas tareas, sin necesidad de instrucciones escritas por humanos. En este artículo, presentamos el primer intento de usar GPT-4 para generar datos de seguimiento de instrucciones para el afinamiento de LLMs. Nuestros experimentos iniciales con modelos LLaMA ajustados por instrucciones muestran que los 52K datos de seguimiento de instrucciones en inglés y chino generados por GPT-4 conducen a un desempeño superior en tareas nuevas con cero entrenamiento, en comparación con los datos para seguir instrucciones generados por modelos previos de última generación. También recopilamos datos de retroalimentación y comparación de GPT-4 para permitir una evaluación exhaustiva y el entrenamiento de modelos de recompensa. Ponemos a disposición pública nuestros datos generados usando GPT-4 y nuestro código.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Baolin Peng

Chunyuan Li

Pengcheng He

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ajuste de instrucciones con GPT-4

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study