June 6, 2024Open Access

¿Qué aprenden los modelos de lenguaje en contexto? La hipótesis de tarea estructurada

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos de lenguaje (LLMs) exhiben una habilidad intrigante para aprender una tarea novedosa a partir de ejemplos en contexto presentados en una demostración, denominada aprendizaje en contexto (ICL). Comprensiblemente, una gran cantidad de investigación se ha dedicado a descubrir las teorías que sustentan el ICL. Una hipótesis popular explica el ICL mediante la selección de tarea. Los LLMs identifican la tarea basada en la demostración y la generalizan al prompt. Otra hipótesis popular es que el ICL es una forma de meta-aprendizaje, es decir, los modelos aprenden un algoritmo de aprendizaje durante el preentrenamiento y lo aplican a la demostración. Finalmente, una tercera hipótesis sostiene que los LLMs usan la demostración para seleccionar una composición de tareas aprendidas durante el preentrenamiento para realizar el ICL. En este artículo, exploramos empíricamente estas tres hipótesis que explican la capacidad de los LLMs para aprender en contexto con una serie de experimentos derivados de tareas comunes de clasificación de texto. Invalidamos las dos primeras hipótesis con contraejemplos y proporcionamos evidencia que apoya la última hipótesis. Nuestros resultados sugieren que un LLM podría aprender una tarea novedosa en contexto mediante la composición de tareas aprendidas durante el preentrenamiento.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaoda Li

Yifan Hou

Mrinmaya Sachan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

¿Qué aprenden los modelos de lenguaje en contexto? La hipótesis de tarea estructurada

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider