Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos de lenguaje (LLMs) exhiben una habilidad intrigante para aprender una tarea novedosa a partir de ejemplos en contexto presentados en una demostración, denominada aprendizaje en contexto (ICL). Comprensiblemente, una gran cantidad de investigación se ha dedicado a descubrir las teorías que sustentan el ICL. Una hipótesis popular explica el ICL mediante la selección de tarea. Los LLMs identifican la tarea basada en la demostración y la generalizan al prompt. Otra hipótesis popular es que el ICL es una forma de meta-aprendizaje, es decir, los modelos aprenden un algoritmo de aprendizaje durante el preentrenamiento y lo aplican a la demostración. Finalmente, una tercera hipótesis sostiene que los LLMs usan la demostración para seleccionar una composición de tareas aprendidas durante el preentrenamiento para realizar el ICL. En este artículo, exploramos empíricamente estas tres hipótesis que explican la capacidad de los LLMs para aprender en contexto con una serie de experimentos derivados de tareas comunes de clasificación de texto. Invalidamos las dos primeras hipótesis con contraejemplos y proporcionamos evidencia que apoya la última hipótesis. Nuestros resultados sugieren que un LLM podría aprender una tarea novedosa en contexto mediante la composición de tareas aprendidas durante el preentrenamiento.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiaoda Li
Yifan Hou
Mrinmaya Sachan
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e65e37b6db6435875ecd92 — DOI: https://doi.org/10.48550/arxiv.2406.04216
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: