Los Grandes Modelos de Lenguaje (LLMs) exhiben Aprendizaje en Contexto (ICL), que permite al modelo realizar nuevas tareas condicionándose solo en los ejemplos proporcionados en el contexto sin actualizar los pesos del modelo. Si bien el ICL ofrece una adaptación rápida a través de tareas y dominios del lenguaje natural, su aparición es menos directa para modalidades más allá del texto. En este trabajo, descubrimos sistemáticamente propiedades presentes en los LLMs que apoyan la aparición del ICL para modelos autorregresivos y diversas modalidades promoviendo el aprendizaje de los mecanismos necesarios para el ICL. Identificamos las repeticiones exactas de tokens en las secuencias de datos de entrenamiento como un factor importante para el ICL. Tales repeticiones mejoran además la estabilidad y reducen la transitoriedad en el rendimiento del ICL. Además, enfatizamos la importancia de la dificultad de la tarea de entrenamiento para la aparición del ICL. Finalmente, aplicando nuestros nuevos conocimientos sobre la aparición del ICL, desbloqueamos capacidades de ICL para varios conjuntos de datos visuales y una tarea de clasificación EEG más desafiante.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jelena Bratulić
Sudhanshu Mittal
David T. Hoffmann
Building similarity graph...
Analyzing shared references across papers
Loading...
Bratulić et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e861a57ef2f04ca37e4510 — DOI: https://doi.org/10.48550/arxiv.2501.06256
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: