August 25, 2024Open Access

Les modèles de langage large focalisés sont des apprenants stables en apprentissage par nombreux exemples

Key Points

Key points are not available for this paper at this time.

Abstract

L'apprentissage en contexte (ICL) permet aux grands modèles de langage (LLM) d'adapter rapidement une tâche en apprenant à partir de démonstrations. Avec l'augmentation de la longueur de contexte disponible des LLM, des expériences récentes ont montré que la performance de l'ICL ne s'améliore pas nécessairement dans les configurations avec de nombreuses démonstrations. Nous confirmons théoriquement et expérimentalement que la raison réside dans la dispersion de l'attention du modèle sur les démonstrations, ce qui nuit à sa compréhension du contenu clé de la requête. Inspirés par la façon dont les humains apprennent par exemples, nous proposons une méthode sans entraînement FocusICL, qui réalise un filtrage de trivialité pour éviter que l'attention soit détournée par des contenus peu importants au niveau des tokens et met en œuvre une attention hiérarchique pour garantir une attention suffisante envers la requête actuelle au niveau des démonstrations. Nous concevons aussi une stratégie efficace de recherche d'hyperparamètres pour FocusICL basée sur la perplexité du modèle vis-à-vis des démonstrations. Des expériences approfondies confirment que FocusICL améliore en moyenne la performance de 5,2 % par rapport à l'ICL basique et évolue bien quand le nombre de démonstrations est élevé.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Peiwen Yuan

Shaoxiong Feng

Yiwei Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Les modèles de langage large focalisés sont des apprenants stables en apprentissage par nombreux exemples

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider