Key points are not available for this paper at this time.
L'apprentissage en contexte (ICL) permet aux grands modèles de langage (LLM) d'adapter rapidement une tâche en apprenant à partir de démonstrations. Avec l'augmentation de la longueur de contexte disponible des LLM, des expériences récentes ont montré que la performance de l'ICL ne s'améliore pas nécessairement dans les configurations avec de nombreuses démonstrations. Nous confirmons théoriquement et expérimentalement que la raison réside dans la dispersion de l'attention du modèle sur les démonstrations, ce qui nuit à sa compréhension du contenu clé de la requête. Inspirés par la façon dont les humains apprennent par exemples, nous proposons une méthode sans entraînement FocusICL, qui réalise un filtrage de trivialité pour éviter que l'attention soit détournée par des contenus peu importants au niveau des tokens et met en œuvre une attention hiérarchique pour garantir une attention suffisante envers la requête actuelle au niveau des démonstrations. Nous concevons aussi une stratégie efficace de recherche d'hyperparamètres pour FocusICL basée sur la perplexité du modèle vis-à-vis des démonstrations. Des expériences approfondies confirment que FocusICL améliore en moyenne la performance de 5,2 % par rapport à l'ICL basique et évolue bien quand le nombre de démonstrations est élevé.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peiwen Yuan
Shaoxiong Feng
Yiwei Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan et al. (Sun,) ont étudié cette question.
www.synapsesocial.com/papers/68e5b027b6db643587549d42 — DOI: https://doi.org/10.48550/arxiv.2408.13987
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: