March 4, 2024Open Access

Analyse et adaptation des grands modèles de langage pour la NLU multilingue en mode few-shot : en sommes-nous là ?

Key Points

Key points are not available for this paper at this time.

Abstract

Le fine-tuning supervisé (SFT), le réglage par instruction supervisée (SIT) et l'apprentissage en contexte (ICL) sont trois approches alternatives, devenues des standards de facto pour l'apprentissage few-shot. L'ICL a gagné en popularité récemment avec l'avènement des LLM en raison de sa simplicité et de son efficacité en termes d'échantillons. Des recherches antérieures ont mené une investigation limitée sur la manière dont ces approches fonctionnent pour l'apprentissage few-shot multilingue, en se concentrant principalement sur leurs performances. Dans ce travail, nous présentons une comparaison approfondie et systématique des trois approches, en les testant sur 6 langues à haute et faible ressources, trois tâches différentes de NLU et une multitude de configurations de langues et de domaines. Il est important de noter que la performance n'est qu'un aspect de la comparaison, où nous analysons également les approches sous l'angle de leurs coûts computationnels, d'inférence et financiers. Nos observations montrent que le réglage par instruction supervisée offre le meilleur compromis entre performances et besoins en ressources. En outre, nous analysons l’impact de l’adaptation à la langue cible des LLM préentraînés et constatons que les approches d’adaptation standard peuvent (superficiellement) améliorer les capacités de génération dans la langue cible, mais la compréhension linguistique obtenue via l’ICL ne s'améliore pas et reste limitée, avec des scores particulièrement faibles pour les langues à faibles ressources.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Evgeniia Razumovskaia

Ivan Vulić

Anna Korhonen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Analyse et adaptation des grands modèles de langage pour la NLU multilingue en mode few-shot : en sommes-nous là ?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider