Key points are not available for this paper at this time.
Le fine-tuning supervisé (SFT), le réglage par instruction supervisée (SIT) et l'apprentissage en contexte (ICL) sont trois approches alternatives, devenues des standards de facto pour l'apprentissage few-shot. L'ICL a gagné en popularité récemment avec l'avènement des LLM en raison de sa simplicité et de son efficacité en termes d'échantillons. Des recherches antérieures ont mené une investigation limitée sur la manière dont ces approches fonctionnent pour l'apprentissage few-shot multilingue, en se concentrant principalement sur leurs performances. Dans ce travail, nous présentons une comparaison approfondie et systématique des trois approches, en les testant sur 6 langues à haute et faible ressources, trois tâches différentes de NLU et une multitude de configurations de langues et de domaines. Il est important de noter que la performance n'est qu'un aspect de la comparaison, où nous analysons également les approches sous l'angle de leurs coûts computationnels, d'inférence et financiers. Nos observations montrent que le réglage par instruction supervisée offre le meilleur compromis entre performances et besoins en ressources. En outre, nous analysons l’impact de l’adaptation à la langue cible des LLM préentraînés et constatons que les approches d’adaptation standard peuvent (superficiellement) améliorer les capacités de génération dans la langue cible, mais la compréhension linguistique obtenue via l’ICL ne s'améliore pas et reste limitée, avec des scores particulièrement faibles pour les langues à faibles ressources.
Building similarity graph...
Analyzing shared references across papers
Loading...
Evgeniia Razumovskaia
Ivan Vulić
Anna Korhonen
Building similarity graph...
Analyzing shared references across papers
Loading...
Razumovskaia et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e75ddfb6db6435876d50cf — DOI: https://doi.org/10.48550/arxiv.2403.01929
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: