Key points are not available for this paper at this time.
L'ajustement fin de grands modèles pré-entraînés est un mécanisme de transfert efficace en TALN. Cependant, en présence de nombreuses tâches en aval, l'ajustement fin est inefficace en paramètres : un nouveau modèle complet est nécessaire pour chaque tâche. En alternative, nous proposons le transfert avec des modules adaptateurs. Les modules adaptateurs fournissent un modèle compact et extensible ; ils ajoutent seulement quelques paramètres entraînables par tâche, et de nouvelles tâches peuvent être ajoutées sans revisiter les précédentes. Les paramètres du réseau original restent fixes, assurant un haut degré de partage des paramètres. Pour démontrer l'efficacité des adaptateurs, nous transférons le modèle Transformer BERT récemment proposé à 26 tâches diverses de classification de texte, y compris la référence GLUE. Les adaptateurs atteignent des performances proches de l'état de l'art, tout en ajoutant seulement quelques paramètres par tâche. Sur GLUE, nous atteignons à moins de 0,4 % des performances de l'ajustement fin complet, ajoutant seulement 3,6 % de paramètres par tâche. En revanche, l'ajustement fin entraîne 100 % des paramètres par tâche.
Building similarity graph...
Analyzing shared references across papers
Loading...
Neil Houlsby
Andrei Giurgiu
Stanisław Jastrzȩbski
Université de Montréal
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Houlsby et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/6a0947ef0e219f8cdd33f325 — DOI: https://doi.org/10.48550/arxiv.1902.00751
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: