May 24, 2021Open Access

Apprentissage véritablement peu supervisé avec les modèles de langage

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles de langage préentraînés (LM) obtiennent de bons résultats sur de nombreuses tâches même lorsqu'ils apprennent à partir de quelques exemples, mais les travaux antérieurs utilisent de nombreux exemples mis de côté pour ajuster divers aspects de l'apprentissage, tels que les hyperparamètres, les objectifs d'entraînement et les modèles de langage naturel (« invites »). Ici, nous évaluons la capacité d'apprentissage peu supervisé des LM lorsqu'aucun de ces exemples mis de côté n'est disponible, un cadre que nous appelons apprentissage véritablement peu supervisé. Nous testons deux critères de sélection de modèle, la validation croisée et la longueur minimale de description, pour choisir les invites et hyperparamètres des LM dans ce cadre. En moyenne, les deux surpassent marginalement une sélection aléatoire mais sous-performent grandement une sélection basée sur des exemples mis de côté. De plus, ces critères de sélection préfèrent souvent des modèles qui performent significativement moins bien que des modèles choisis aléatoirement. Nous trouvons des résultats similaires même en tenant compte de notre incertitude sur la performance réelle d'un modèle pendant la sélection, ainsi qu'en faisant varier la quantité de calcul et le nombre d'exemples utilisés pour la sélection. Globalement, nos découvertes suggèrent que les travaux antérieurs ont significativement surestimé la vraie capacité d'apprentissage peu supervisé des LM compte tenu de la difficulté de la sélection de modèle dans ce contexte.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ethan Perez

Douwe Kiela

Kyunghyun Cho

Actions

Institutions

Supélec

University of Applied Sciences and Arts of Southern Switzerland

Shandong University of Political Science and Law

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Apprentissage véritablement peu supervisé avec les modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider