May 24, 2021Open Access

Aprendizado True Few-Shot com Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem pré-treinados (LMs) apresentam bom desempenho em muitas tarefas mesmo quando aprendem a partir de poucos exemplos, mas trabalhos anteriores utilizam muitos exemplos retidos para ajustar vários aspectos do aprendizado, como hiperparâmetros, objetivos de treinamento e templates de linguagem natural ("prompts"). Aqui, avaliamos a capacidade few-shot dos LMs quando tais exemplos retidos não estão disponíveis, uma configuração que chamamos de true few-shot learning. Testamos dois critérios de seleção de modelo, validação cruzada e comprimento mínimo da descrição, para escolha de prompts e hiperparâmetros do LM no cenário true few-shot. Em média, ambos apresentam desempenho marginalmente superior à seleção aleatória e muito inferior à seleção baseada em exemplos retidos. Além disso, critérios de seleção frequentemente preferem modelos que apresentam desempenho significativamente pior do que os selecionados aleatoriamente. Encontramos resultados similares mesmo levando em conta nossa incerteza sobre o desempenho real de um modelo durante a seleção, bem como ao variar a quantidade de computação e o número de exemplos usados para seleção. No geral, nossos achados sugerem que trabalhos anteriores superestimaram significativamente a verdadeira capacidade few-shot dos LMs, dado a dificuldade da seleção de modelo few-shot.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ethan Perez

Douwe Kiela

Kyunghyun Cho

Actions

Institutions

Supélec

University of Applied Sciences and Arts of Southern Switzerland

Shandong University of Political Science and Law

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizado True Few-Shot com Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider