Key points are not available for this paper at this time.
Modelos de linguagem pré-treinados (LMs) apresentam bom desempenho em muitas tarefas mesmo quando aprendem a partir de poucos exemplos, mas trabalhos anteriores utilizam muitos exemplos retidos para ajustar vários aspectos do aprendizado, como hiperparâmetros, objetivos de treinamento e templates de linguagem natural ("prompts"). Aqui, avaliamos a capacidade few-shot dos LMs quando tais exemplos retidos não estão disponíveis, uma configuração que chamamos de true few-shot learning. Testamos dois critérios de seleção de modelo, validação cruzada e comprimento mínimo da descrição, para escolha de prompts e hiperparâmetros do LM no cenário true few-shot. Em média, ambos apresentam desempenho marginalmente superior à seleção aleatória e muito inferior à seleção baseada em exemplos retidos. Além disso, critérios de seleção frequentemente preferem modelos que apresentam desempenho significativamente pior do que os selecionados aleatoriamente. Encontramos resultados similares mesmo levando em conta nossa incerteza sobre o desempenho real de um modelo durante a seleção, bem como ao variar a quantidade de computação e o número de exemplos usados para seleção. No geral, nossos achados sugerem que trabalhos anteriores superestimaram significativamente a verdadeira capacidade few-shot dos LMs, dado a dificuldade da seleção de modelo few-shot.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ethan Perez
Douwe Kiela
Kyunghyun Cho
Supélec
University of Applied Sciences and Arts of Southern Switzerland
Shandong University of Political Science and Law
Building similarity graph...
Analyzing shared references across papers
Loading...
Perez et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/6a085abd1e0fcf4a43e8bc5c — DOI: https://doi.org/10.48550/arxiv.2105.11447
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: