August 25, 2024Open Access

Fokussierte große Sprachmodelle sind stabile Many-Shot-Lerner

Key Points

Key points are not available for this paper at this time.

Abstract

In-Context Learning (ICL) ermöglicht es großen Sprachmodellen (LLMs), eine schnelle Aufgabenanpassung durch Lernen aus Demonstrationen zu erreichen. Mit der Zunahme der verfügbaren Kontextlänge von LLMs haben jüngste Experimente gezeigt, dass die Leistung von ICL in vielen Schuss-Demonstrationseinstellungen nicht unbedingt gut skaliert. Wir bestätigen theoretisch und experimentell, dass der Grund darin liegt, dass mehr Demonstrationen die Modellaufmerksamkeit von der Abfrage ablenken und somit das Verständnis des Schlüsselinhalts behindern. Inspiriert davon, wie Menschen aus Beispielen lernen, schlagen wir eine trainingsfreie Methode namens FocusICL vor, die eine Trivialisierungsfilterung durchführt, um zu vermeiden, dass die Aufmerksamkeit auf unwichtige Inhalte auf Token-Ebene abgelenkt wird, und die hierarchische Aufmerksamkeit betreibt, um auf Demonstrationsebene eine ausreichende Aufmerksamkeit auf die aktuelle Abfrage sicherzustellen. Wir entwickeln außerdem eine effiziente Hyperparameter-Suchstrategie für FocusICL basierend auf der Modellperplexität der Demonstrationen. Umfassende Experimente bestätigen, dass FocusICL eine durchschnittliche Leistungsverbesserung von 5,2 % gegenüber dem Vanilla-ICL erreicht und gut mit Many-Shot-Demonstrationen skaliert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Peiwen Yuan

Shaoxiong Feng

Yiwei Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Fokussierte große Sprachmodelle sind stabile Many-Shot-Lerner

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider