Key points are not available for this paper at this time.
In-Context Learning (ICL) ermöglicht es großen Sprachmodellen (LLMs), eine schnelle Aufgabenanpassung durch Lernen aus Demonstrationen zu erreichen. Mit der Zunahme der verfügbaren Kontextlänge von LLMs haben jüngste Experimente gezeigt, dass die Leistung von ICL in vielen Schuss-Demonstrationseinstellungen nicht unbedingt gut skaliert. Wir bestätigen theoretisch und experimentell, dass der Grund darin liegt, dass mehr Demonstrationen die Modellaufmerksamkeit von der Abfrage ablenken und somit das Verständnis des Schlüsselinhalts behindern. Inspiriert davon, wie Menschen aus Beispielen lernen, schlagen wir eine trainingsfreie Methode namens FocusICL vor, die eine Trivialisierungsfilterung durchführt, um zu vermeiden, dass die Aufmerksamkeit auf unwichtige Inhalte auf Token-Ebene abgelenkt wird, und die hierarchische Aufmerksamkeit betreibt, um auf Demonstrationsebene eine ausreichende Aufmerksamkeit auf die aktuelle Abfrage sicherzustellen. Wir entwickeln außerdem eine effiziente Hyperparameter-Suchstrategie für FocusICL basierend auf der Modellperplexität der Demonstrationen. Umfassende Experimente bestätigen, dass FocusICL eine durchschnittliche Leistungsverbesserung von 5,2 % gegenüber dem Vanilla-ICL erreicht und gut mit Many-Shot-Demonstrationen skaliert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peiwen Yuan
Shaoxiong Feng
Yiwei Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e5b027b6db643587549d42 — DOI: https://doi.org/10.48550/arxiv.2408.13987
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: