March 21, 2024Open Access

Auf Aufmerksamkeit basierendes Denken: Das Potenzial großer Sprachmodelle erschließen

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Denkfähigkeiten und zugrunde liegenden Mechanismen sind noch wenig verstanden. Wir stellen einen neuartigen Ansatz vor, um das Denken von LLMs durch Optimierung des Aufmerksamkeitsmechanismus zu verbessern, ohne zusätzliche Trainingsdaten zu benötigen. Wir identifizieren Ineffizienzen in der Aufmerksamkeitsverteilung, verursacht durch nicht-semantische Tokens, und schlagen einen Algorithmus vor, um die verzerrte Verteilung auszugleichen, wodurch das Modell abstrakteres, nuancierteres Wissen erfassen kann. Unsere Experimente zeigen deutlich verbesserte Denkfähigkeiten, insbesondere bei nicht-naturwissenschaftlichen Fragen. Wir liefern Einblicke in die Rolle von Aufmerksamkeitsmustern beim Denken von LLMs und schlagen eine Methode vor, diese Fähigkeiten zu stärken, was den Weg für leistungsfähigere und vielseitigere Sprachmodelle ebnet.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bingli Liao

Danilo Vasconcellos Vargas

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Auf Aufmerksamkeit basierendes Denken: Das Potenzial großer Sprachmodelle erschließen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider