Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Denkfähigkeiten und zugrunde liegenden Mechanismen sind noch wenig verstanden. Wir stellen einen neuartigen Ansatz vor, um das Denken von LLMs durch Optimierung des Aufmerksamkeitsmechanismus zu verbessern, ohne zusätzliche Trainingsdaten zu benötigen. Wir identifizieren Ineffizienzen in der Aufmerksamkeitsverteilung, verursacht durch nicht-semantische Tokens, und schlagen einen Algorithmus vor, um die verzerrte Verteilung auszugleichen, wodurch das Modell abstrakteres, nuancierteres Wissen erfassen kann. Unsere Experimente zeigen deutlich verbesserte Denkfähigkeiten, insbesondere bei nicht-naturwissenschaftlichen Fragen. Wir liefern Einblicke in die Rolle von Aufmerksamkeitsmustern beim Denken von LLMs und schlagen eine Methode vor, diese Fähigkeiten zu stärken, was den Weg für leistungsfähigere und vielseitigere Sprachmodelle ebnet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bingli Liao
Danilo Vasconcellos Vargas
Building similarity graph...
Analyzing shared references across papers
Loading...
Liao et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7309eb6db6435876aa85a — DOI: https://doi.org/10.48550/arxiv.2403.14932
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: