What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Entwirrung von Rückruf und Schlussfolgerung in Transformermodellen durch schichtweise Analyse von Aufmerksamkeit und Aktivierung

Key Points

Rückruf und Schlussfolgerung in Transformern operieren über unterschiedliche Schaltkreise, was zu spezifischen Aufgabeneinschränkungen führt.
Gezielte Eingriffe in verschiedene Schichten und Köpfe führten zu einer 15%igen Verringerung der Genauigkeit bei Rückrufaufgaben.
Die Analyse umfasste kontrollierte Datensätze und kausale Messungen, um die Komplexität der Modellkognition zu erforschen.
Die Ergebnisse verbessern die Interpretierbarkeit, indem sie die Transformer-Architektur mit funktionalen Rollen und Sicherheit bei der Bereitstellung verknüpfen.

Abstract

Transformatorbasierte Sprachmodelle zeichnen sich sowohl im Rückruf (Abrufen gespeicherter Fakten) als auch im Schlussfolgern (durchführen mehrstufiger Inferenz) aus, doch ist unklar, ob diese Fähigkeiten auf unterschiedlichen internen Mechanismen beruhen. Die Unterscheidung zwischen Rückruf und Schlussfolgerung ist entscheidend, um die Generalisierung des Modells vorherzusagen, gezielte Bewertungen zu entwerfen und sicherere Eingriffe zu entwickeln, die eine Fähigkeit beeinflussen, ohne die andere zu beeinträchtigen. Wir nähern uns dieser Fragestellung durch mechanistische Interpretierbarkeit und verwenden kontrollierte Datensätze synthetischer sprachlicher Rätsel, um Transformermodelle auf Schicht-, Kopf- und Neuronenebene zu untersuchen. Unsere Pipeline kombiniert Aktivierungspatching und strukturierte Ablationen, um kausal die Beiträge einzelner Komponenten zu jedem Aufgabentyp zu messen. Über zwei Modellfamilien (Qwen und LLaMA) hinweg fanden wir, dass Eingriffe in verschiedene Schichten und Aufmerksamkeitsköpfe zu selektiven Beeinträchtigungen führen: Das Deaktivieren identifizierter "Rückruf-Schaltkreise" reduziert die Genauigkeit beim Faktenabruf um bis zu 15 %, während Schlussfolgerungen unberührt bleiben, während das Deaktivieren von "Schlussfolgerungs-Schaltkreisen" die mehrstufige Inferenz in ähnlichem Ausmaß verringert. Auf Neuronenebene beobachten wir aufgabenspezifische Aktivierungsmuster, obwohl diese Effekte weniger robust sind, was mit neuronalem Polysemantizismus übereinstimmt. Unsere Ergebnisse liefern den ersten kausalen Nachweis, dass Rückruf und Schlussfolgerung auf getrennten, aber interagierenden Schaltkreisen in Transformermodellen beruhen. Diese Erkenntnisse fördern die mechanistische Interpretierbarkeit durch Verknüpfung der Schaltkreisebene mit funktionaler Spezialisierung und zeigen, wie kontrollierte Datensätze und kausale Interventionen mechanistische Einblicke in die Modellkognition liefern können, was für eine sicherere Bereitstellung großer Sprachmodelle relevant ist.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Harshwardhan Fartale

Ashish Kattamuri

Ramalingam Raja

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Entwirrung von Rückruf und Schlussfolgerung in Transformermodellen durch schichtweise Analyse von Aufmerksamkeit und Aktivierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider