Transformatorbasierte Sprachmodelle zeichnen sich sowohl im Rückruf (Abrufen gespeicherter Fakten) als auch im Schlussfolgern (durchführen mehrstufiger Inferenz) aus, doch ist unklar, ob diese Fähigkeiten auf unterschiedlichen internen Mechanismen beruhen. Die Unterscheidung zwischen Rückruf und Schlussfolgerung ist entscheidend, um die Generalisierung des Modells vorherzusagen, gezielte Bewertungen zu entwerfen und sicherere Eingriffe zu entwickeln, die eine Fähigkeit beeinflussen, ohne die andere zu beeinträchtigen. Wir nähern uns dieser Fragestellung durch mechanistische Interpretierbarkeit und verwenden kontrollierte Datensätze synthetischer sprachlicher Rätsel, um Transformermodelle auf Schicht-, Kopf- und Neuronenebene zu untersuchen. Unsere Pipeline kombiniert Aktivierungspatching und strukturierte Ablationen, um kausal die Beiträge einzelner Komponenten zu jedem Aufgabentyp zu messen. Über zwei Modellfamilien (Qwen und LLaMA) hinweg fanden wir, dass Eingriffe in verschiedene Schichten und Aufmerksamkeitsköpfe zu selektiven Beeinträchtigungen führen: Das Deaktivieren identifizierter "Rückruf-Schaltkreise" reduziert die Genauigkeit beim Faktenabruf um bis zu 15 %, während Schlussfolgerungen unberührt bleiben, während das Deaktivieren von "Schlussfolgerungs-Schaltkreisen" die mehrstufige Inferenz in ähnlichem Ausmaß verringert. Auf Neuronenebene beobachten wir aufgabenspezifische Aktivierungsmuster, obwohl diese Effekte weniger robust sind, was mit neuronalem Polysemantizismus übereinstimmt. Unsere Ergebnisse liefern den ersten kausalen Nachweis, dass Rückruf und Schlussfolgerung auf getrennten, aber interagierenden Schaltkreisen in Transformermodellen beruhen. Diese Erkenntnisse fördern die mechanistische Interpretierbarkeit durch Verknüpfung der Schaltkreisebene mit funktionaler Spezialisierung und zeigen, wie kontrollierte Datensätze und kausale Interventionen mechanistische Einblicke in die Modellkognition liefern können, was für eine sicherere Bereitstellung großer Sprachmodelle relevant ist.
Building similarity graph...
Analyzing shared references across papers
Loading...
Harshwardhan Fartale
Ashish Kattamuri
Ramalingam Raja
Building similarity graph...
Analyzing shared references across papers
Loading...
Fartale et al. (Freitag,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4be4 — DOI: https://doi.org/10.48550/arxiv.2510.03366
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: