July 19, 2024Open Access

Bewertung der Zuverlässigkeit von Selbsterklärungen in großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Dieses Papier untersucht die Zuverlässigkeit von Erklärungen, die von großen Sprachmodellen (LLMs) generiert werden, wenn sie aufgefordert werden, ihre vorherige Ausgabe zu erklären. Wir bewerten zwei Arten solcher Selbsterklärungen – extraktive und kontrafaktische – unter Verwendung von drei hochmodernen LLMs (2B bis 8B Parameter) bei zwei verschiedenen Klassifizierungsaufgaben (objektiv und subjektiv). Unsere Ergebnisse zeigen, dass diese Selbsterklärungen zwar mit menschlichen Urteilen korrelieren können, sie jedoch den Entscheidungsprozess des Modells nicht vollständig und genau widerspiegeln, was auf eine Differenz zwischen wahrgenommener und tatsächlicher Modellbegründung hinweist. Wir zeigen, dass diese Lücke überbrückt werden kann, da das Abfragen von LLMs nach kontrafaktischen Erklärungen treue, informative und leicht überprüfbare Ergebnisse liefern kann. Diese kontrafaktischen Erklärungen bieten eine vielversprechende Alternative zu traditionellen Erklärbarkeitsmethoden (z.B. SHAP, LIME), vorausgesetzt, die Eingabeaufforderungen sind auf spezifische Aufgaben zugeschnitten und auf Gültigkeit geprüft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Korbinian Randl

John Pavlopoulos

Aron Henriksson

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bewertung der Zuverlässigkeit von Selbsterklärungen in großen Sprachmodellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider