Key points are not available for this paper at this time.
Dieses Papier untersucht die Zuverlässigkeit von Erklärungen, die von großen Sprachmodellen (LLMs) generiert werden, wenn sie aufgefordert werden, ihre vorherige Ausgabe zu erklären. Wir bewerten zwei Arten solcher Selbsterklärungen – extraktive und kontrafaktische – unter Verwendung von drei hochmodernen LLMs (2B bis 8B Parameter) bei zwei verschiedenen Klassifizierungsaufgaben (objektiv und subjektiv). Unsere Ergebnisse zeigen, dass diese Selbsterklärungen zwar mit menschlichen Urteilen korrelieren können, sie jedoch den Entscheidungsprozess des Modells nicht vollständig und genau widerspiegeln, was auf eine Differenz zwischen wahrgenommener und tatsächlicher Modellbegründung hinweist. Wir zeigen, dass diese Lücke überbrückt werden kann, da das Abfragen von LLMs nach kontrafaktischen Erklärungen treue, informative und leicht überprüfbare Ergebnisse liefern kann. Diese kontrafaktischen Erklärungen bieten eine vielversprechende Alternative zu traditionellen Erklärbarkeitsmethoden (z.B. SHAP, LIME), vorausgesetzt, die Eingabeaufforderungen sind auf spezifische Aufgaben zugeschnitten und auf Gültigkeit geprüft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Korbinian Randl
John Pavlopoulos
Aron Henriksson
Building similarity graph...
Analyzing shared references across papers
Loading...
Randl et al. (Fri,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e5fc83b6db643587590c4d — DOI: https://doi.org/10.48550/arxiv.2407.14487
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: