Key points are not available for this paper at this time.
Neuere Studien zeigen, dass Selbst-Feedback große Sprachmodelle (LLMs) bei bestimmten Aufgaben verbessert, während es andere Aufgaben verschlechtert. Wir entdeckten, dass dieses Paradoxon auf die Tendenz von LLMs zurückzuführen ist, ihre eigenen Ausgaben zu bevorzugen. In diesem Artikel definieren wir formal den Selbst-Bias von LLMs – die Neigung, ihre eigene Generierung zu favorisieren – anhand von zwei Statistiken. Wir analysierten sechs LLMs bei Übersetzungen, eingeschränkter Textgenerierung und mathematischen Denkaufgaben. Wir fanden heraus, dass Selbst-Bias bei allen untersuchten LLMs über mehrere Sprachen und Aufgaben hinweg verbreitet ist. Unsere Analyse zeigt, dass während die Self-Refine-Pipeline die Flüssigkeit und Verständlichkeit der Modellausgaben verbessert, sie den Selbst-Bias weiter verstärkt. Um solche Verzerrungen zu mindern, entdeckten wir, dass eine größere Modellgröße und externes Feedback mit genauer Bewertung den Bias in der Self-Refine-Pipeline signifikant reduzieren können, was zu tatsächlichen Leistungsverbesserungen in nachgelagerten Aufgaben führt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenda Xu
Guanglei Zhu
Xuandong Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e78cdeb6db6435876fead9 — DOI: https://doi.org/10.48550/arxiv.2402.11436
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: