March 5, 2024Open Access

Eine empirische Studie zu LLM-als-Richter für LLM-Bewertungen: Feinabgestimmte Richter-Modelle sind aufgabenspezifische Klassifikatoren

Key Points

Key points are not available for this paper at this time.

Abstract

In letzter Zeit gibt es einen wachsenden Trend, große Sprachmodelle (LLM) zur Bewertung der Qualität anderer LLMs einzusetzen. Viele Studien haben proprietäre Closed-Source-Modelle, insbesondere GPT4, als Bewerter verwendet. Alternativ haben andere Arbeiten feinabgestimmte Richter-Modelle, basierend auf Open-Source-LLMs, als Bewerter eingesetzt. In dieser Studie führen wir eine empirische Untersuchung verschiedener Richter-Modelle hinsichtlich ihrer Bewertungskapazität durch. Unsere Ergebnisse zeigen, dass obwohl die feinabgestimmten Richter-Modelle auf Domänen-spezifischen Testdatensätzen eine hohe Genauigkeit erreichen und dabei sogar GPT4 übertreffen, sie im Kern aufgabenspezifische Klassifikatoren sind und deren Generalisierbarkeit sowie Fairness deutlich hinter GPT4 zurückbleiben.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hui Huang

Yingqi Qu

Jing Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Eine empirische Studie zu LLM-als-Richter für LLM-Bewertungen: Feinabgestimmte Richter-Modelle sind aufgabenspezifische Klassifikatoren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study