Key points are not available for this paper at this time.
In letzter Zeit gibt es einen wachsenden Trend, große Sprachmodelle (LLM) zur Bewertung der Qualität anderer LLMs einzusetzen. Viele Studien haben proprietäre Closed-Source-Modelle, insbesondere GPT4, als Bewerter verwendet. Alternativ haben andere Arbeiten feinabgestimmte Richter-Modelle, basierend auf Open-Source-LLMs, als Bewerter eingesetzt. In dieser Studie führen wir eine empirische Untersuchung verschiedener Richter-Modelle hinsichtlich ihrer Bewertungskapazität durch. Unsere Ergebnisse zeigen, dass obwohl die feinabgestimmten Richter-Modelle auf Domänen-spezifischen Testdatensätzen eine hohe Genauigkeit erreichen und dabei sogar GPT4 übertreffen, sie im Kern aufgabenspezifische Klassifikatoren sind und deren Generalisierbarkeit sowie Fairness deutlich hinter GPT4 zurückbleiben.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hui Huang
Yingqi Qu
Jing Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (Di,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e758cbb6db6435876d0938 — DOI: https://doi.org/10.48550/arxiv.2403.02839