June 16, 2024Open Access

Bewertung der Leistungsfähigkeit großer Sprachmodelle durch Debatten

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) entwickeln sich schnell weiter und beeinflussen verschiedene Bereiche, wodurch die Entwicklung effektiver Methoden zur Bewertung und zum Vergleich ihrer Leistung erforderlich ist. Die meisten aktuellen Ansätze zur Leistungsbewertung basieren entweder auf festen, domänenspezifischen Fragen, denen die Flexibilität fehlt, die in vielen realen Anwendungen notwendig ist, bei denen Aufgaben nicht immer aus einer einzigen Domäne stammen, oder sie basieren auf menschlichem Input, was sie nicht skalierbar macht. Wir schlagen einen automatisierten Benchmarking-Rahmen vor, der auf Debatten zwischen LLMs basiert, die von einem weiteren LLM beurteilt werden. Diese Methode bewertet nicht nur das Domänenwissen, sondern auch Fähigkeiten wie Problemdefinition und Erkennung von Inkonsistenzen. Wir evaluieren die Leistung verschiedener moderner LLMs mit dem Debatten-Rahmen und erzielen Ranglisten, die eng mit populären, auf menschlichem Input basierenden Ranglisten übereinstimmen, wodurch kostspieliges menschliches Crowdsourcing entfällt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Behrad Moniri

Hamed Hassani

Edgar Dobriban

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bewertung der Leistungsfähigkeit großer Sprachmodelle durch Debatten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider