Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) entwickeln sich schnell weiter und beeinflussen verschiedene Bereiche, wodurch die Entwicklung effektiver Methoden zur Bewertung und zum Vergleich ihrer Leistung erforderlich ist. Die meisten aktuellen Ansätze zur Leistungsbewertung basieren entweder auf festen, domänenspezifischen Fragen, denen die Flexibilität fehlt, die in vielen realen Anwendungen notwendig ist, bei denen Aufgaben nicht immer aus einer einzigen Domäne stammen, oder sie basieren auf menschlichem Input, was sie nicht skalierbar macht. Wir schlagen einen automatisierten Benchmarking-Rahmen vor, der auf Debatten zwischen LLMs basiert, die von einem weiteren LLM beurteilt werden. Diese Methode bewertet nicht nur das Domänenwissen, sondern auch Fähigkeiten wie Problemdefinition und Erkennung von Inkonsistenzen. Wir evaluieren die Leistung verschiedener moderner LLMs mit dem Debatten-Rahmen und erzielen Ranglisten, die eng mit populären, auf menschlichem Input basierenden Ranglisten übereinstimmen, wodurch kostspieliges menschliches Crowdsourcing entfällt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Behrad Moniri
Hamed Hassani
Edgar Dobriban
Building similarity graph...
Analyzing shared references across papers
Loading...
Moniri et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e64883b6db6435875d9e91 — DOI: https://doi.org/10.48550/arxiv.2406.11044
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: