Key points are not available for this paper at this time.
Prompting und Multiple-Choice-Fragen (MCQ) sind aufgrund ihrer einfachen Handhabung und Auswertung zum bevorzugten Ansatz geworden, um die Fähigkeiten großer Sprachmodelle (LLMs) zu bewerten. Solche experimentellen Bewertungen deuten auf die offensichtliche Fähigkeit der LLMs hin, kausales Denken zu leisten oder Unsicherheit zu erfassen. In dieser Arbeit untersuchen wir, ob diese Fähigkeiten auch außerhalb maßgeschneiderter Prompts und MCQs messbar sind, indem wir diese Fragestellungen als direkte Textvervollständigung – die Grundlage von LLMs – neu formulieren. Zu diesem Zweck definieren wir Szenarien mit mehreren möglichen Ergebnissen und vergleichen die durch Prompting vom LLM getroffene Vorhersage (ihre angegebene Antwort) mit den Wahrscheinlichkeitsverteilungen, die sie während der Vorhersage des nächsten Tokens über diese Ergebnisse berechnen (ihre offenbarten Überzeugungen). Unsere Ergebnisse legen nahe, dass die offenbarten Überzeugungen der LLMs signifikant von ihren angegebenen Antworten abweichen und auf mehrere Verzerrungen und Fehldarstellungen hinweisen, die ihre Überzeugungen in vielen Szenarien und Ergebnissen verursachen können. Da Textvervollständigung im Kern der LLMs steht, deuten diese Ergebnisse darauf hin, dass gängige Bewertungsmethoden möglicherweise nur ein partielles Bild liefern und weitere Forschung erforderlich ist, um das Ausmaß und die Natur ihrer Fähigkeiten zu bewerten.
Building similarity graph...
Analyzing shared references across papers
Loading...
Manuel Mondal
Ljiljana Dolamic
Gérôme Bovet
Building similarity graph...
Analyzing shared references across papers
Loading...
Mondal et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e63e20b6db6435875cfa06 — DOI: https://doi.org/10.48550/arxiv.2406.14986
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: