Key points are not available for this paper at this time.
Die aktuelle Bewertung großer Sprachmodelle (LLMs) basiert überwiegend auf Benchmarks, die ihr eingebettetes Wissen durch Multiple-Choice-Fragen (MCQs) testen, ein Format, das sich von Natur aus für automatisierte Bewertungen eignet. Unsere Studie erweitert diese Bewertung und untersucht die pragmatische Kompetenz von LLMs – einen Aspekt, der vor dem Aufkommen hochentwickelter LLMs bisher wenig beachtet wurde, insbesondere im Kontext des Koreanischen. Wir verwenden zwei unterschiedliche Bewertungsszenarien: das konventionelle MCQ-Format, angepasst für automatische Bewertungen, und offene Fragen (OEQs), die von menschlichen Experten beurteilt werden, um die Fähigkeit der LLMs zu narrativen Antworten ohne vorgegebene Antwortmöglichkeiten zu prüfen. Unsere Ergebnisse zeigen, dass GPT-4 mit 81,11 bzw. 85,69 Punkten in den MCQ- und OEQ-Szenarien herausragt, wobei HyperCLOVA X, ein für Koreanisch optimiertes LLM, besonders im OEQ-Setup mit 81,56 Punkten dicht folgt und mit einem geringen Unterschied von 4,13 Punkten zu GPT-4 aufwartet. Zudem verbessern Few-Shot-Learning-Strategien generell die Leistung der LLMs, während Chain-of-Thought (CoT)-Prompting eine Verzerrung hin zu wörtlichen Interpretationen einführt, die eine präzise pragmatische Schlussfolgerung behindert. Angesichts der steigenden Erwartungen, dass LLMs Sprache verstehen und erzeugen, die mit menschlichen kommunikativen Normen übereinstimmt, unterstreichen unsere Ergebnisse die Bedeutung der Weiterentwicklung der Fähigkeiten von LLMs, komplexe Bedeutungen jenseits bloßer wörtlicher Interpretation zu erfassen und zu vermitteln.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dojun Park
Jiwoo Lee
Hyeyun Jeong
Building similarity graph...
Analyzing shared references across papers
Loading...
Park et al. (Di,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7362fb6db6435876b02cd — DOI: https://doi.org/10.48550/arxiv.2403.12675
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: