March 19, 2024Open Access

Pragmatische Kompetenzbewertung großer Sprachmodelle für Koreanisch

Key Points

Key points are not available for this paper at this time.

Abstract

Die aktuelle Bewertung großer Sprachmodelle (LLMs) basiert überwiegend auf Benchmarks, die ihr eingebettetes Wissen durch Multiple-Choice-Fragen (MCQs) testen, ein Format, das sich von Natur aus für automatisierte Bewertungen eignet. Unsere Studie erweitert diese Bewertung und untersucht die pragmatische Kompetenz von LLMs – einen Aspekt, der vor dem Aufkommen hochentwickelter LLMs bisher wenig beachtet wurde, insbesondere im Kontext des Koreanischen. Wir verwenden zwei unterschiedliche Bewertungsszenarien: das konventionelle MCQ-Format, angepasst für automatische Bewertungen, und offene Fragen (OEQs), die von menschlichen Experten beurteilt werden, um die Fähigkeit der LLMs zu narrativen Antworten ohne vorgegebene Antwortmöglichkeiten zu prüfen. Unsere Ergebnisse zeigen, dass GPT-4 mit 81,11 bzw. 85,69 Punkten in den MCQ- und OEQ-Szenarien herausragt, wobei HyperCLOVA X, ein für Koreanisch optimiertes LLM, besonders im OEQ-Setup mit 81,56 Punkten dicht folgt und mit einem geringen Unterschied von 4,13 Punkten zu GPT-4 aufwartet. Zudem verbessern Few-Shot-Learning-Strategien generell die Leistung der LLMs, während Chain-of-Thought (CoT)-Prompting eine Verzerrung hin zu wörtlichen Interpretationen einführt, die eine präzise pragmatische Schlussfolgerung behindert. Angesichts der steigenden Erwartungen, dass LLMs Sprache verstehen und erzeugen, die mit menschlichen kommunikativen Normen übereinstimmt, unterstreichen unsere Ergebnisse die Bedeutung der Weiterentwicklung der Fähigkeiten von LLMs, komplexe Bedeutungen jenseits bloßer wörtlicher Interpretation zu erfassen und zu vermitteln.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dojun Park

Jiwoo Lee

Hyeyun Jeong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Pragmatische Kompetenzbewertung großer Sprachmodelle für Koreanisch

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider