Key points are not available for this paper at this time.
Obwohl große Sprachmodelle häufig beeindruckende Ergebnisse liefern, ist unklar, wie sie in realistischen Szenarien mit hohen Anforderungen an logisches Denken und Expertenwissen abschneiden. Wir untersuchten, ob Closed- und Open-Source-Modelle (GPT-3.5, Llama 2 usw.) zur Beantwortung und zum logischen Durchdringen schwieriger realitätsbasierter Fragen eingesetzt werden können. Wir konzentrieren uns auf drei populäre medizinische Benchmarks (MedQA-US Medical Licensing Examination USMLE, MedMCQA und PubMedQA) und verschiedene Prompting-Szenarien: Chain of Thought (CoT; schrittweises Nachdenken), Few-Shot und Retrieval-Augmentation. Basierend auf einer Expertenannotation der generierten CoTs stellten wir fest, dass InstructGPT häufig lesen, logisch schlussfolgern und Expertenwissen abrufen kann. Schließlich zeigten wir unter Ausnutzung aktueller Fortschritte im Prompt-Engineering (Few-Shot- und Ensemble-Methoden), dass GPT-3.5 nicht nur kalibrierte Vorhersageverteilungen liefert, sondern auch die Bestehensgrenze in drei Datensätzen erreicht: MedQA-USMLE (60,2 %), MedMCQA (62,7 %) und PubMedQA (78,2 %). Open-Source-Modelle verringern die Lücke: Llama 2 70B bestand ebenfalls die MedQA-USMLE mit 62,5 % Genauigkeit.
Building similarity graph...
Analyzing shared references across papers
Loading...
Valentin Liévin
Christoffer Hother
Andreas Geert Motzfeldt
Patterns
University of Copenhagen
Technical University of Denmark
Rigshospitalet
Building similarity graph...
Analyzing shared references across papers
Loading...
Liévin et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7604eb6db6435876d7490 — DOI: https://doi.org/10.1016/j.patter.2024.100943
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: