March 1, 2024Open Access

Können große Sprachmodelle medizinische Fragen logisch bearbeiten?

Key Points

Key points are not available for this paper at this time.

Abstract

Obwohl große Sprachmodelle häufig beeindruckende Ergebnisse liefern, ist unklar, wie sie in realistischen Szenarien mit hohen Anforderungen an logisches Denken und Expertenwissen abschneiden. Wir untersuchten, ob Closed- und Open-Source-Modelle (GPT-3.5, Llama 2 usw.) zur Beantwortung und zum logischen Durchdringen schwieriger realitätsbasierter Fragen eingesetzt werden können. Wir konzentrieren uns auf drei populäre medizinische Benchmarks (MedQA-US Medical Licensing Examination USMLE, MedMCQA und PubMedQA) und verschiedene Prompting-Szenarien: Chain of Thought (CoT; schrittweises Nachdenken), Few-Shot und Retrieval-Augmentation. Basierend auf einer Expertenannotation der generierten CoTs stellten wir fest, dass InstructGPT häufig lesen, logisch schlussfolgern und Expertenwissen abrufen kann. Schließlich zeigten wir unter Ausnutzung aktueller Fortschritte im Prompt-Engineering (Few-Shot- und Ensemble-Methoden), dass GPT-3.5 nicht nur kalibrierte Vorhersageverteilungen liefert, sondern auch die Bestehensgrenze in drei Datensätzen erreicht: MedQA-USMLE (60,2 %), MedMCQA (62,7 %) und PubMedQA (78,2 %). Open-Source-Modelle verringern die Lücke: Llama 2 70B bestand ebenfalls die MedQA-USMLE mit 62,5 % Genauigkeit.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Valentin Liévin

Christoffer Hother

Andreas Geert Motzfeldt

Journals

Patterns

Actions

Institutions

University of Copenhagen

Technical University of Denmark

Rigshospitalet

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Liévin et al. (Fri,) untersuchten diese Fragestellung.

www.synapsesocial.com/papers/68e7604eb6db6435876d7490 — DOI: https://doi.org/10.1016/j.patter.2024.100943

Also consider

Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context:

Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering· 2023 · 16 citations
Towards Expert-Level Medical Question Answering with Large Language Models· 2023 · 333 citations

Können große Sprachmodelle medizinische Fragen logisch bearbeiten?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider