Bewertung großer Sprachmodelle bei biomedizinischen Data-Science-Herausforderungen durch ein Klassenzimmer-Experiment | Synapse