Feinabstimmung oder Fehlschlag? Aufdeckung von Leistungsmythen bei großen Sprachmodellen | Synapse