Bewertung der Leistungsfähigkeit großer Sprachmodelle durch Debatten | Synapse