Key points are not available for this paper at this time.
Menschen beschäftigen sich regelmäßig mit analogem Denken, indem sie persönliche Erfahrungen auf aktuelle Situationen beziehen (X ist Y analog aufgrund von Z). Analoges Denken ermöglicht es Menschen, Probleme kreativ zu lösen, schwierige Konzepte zu erfassen und Ideen effektiver zu artikulieren. Können Sprachmodelle (LMs) dasselbe tun? Um diese Frage zu beantworten, schlagen wir ANALOBENCH vor, einen Benchmark zur Bestimmung der analogischen Denkfähigkeit von LMs. Unser Benchmark-Ansatz konzentriert sich auf Aspekte dieser Fähigkeit, die unter Menschen häufig vorkommen: (i) das Erinnern verwandter Erfahrungen aus einer großen Informationsmenge und (ii) die Anwendung analoger Überlegungen auf komplexe und umfangreiche Szenarien. Wir testen eine breite Sammlung proprietärer Modelle (z. B. GPT-Familie, Claude V2) und Open-Source-Modelle wie LLaMA2. Wie frühere Ergebnisse zeigen, führt eine Skalierung der LMs zu einigen Leistungssteigerungen. Überraschenderweise bietet die Skalierung minimale Vorteile, wenn (i) Analogien umfangreiche Szenarien beinhalten oder (ii) relevante Szenarien aus einem großen Informationspool abgerufen werden müssen – ein Prozess, der dem Finden einer Nadel im Heuhaufen ähnelt. Wir hoffen, dass diese Beobachtungen weitere Forschungen auf diesem Gebiet anregen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ye Xiao
Andrew Wang
Jacob Choi
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiao et al. (Mon,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e78a60b6db6435876fcda8 — DOI: https://doi.org/10.48550/arxiv.2402.12370