February 19, 2024Open Access

AnaloBench: Benchmarking der Identifikation von abstrakten und langkontextuellen Analogien

Key Points

Key points are not available for this paper at this time.

Abstract

Menschen beschäftigen sich regelmäßig mit analogem Denken, indem sie persönliche Erfahrungen auf aktuelle Situationen beziehen (X ist Y analog aufgrund von Z). Analoges Denken ermöglicht es Menschen, Probleme kreativ zu lösen, schwierige Konzepte zu erfassen und Ideen effektiver zu artikulieren. Können Sprachmodelle (LMs) dasselbe tun? Um diese Frage zu beantworten, schlagen wir ANALOBENCH vor, einen Benchmark zur Bestimmung der analogischen Denkfähigkeit von LMs. Unser Benchmark-Ansatz konzentriert sich auf Aspekte dieser Fähigkeit, die unter Menschen häufig vorkommen: (i) das Erinnern verwandter Erfahrungen aus einer großen Informationsmenge und (ii) die Anwendung analoger Überlegungen auf komplexe und umfangreiche Szenarien. Wir testen eine breite Sammlung proprietärer Modelle (z. B. GPT-Familie, Claude V2) und Open-Source-Modelle wie LLaMA2. Wie frühere Ergebnisse zeigen, führt eine Skalierung der LMs zu einigen Leistungssteigerungen. Überraschenderweise bietet die Skalierung minimale Vorteile, wenn (i) Analogien umfangreiche Szenarien beinhalten oder (ii) relevante Szenarien aus einem großen Informationspool abgerufen werden müssen – ein Prozess, der dem Finden einer Nadel im Heuhaufen ähnelt. Wir hoffen, dass diese Beobachtungen weitere Forschungen auf diesem Gebiet anregen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ye Xiao

Andrew Wang

Jacob Choi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AnaloBench: Benchmarking der Identifikation von abstrakten und langkontextuellen Analogien

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study