Key points are not available for this paper at this time.
Large Language Models (LLMs) werden als Few-Shot-Reasoner für die Lösung von Aufgaben im Bereich der natürlichen Sprache (NL) zunehmend attraktiv. Allerdings ist noch vieles darüber zu lernen, wie gut LLMs strukturierte Daten, wie Tabellen, verstehen. Obwohl Tabellen durch Serialisierung als Eingabe für LLMs verwendet werden können, fehlt es an umfassenden Studien, die untersuchen, ob LLMs solche Daten wirklich erfassen können. In diesem Papier versuchen wir, dies zu verstehen, indem wir einen Benchmark entwerfen, um die Fähigkeiten der strukturellen Erfassung (SUC) von LLMs zu evaluieren. Der von uns erstellte Benchmark umfasst sieben Aufgaben, jede mit eigenen Herausforderungen, darunter Zellen-Lookup, Zeilenabruf und Größenbestimmung. Wir führen eine Reihe von Evaluierungen mit GPT-3.5 und GPT-4 durch. Wir stellen fest, dass die Leistung je nach mehreren Eingabeentscheidungen variiert, einschließlich Tabellen-Eingabeformat, Inhaltsreihenfolge, Rollen-Prompting und Teilungsmarken. Aus den gewonnenen Erkenntnissen der Benchmark-Evaluierungen schlagen wir Self-Augmentation für effektives strukturelles Prompting vor, wie z. B. die Identifikation kritischer Werte/Bereiche mittels internem Wissen von LLMs. In Kombination mit sorgfältig ausgewählten Eingabeoptionen führen diese strukturellen Prompting-Methoden zu vielversprechenden Verbesserungen der LLM-Leistung bei einer Vielzahl tabellarischer Aufgaben, darunter TabFact (2,31 %), HybridQA (2,13 %), SQA (2,72 %), Feverous (0,84 %) und ToTTo (5,68 %). Wir sind überzeugt, dass unser Open-Source-Benchmark (Code und Daten unter https://github.com/microsoft/TableProvider) sowie die vorgeschlagenen Prompting-Methoden als einfache, aber generische Grundlage für zukünftige Forschungsarbeiten dienen können.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan Sui
Mengyu Zhou
Mingjie Zhou
University of Hong Kong
National University of Singapore
Chinese University of Hong Kong
Building similarity graph...
Analyzing shared references across papers
Loading...
Sui et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e75b3db6db6435876d2ce3 — DOI: https://doi.org/10.1145/3616855.3635752