June 29, 2024Open Access

LLM-generierte natürliche Sprache trifft auf Skalierungsgesetze: Neue Erkundungen und Methoden zur Datenaugmentation

Key Points

Key points are not available for this paper at this time.

Abstract

Mit dem Aufstieg großer Sprachmodelle (LLM) hat die Verarbeitung natürlicher Sprache Verbesserungen erfahren, wie etwa LLM-basierte Datenaugmentation. Dennoch gibt es in früheren Forschungen zwei Hauptprobleme: Erstens fehlt die Überlegung, ob die vom LLM generierte natürliche Sprache (LLMNL) tatsächlich mit der menschlichen natürlichen Sprache (HNL) übereinstimmt, eine entscheidende Grundsatzfrage; zweitens wird übersehen, dass augmentierte Daten zufällig vom LLM generiert werden, was bedeutet, dass nicht alle Daten denselben Trainingswert besitzen und dies die Leistung von Klassifikatoren beeinträchtigen könnte. Um diese Herausforderungen zu adressieren, führen wir die Skalierungsgesetze ein, um LLMNL und HNL intrinsisch zu berechnen. Durch umfangreiche Experimente zeigen wir leichte Abweichungen (etwa 0,2 Mandelbrot-Exponenten) von Mandelbrots Gesetz in LLMNL, unterstreichen einen Komplexitätsvorteil in HNL und ergänzen eine interpretative Diskussion über Sprachstil. Dies schafft eine solide Grundlage für die Erweiterung von LLM. Darüber hinaus stellen wir eine neuartige Methode zur Datenaugmentation für Few-Shot-Textklassifikation vor, genannt ZGPTDA, die unscharfe Rechenmechanismen nutzt, gesteuert durch die Konformität zu Skalierungsgesetzen, um Entscheidungen über GPT-4-augmentierte Daten zu treffen. Umfangreiche Experimente in realen Szenarien bestätigen die Effektivität (Verbesserung des F1-Scores von Bert und RoBerta um 7–10 %) und Wettbewerbsfähigkeit (Übertrifft jüngste AugGPT- und GENCO-Methoden um etwa 2 % Genauigkeit bei DeBerta) von ZGPTDA. Zusätzlich offenbaren wir einige interessante Erkenntnisse, z. B. dass Hilbergs Gesetz und Taylors Gesetz der Textklassifikation weitere Vorteile bringen können.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenhua Wang

Guang Xu

Ming Ren

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLM-generierte natürliche Sprache trifft auf Skalierungsgesetze: Neue Erkundungen und Methoden zur Datenaugmentation

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study