March 29, 2024Open Access

Convolutional Prompting trifft auf Sprachmodelle für kontinuierliches Lernen

Key Points

Key points are not available for this paper at this time.

Abstract

Kontinuierliches Lernen (CL) ermöglicht es maschinellen Lernmodellen, aus kontinuierlich wechselnden neuen Trainingsdaten zu lernen, ohne Daten von alten Aufgaben zu benötigen. Kürzlich haben vortrainierte Vision Transformer in Kombination mit Prompt Tuning vielversprechende Ergebnisse zur Überwindung des katastrophalen Vergessens im CL gezeigt. Diese Ansätze beruhen auf einem Pool lernbarer Prompts, die jedoch ineffizient beim Wissensaustausch zwischen Aufgaben sein können, was zu schlechterer Leistung führt. Zusätzlich erlaubt das Fehlen feinkörniger, schichtspezifischer Prompts nicht, die Stärke der Prompts für CL voll auszuschöpfen. Wir adressieren diese Einschränkungen durch die Einführung von ConvPrompt, einem neuartigen Mechanismus zur Erstellung konvolutionaler Prompts, der schichtweise gemeinsame Einbettungen beibehält und sowohl schichtspezifisches Lernen als auch besseren Konzepttransfer zwischen Aufgaben ermöglicht. Die intelligente Nutzung von Convolution erlaubt es uns, einen geringen Parameteraufwand bei gleichzeitig hoher Leistung zu gewährleisten. Außerdem nutzen wir Large Language Models, um feinkörnige Textbeschreibungen jeder Kategorie zu generieren, die zur Ermittlung der Aufgabensimilarität dienen und dynamisch die Anzahl der zu lernenden Prompts bestimmen. Umfassende Experimente zeigen die Überlegenheit von ConvPrompt und verbessern den aktuellen Stand der Technik um ca. 3 % bei deutlich geringerem Parameteraufwand. Zudem führen wir umfassende Ablationsstudien über verschiedene Module durch, um die Bedeutung der einzelnen Komponenten zu entwirren.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Anurag Roy

Riddhiman Moulick

Vinay Kumar Verma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Convolutional Prompting trifft auf Sprachmodelle für kontinuierliches Lernen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study