June 17, 2024Open Access

Feinabstimmung oder feines Scheitern? Leistungsmythen in großen Sprachmodellen entlarven

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) besitzen die einzigartige Fähigkeit, menschenähnlichen Text aus Eingabeanfragen zu verstehen und zu generieren. Bei Feinabstimmung zeigen diese Modelle eine verbesserte Leistung bei domänenspezifischen Anfragen. OpenAI betont den Feinabstimmungsprozess und erklärt: "Um ein Modell fein abzustimmen, müssen mindestens 10 Beispiele bereitgestellt werden. Wir beobachten in der Regel deutliche Verbesserungen bei Feinabstimmung mit 50 bis 100 Trainingsbeispielen, aber die genaue Anzahl variiert stark je nach Anwendungsfall." Diese Studie erweitert dieses Konzept auf die Integration von LLMs in Retrieval-Augmented Generation (RAG) Pipelines, die darauf abzielen, durch Nutzung externer Korpora für Informationsabruf die Genauigkeit und Relevanz zu verbessern. Allerdings wird das Versprechen von RAG, optimale Antworten zu liefern, insbesondere bei komplexen Anfragen oft nicht erfüllt. Die Studie untersucht speziell die Auswirkungen der Feinabstimmung von LLMs auf deren Fähigkeit, kontextuelle Daten zu extrahieren und zu integrieren, um die Leistung von RAG-Systemen in mehreren Domänen zu verbessern. Wir bewerten die Auswirkungen der Feinabstimmung auf die Fähigkeit der LLMs zur Datenextraktion und zum Kontextverständnis, indem wir die Genauigkeit und Vollständigkeit der fein abgestimmten Modelle mit den Ausgangsleistungen über Datensätze aus verschiedenen Domänen vergleichen. Unsere Ergebnisse zeigen, dass die Feinabstimmung im Vergleich zu den Basismodellen zu einem Leistungsabfall führte, im Gegensatz zu den Verbesserungen bei eigenständigen LLM-Anwendungen, wie von OpenAI vorgeschlagen. Diese Studie unterstreicht die Notwendigkeit gründlicher Untersuchungen und Validierungen von fein abgestimmten Modellen für domänenspezifische Aufgaben.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Scott Barnett

Zac Brannelly

Stefanus Kurniawan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Feinabstimmung oder feines Scheitern? Leistungsmythen in großen Sprachmodellen entlarven

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study