June 17, 2024Open Access

Selbst- und Cross-Model-Distillation für LLMs: Effektive Methoden zur Abstimmung von Ablehnungsmustern

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) wie OpenAIs GPT-Serie, Anthropics Claude und Metas LLaMa haben bemerkenswerte Fähigkeiten in der Textgenerierung gezeigt. Ihre Anfälligkeit für toxische Eingaben stellt jedoch erhebliche Sicherheitsherausforderungen dar. Diese Arbeit untersucht Ausrichtungstechniken, einschließlich Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF), um diese Risiken zu mindern. Wir führen eine empirische Studie zu Ablehnungsmustern bei neun LLMs durch und zeigen, dass Modelle mit gleichförmigen Ablehnungsmustern, wie Claude3, eine höhere Sicherheit aufweisen. Basierend auf diesen Erkenntnissen schlagen wir Selbstdistillations- und Cross-Model-Distillationsmethoden vor, um die Sicherheit von LLMs zu verbessern. Unsere Ergebnisse zeigen, dass diese Methoden die Ablehnungsraten signifikant erhöhen und unsichere Inhalte reduzieren; die Cross-Model-Distillation erreicht Ablehnungsraten nahe bei den 94,51 % von Claude3. Diese Ergebnisse unterstreichen das Potenzial von distillationsbasierter Ausrichtung zur Sicherung von LLMs gegen toxische Eingaben.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jie Li

Yi Liu

Chongyang Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Selbst- und Cross-Model-Distillation für LLMs: Effektive Methoden zur Abstimmung von Ablehnungsmustern

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider