Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) wie OpenAIs GPT-Serie, Anthropics Claude und Metas LLaMa haben bemerkenswerte Fähigkeiten in der Textgenerierung gezeigt. Ihre Anfälligkeit für toxische Eingaben stellt jedoch erhebliche Sicherheitsherausforderungen dar. Diese Arbeit untersucht Ausrichtungstechniken, einschließlich Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF), um diese Risiken zu mindern. Wir führen eine empirische Studie zu Ablehnungsmustern bei neun LLMs durch und zeigen, dass Modelle mit gleichförmigen Ablehnungsmustern, wie Claude3, eine höhere Sicherheit aufweisen. Basierend auf diesen Erkenntnissen schlagen wir Selbstdistillations- und Cross-Model-Distillationsmethoden vor, um die Sicherheit von LLMs zu verbessern. Unsere Ergebnisse zeigen, dass diese Methoden die Ablehnungsraten signifikant erhöhen und unsichere Inhalte reduzieren; die Cross-Model-Distillation erreicht Ablehnungsraten nahe bei den 94,51 % von Claude3. Diese Ergebnisse unterstreichen das Potenzial von distillationsbasierter Ausrichtung zur Sicherung von LLMs gegen toxische Eingaben.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jie Li
Yi Liu
Chongyang Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e64686b6db6435875d828d — DOI: https://doi.org/10.48550/arxiv.2406.11285
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: