Résumé Alors que les grands modèles de langage (LLM) sont largement adoptés, comprendre comment ils apprennent et mémorisent les données d'entraînement devient crucial. On suppose généralement que la mémorisation dans les LLM ne se produit que suite à la répétition de séquences dans les données d'entraînement. Au contraire, nous montrons que les LLM mémorisent en assemblant des informations provenant de séquences similaires, un phénomène que nous appelons mémoire mosaïque. Nous démontrons que les principaux LLM présentent une mémoire mosaïque, avec des duplicatas flous contribuant à la mémorisation autant qu'à hauteur de 0,8 par rapport à un duplicata exact et même des séquences fortement modifiées contribuant substantiellement à la mémorisation. Malgré les capacités de raisonnement importantes des modèles, nous montrons, de manière quelque peu surprenante, que la mémorisation est principalement syntaxique plutôt que sémantique. Enfin, nous montrons que les duplicatas flous sont omniprésents dans les données réelles, échappant aux techniques de déduplication. Dans ce travail, nous montrons que la mémorisation est un processus complexe et mosaïque, avec des implications réelles pour la confidentialité, la sécurité, l'utilité et l'évaluation des modèles.
Building similarity graph...
Analyzing shared references across papers
Loading...
Igor Shilov
Igor Shilov
Yves-Alexandre de Montjoye
Nature Communications
Imperial College London
Building similarity graph...
Analyzing shared references across papers
Loading...
Shilov et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/6980fbe1c1c9540dea80da6f — DOI: https://doi.org/10.1038/s41467-026-68603-0
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: