What question did this study set out to answer?

L'étude vise à explorer comment les grands modèles de langage mémorisent les données d'entraînement, en se concentrant sur le concept de mémoire mosaïque.

February 2, 2026Open Access

La mémoire mosaïque des grands modèles de langage

Key Points

L'étude vise à explorer comment les grands modèles de langage mémorisent les données d'entraînement, en se concentrant sur le concept de mémoire mosaïque.
Analyse des processus de mémorisation dans les principaux grands modèles de langage.
Évaluation du rôle des duplicatas flous et des séquences modifiées dans la mémorisation.
Comparaison entre mémorisation syntaxique et sémantique.
Évaluation de la prévalence des duplicatas flous dans les données du monde réel.
Les LLM ont démontré une mémoire mosaïque en assemblant des informations provenant de séquences similaires.
Les duplicatas flous ont contribué substantiellement à la mémorisation, leur effet étant comparable à celui des duplicatas exacts.
La mémorisation a été principalement syntaxique plutôt que sémantique.
Les duplicatas flous étaient fréquents dans les données réelles, même après des efforts de déduplication.

Abstract

Résumé Alors que les grands modèles de langage (LLM) sont largement adoptés, comprendre comment ils apprennent et mémorisent les données d'entraînement devient crucial. On suppose généralement que la mémorisation dans les LLM ne se produit que suite à la répétition de séquences dans les données d'entraînement. Au contraire, nous montrons que les LLM mémorisent en assemblant des informations provenant de séquences similaires, un phénomène que nous appelons mémoire mosaïque. Nous démontrons que les principaux LLM présentent une mémoire mosaïque, avec des duplicatas flous contribuant à la mémorisation autant qu'à hauteur de 0,8 par rapport à un duplicata exact et même des séquences fortement modifiées contribuant substantiellement à la mémorisation. Malgré les capacités de raisonnement importantes des modèles, nous montrons, de manière quelque peu surprenante, que la mémorisation est principalement syntaxique plutôt que sémantique. Enfin, nous montrons que les duplicatas flous sont omniprésents dans les données réelles, échappant aux techniques de déduplication. Dans ce travail, nous montrons que la mémorisation est un processus complexe et mosaïque, avec des implications réelles pour la confidentialité, la sécurité, l'utilité et l'évaluation des modèles.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Igor Shilov

Yves-Alexandre de Montjoye

Journals

Nature Communications

Actions

Institutions

Imperial College London

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

La mémoire mosaïque des grands modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider