January 1, 2023Open Access

Cessez de télécharger des données de test en clair : stratégies pratiques pour atténuer la contamination des données par les benchmarks d'évaluation

Key Points

Key points are not available for this paper at this time.

Abstract

La contamination des données est devenue courante et problématique avec l'essor des modèles préentraînés sur de grands corpus automatiquement collectés. Pour les modèles fermés, les données d'entraînement deviennent un secret commercial, et même pour les modèles ouverts, détecter la contamination n'est pas trivial. Des stratégies telles que les classements avec réponses cachées, ou l'utilisation de données de test garanties non vues, sont coûteuses et deviennent fragiles avec le temps. En supposant que tous les acteurs concernés valorisent des données de test propres et coopèrent pour atténuer la contamination, que peut-on faire ? Nous proposons trois stratégies pouvant faire la différence : (1) les données de test rendues publiques devraient être chiffrées avec une clé publique et licenciées pour interdire la distribution de dérivés ; (2) exiger des contrôles d’exclusion d’entraînement de la part des détenteurs d’API fermées, et protéger vos données de test en refusant l’évaluation sans ces contrôles ; (3) éviter les données apparaissant avec leur solution sur internet, et publier le contexte de la page web des données issues d’internet avec les données elles-mêmes. Ces stratégies sont pratiques et peuvent être efficaces pour prévenir la contamination des données.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alon Jacovi

Avi Caciularu

Omer Goldman

Actions

Institutions

Google (United States)

Bar-Ilan University

Allen Institute for Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Cessez de télécharger des données de test en clair : stratégies pratiques pour atténuer la contamination des données par les benchmarks d'évaluation

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider