Key points are not available for this paper at this time.
La contamination des données est devenue courante et problématique avec l'essor des modèles préentraînés sur de grands corpus automatiquement collectés. Pour les modèles fermés, les données d'entraînement deviennent un secret commercial, et même pour les modèles ouverts, détecter la contamination n'est pas trivial. Des stratégies telles que les classements avec réponses cachées, ou l'utilisation de données de test garanties non vues, sont coûteuses et deviennent fragiles avec le temps. En supposant que tous les acteurs concernés valorisent des données de test propres et coopèrent pour atténuer la contamination, que peut-on faire ? Nous proposons trois stratégies pouvant faire la différence : (1) les données de test rendues publiques devraient être chiffrées avec une clé publique et licenciées pour interdire la distribution de dérivés ; (2) exiger des contrôles d’exclusion d’entraînement de la part des détenteurs d’API fermées, et protéger vos données de test en refusant l’évaluation sans ces contrôles ; (3) éviter les données apparaissant avec leur solution sur internet, et publier le contexte de la page web des données issues d’internet avec les données elles-mêmes. Ces stratégies sont pratiques et peuvent être efficaces pour prévenir la contamination des données.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alon Jacovi
Avi Caciularu
Omer Goldman
Google (United States)
Bar-Ilan University
Allen Institute for Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Jacovi et al. (Sun,) ont étudié cette question.
www.synapsesocial.com/papers/69ff76cc6018b8d0892d82e4 — DOI: https://doi.org/10.18653/v1/2023.emnlp-main.308
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: