Key points are not available for this paper at this time.
대규모 자동 크롤링 말뭉치로 사전 학습된 모델의 증가와 함께 데이터 오염 문제가 만연하고 도전적이 되었습니다. 폐쇄형 모델의 경우, 훈련 데이터가 영업 비밀이 되며, 공개 모델에서도 오염을 탐지하는 것은 쉽지 않습니다. 정답을 숨긴 리더보드 사용이나 미확인 테스트 데이터 사용 같은 전략은 비용이 많이 들고 시간이 지남에 따라 취약해집니다. 모든 관련자가 깨끗한 테스트 데이터를 중요시하며 데이터 오염 완화에 협력한다고 가정할 때, 무엇을 할 수 있을까요? 우리는 세 가지 차이를 만들 수 있는 전략을 제안합니다: (1) 공개하는 테스트 데이터는 공개 키로 암호화하고 파생 배포를 금지하는 라이선스를 부여할 것; (2) 폐쇄 API 보유자로부터 훈련 배제 통제를 요구하고, 이를 제공하지 않으면 평가를 거부하여 테스트 데이터를 보호할 것; (3) 해답이 인터넷에 함께 노출되는 데이터를 피하고, 인터넷에서 유래한 데이터와 함께 웹 페이지 문맥을 공개할 것. 이 전략들은 실용적이며 데이터 오염 방지에 효과적일 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alon Jacovi
Avi Caciularu
Omer Goldman
Google (United States)
Bar-Ilan University
Allen Institute for Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Jacovi 등(Sun,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/69ff76cc6018b8d0892d82e4 — DOI: https://doi.org/10.18653/v1/2023.emnlp-main.308
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: