Key points are not available for this paper at this time.
L₂ 정규화와 가중치 감쇠 정규화는 표준 확률적 경사 하강법(학습률로 재조정 시)에 대해 동등하지만, 우리는 Adam과 같은 적응형 경사 알고리즘에서는 그렇지 않음을 보여줍니다. 이러한 알고리즘의 일반적인 구현은 L₂ 정규화를 사용하며(종종 이를 "가중치 감쇠"라고 부르는데, 우리가 드러낸 비등가성 때문에 오해의 소지가 있을 수 있습니다), 우리는 손실 함수에 대한 최적화 단계와 가중치 감쇠를 분리하여 가중치 감쇠 정규화의 원래 공식화를 복원하는 간단한 수정을 제안합니다. 우리는 제안된 수정이 (i) 표준 SGD와 Adam 모두에서 가중치 감쇠 인자의 최적 선택과 학습률 설정을 분리하며, (ii) Adam의 일반화 성능을 크게 향상시켜 이전에는 일반적으로 후자에 의해 능가되었던 이미지 분류 데이터셋에서 모멘텀을 사용하는 SGD와 경쟁할 수 있음을 경험적으로 증명합니다. 제안된 분리된 가중치 감쇠는 이미 많은 연구자들에게 채택되었으며, 커뮤니티는 이를 TensorFlow와 PyTorch에 구현했습니다; 우리의 실험을 위한 완전한 소스 코드는 https://github.com/loshchil/AdamW-and-SGDW 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ilya Loshchilov
Frank Hutter
Building similarity graph...
Analyzing shared references across papers
Loading...
Loshchilov 등(Tue,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/69b03cbb03b9e6d8d0b32c18 — DOI: https://doi.org/10.48550/arxiv.1711.05101