Key points are not available for this paper at this time.
우리는 고성능 신경망 활성화 함수인 가우시안 오류 선형 단위(GELU)를 제안합니다. GELU 활성화 함수는 xΦ(x)로, 여기서 Φ(x)는 표준 가우시안 누적분포함수입니다. GELU 비선형성은 ReLU(x1ₗ>₀)와 달리 입력값의 부호로 게이트를 걸지 않고 입력값 자체로 가중치를 부여합니다. 우리는 GELU 비선형성을 ReLU 및 ELU 활성화 함수와 실험적으로 비교 평가했으며, 컴퓨터 비전, 자연어 처리, 음성 인식 등 모든 고려된 작업에서 성능 향상을 확인했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hendrycks 등(월요일)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/69d8af35d2f7327e70ae3f13 — DOI: https://doi.org/10.48550/arxiv.1606.08415
Dan Hendrycks
Kevin Gimpel
Building similarity graph...
Analyzing shared references across papers
Loading...