Key points are not available for this paper at this time.
대규모 언어 모델은 소수의 학습 예제만으로도 다양한 자연어 작업에서 뛰어난 성능을 보이는 것으로 나타났으며, 이는 모델을 특정 응용 분야에 적응시키기 위해 필요한 작업별 학습 예제 수를 크게 줄여준다. 소수 학습에 대한 규모의 영향에 대한 이해를 높이기 위해, 우리는 5,400억 매개변수의 조밀하게 활성화된 트랜스포머 언어 모델인 Pathways Language Model PaLM을 훈련시켰다. PaLM은 Pathways라는 새로운 ML 시스템을 사용하여 6144개의 TPU v4 칩에서 훈련되었으며, 이는 여러 TPU 팟 간 효율적인 훈련을 가능하게 한다. 우리는 수백 개의 언어 이해 및 생성 벤치마크에서 최첨단 소수 학습 결과를 달성하여 규모 확장의 지속적인 이점을 입증한다. 여러 작업에서 PaLM 540B는 다단계 추론 작업의 미세 조정된 최첨단 성능을 능가하며, 최근 공개된 BIG-bench 벤치마크에서 평균 인간 성능을 초과하는 획기적인 성과를 보였다. 많은 BIG-bench 작업에서 모델 규모에 따른 비연속적인 성능 향상이 관찰되어, 최대 모델로 확장할 때 성능이 급격히 증가함을 의미한다. PaLM은 다국어 작업과 소스 코드 생성에서도 강력한 능력을 보이며, 다양한 벤치마크에서 이를 입증한다. 추가로 편향과 독성에 대한 포괄적인 분석을 제공하고, 모델 규모에 따른 학습 데이터 암기 정도를 연구한다. 마지막으로, 대규모 언어 모델과 관련된 윤리적 고려사항과 잠재적 대응 전략을 논의한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Aakanksha Chowdhery
Sharan Narang
Jacob Devlin
Building similarity graph...
Analyzing shared references across papers
Loading...
Chowdhery 등(화요일)이 이 질문을 연구했다.
www.synapsesocial.com/papers/69dbc64fc9a120f055a3c845 — DOI: https://doi.org/10.48550/arxiv.2204.02311