March 29, 2024Open Access

합성곱 프롬프팅과 언어 모델의 지속 학습 융합

Key Points

Key points are not available for this paper at this time.

Abstract

지속 학습(CLT)은 이전 작업의 데이터 없이도 지속적으로 변화하는 새로운 훈련 데이터로부터 기계 학습 모델이 학습할 수 있도록 합니다. 최근 사전 학습된 비전 트랜스포머와 프롬프트 튜닝의 결합은 지속 학습에서 치명적인 망각 극복에 유망함을 보였습니다. 이러한 접근법은 학습 가능한 프롬프트 풀에 의존하는데, 이는 작업 간 지식 공유가 비효율적일 수 있어 성능 저하를 초래합니다. 또한, 세밀한 레이어별 프롬프트 부족은 지속 학습에서 프롬프트의 강점을 완전히 표현하지 못하게 합니다. 우리는 계층별 공유 임베딩을 유지하는 새로운 합성곱 프롬프트 생성 메커니즘인 ConvPrompt를 제안하여 이러한 한계를 극복합니다. 이를 통해 레이어별 학습과 작업 간 개념 전이가 모두 가능해집니다. 합성곱의 지능적 활용으로 성능 손실 없이 낮은 파라미터 오버헤드를 유지할 수 있습니다. 또한 대형 언어 모델을 활용해 각 범주에 대한 세밀한 텍스트 설명을 생성하여 작업 유사성을 파악하고 학습할 프롬프트 수를 동적으로 결정합니다. 광범위한 실험을 통해 ConvPrompt가 우수성을 입증하며 SOTA 대비 약 3% 향상과 현저히 낮은 파라미터 오버헤드를 기록했습니다. 또한 다양한 모듈에 대한 강력한 소거 실험을 수행하여 각 구성 요소의 중요성을 분리 분석했습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Anurag Roy

Riddhiman Moulick

Vinay Kumar Verma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

합성곱 프롬프팅과 언어 모델의 지속 학습 융합

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider