지속적 시각 명령 조정(CVIT)은 다중양식 대형 언어 모델(MLLM)이 시간이 지나면서 새로운 작업을 점진적으로 학습할 수 있게 합니다. 그러나 이 과정은 모델이 새로운 작업에 적응함에 따라 이전에 학습한 작업에 대한 성능이 저하되는 치명적 망각 현상에 직면합니다. 망각을 완화하는 일반적인 방법은 아키텍처 확장으로, 작업 간 간섭을 방지하기 위해 작업별 모듈을 도입합니다. 하지만 기존 방법들은 각 작업마다 전체 계층을 확장하는 경우가 많아 상당한 매개변수 부담과 확장성 저하를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 MLLM의 CVIT에 맞춤화된 고효율 아키텍처 확장 기법인 LoRA 내 LoRA(LiLoRA)를 제안합니다. LiLoRA는 작업 간 중복을 줄이기 위해 LoRA 행렬 A를 공유하고, 작업별 매개변수를 최소화하기 위해 행렬 B에 추가 저차원 분해를 적용하며, 공유 표현의 일관성을 시간에 걸쳐 유지하기 위해 코사인 규제 안정성 손실을 도입합니다. 다양한 CVIT 벤치마크에서 실시한 광범위한 실험 결과, LiLoRA는 기존 접근법보다 뛰어난 순차적 작업 학습 성능과 매개변수 효율성 향상을 지속적으로 달성함을 확인했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chang Che
Ziqi Wang
Philip Yang Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Che 등(금요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68f12bfb2107091eab27a2ce — DOI: https://doi.org/10.48550/arxiv.2508.06202
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: