Key points are not available for this paper at this time.
트랜스포머가 딥러닝에 혁신을 가져왔지만, 그들의 제곱 복잡도의 어텐션은 무한히 긴 입력을 처리하는 능력을 제한한다. 우리는 네트워크가 자체 잠재 표현에 주의를 기울일 수 있도록 피드백 루프를 활용하는 새로운 트랜스포머 구조인 피드백 어텐션 메모리(FAM)를 제안한다. 이 설계는 트랜스포머 내에서 작업 기억의 출현을 촉진하여 무한히 긴 시퀀스를 처리할 수 있게 한다. TransformerFAM은 추가 가중치가 필요 없어 사전 학습된 모델과 원활하게 통합될 수 있다. 우리의 실험 결과는 다양한 모델 크기(1B, 8B, 24B)에서 장기 문맥 작업에 대해 TransformerFAM이 트랜스포머 성능을 크게 향상시킨다는 것을 보여준다. 이러한 결과는 대형 언어 모델(LLM)이 무한한 길이의 시퀀스를 처리할 수 있는 잠재력을 보여준다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dongseong Hwang
Weiran Wang
Zhuoyuan Huo
Building similarity graph...
Analyzing shared references across papers
Loading...
황 등(Sun,)이 이 질문을 연구했다.
www.synapsesocial.com/papers/68e6f3b2b6db64358766e8ff — DOI: https://doi.org/10.48550/arxiv.2404.09173
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: