본 연구는 전통적인 트랜스포머 프레임워크 내에서 대규모 언어 모델(LLMs)의 효율성 문제를 해결하기 위해 선형 어텐션, 청킹, 순환 메커니즘을 결합한 하이브리드 접근법을 제안한다. 우리의 접근법은 세 가지 주요 혁신을 통합한다: 선형 어텐션을 사용하여 커널 함수 매핑을 통해 시간 및 공간 복잡도를 O(n^2)에서 O(n)으로 감소시키고; 제안된 동적 청크 기반 처리는 평균 풀링을 통해 KV 캐시를 5배 압축할 수 있으며; 하드 쓰레숄딩, 적응형 게이팅, 계층적 청킹의 세 가지 방식으로 토큰을 필터링하고 부하를 감소시킨다. 결과는 실제로 LLM의 효율성을 향상시킬 수 있음을 보여주며, 일부 평가 도구 중에서도 우수한 성능을 나타낸다. 실험을 통해 우리의 3.2B 파라미터 모델이 여러 벤치마크 테스트에서 탁월한 성능을 발휘하며, 유사 규모의 조밀한 모델을 능가하고 특정 작업에서는 더 큰 모델의 성능과도 일치한다는 것을 입증하여 효율적인 LLM 최적화를 위한 이론적 근거와 경험적 검증된 프레임워크를 제공한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Cheng Zhang
Linlin Shen
Yudong Li
Complex & Intelligent Systems
Tsinghua University
Shenzhen University
Zhejiang Lab
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(목)는 이 문제를 연구하였다.
www.synapsesocial.com/papers/69db365c4fe01fead37c484d — DOI: https://doi.org/10.1007/s40747-026-02290-8