What question did this study set out to answer?

하이브리드 최적화 접근법을 활용하여 대규모 언어 모델의 효율성을 향상시키는 것을 목표로 한다.

April 12, 2026Open Access

대규모 언어 모델의 효율적 최적화: 선형 어텐션, 청킹, 순환을 결합한 하이브리드 접근법

Key Points

하이브리드 최적화 접근법을 활용하여 대규모 언어 모델의 효율성을 향상시키는 것을 목표로 한다.
선형 어텐션을 청킹 및 순환 메커니즘과 결합하였다.
커널 함수 매핑을 적용하여 시간 복잡도를 O(n^2)에서 O(n)으로 감소시켰다.
동적 청크 기반 처리를 구현하여 KV 캐시를 효과적으로 압축하였다.
하드 쓰레숄딩, 적응형 게이팅, 계층적 청킹을 사용하여 토큰을 필터링하였다.
3.2B 파라미터를 갖춘 제안된 모델이 유사 규모의 조밀한 모델을 능가하였다.
특정 작업에서 더 큰 모델의 성능과 일치하였다.
평가 도구들이 상당한 효율성 향상을 입증하였다.

Abstract

본 연구는 전통적인 트랜스포머 프레임워크 내에서 대규모 언어 모델(LLMs)의 효율성 문제를 해결하기 위해 선형 어텐션, 청킹, 순환 메커니즘을 결합한 하이브리드 접근법을 제안한다. 우리의 접근법은 세 가지 주요 혁신을 통합한다: 선형 어텐션을 사용하여 커널 함수 매핑을 통해 시간 및 공간 복잡도를 O(n^2)에서 O(n)으로 감소시키고; 제안된 동적 청크 기반 처리는 평균 풀링을 통해 KV 캐시를 5배 압축할 수 있으며; 하드 쓰레숄딩, 적응형 게이팅, 계층적 청킹의 세 가지 방식으로 토큰을 필터링하고 부하를 감소시킨다. 결과는 실제로 LLM의 효율성을 향상시킬 수 있음을 보여주며, 일부 평가 도구 중에서도 우수한 성능을 나타낸다. 실험을 통해 우리의 3.2B 파라미터 모델이 여러 벤치마크 테스트에서 탁월한 성능을 발휘하며, 유사 규모의 조밀한 모델을 능가하고 특정 작업에서는 더 큰 모델의 성능과도 일치한다는 것을 입증하여 효율적인 LLM 최적화를 위한 이론적 근거와 경험적 검증된 프레임워크를 제공한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Cheng Zhang

Linlin Shen

Yudong Li

Journals

Complex & Intelligent Systems

Actions

Institutions

Tsinghua University

Shenzhen University

Zhejiang Lab

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

대규모 언어 모델의 효율적 최적화: 선형 어텐션, 청킹, 순환을 결합한 하이브리드 접근법

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study