Key points are not available for this paper at this time.
LLM의 등장은 질문 응답 시스템과 텍스트 생성과 같은 NLP 응용 분야에서 혁신적인 발전을 촉진했습니다. 더 긴 컨텍스트에 대한 필요가 커짐에 따라, 컨텍스트 길이에 따라 선형으로 확장되는 Key-Value(KV) 캐시가 모델 배치에서 큰 병목 현상을 초래합니다. 기존 방법들은 주로 주의를 기반으로 KV 캐시를 정렬하거나 교체 또는 제거를 위해 다양한 가설에 의존하여 KV 캐시를 압축하고 모델 처리량을 향상시키려 노력했습니다. 그러나 이러한 휴리스틱은 중요한 KV 캐시를 잘못 제거하여 모델 성능을 크게 저해할 수 있습니다. 본 논문에서는 KV 캐시를 위한 품질 적응 양자화(QAQ) 기법을 제안합니다. 이론적으로 키 캐시와 값 캐시가 양자화에 대해 서로 다른 민감도를 가진다는 것을 증명하고, 이로 인해 비균등 양자화를 위한 별도의 양자화 전략을 수립합니다. 전용 이상치 처리와 개선된 주의 인식 접근법을 통합하여 QAQ는 모델 성능에 무시할 수 있는 영향을 주면서 최대 10배의 KV 캐시 압축률을 달성합니다. QAQ는 LLM 배치의 실제 장애물을 크게 줄여 더 긴 컨텍스트 응용 분야의 새로운 가능성을 열어줍니다. 코드는 github.com/ClubieDong/KVCacheQuantization에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shichen Dong
Wen Cheng
Jiayu Qin
Building similarity graph...
Analyzing shared references across papers
Loading...
Dong 등(목요일,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e75441b6db6435876ccace — DOI: https://doi.org/10.48550/arxiv.2403.04643
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: