SqueezeAttention: 레이어별 최적 예산을 통한 LLM 추론에서 KV-캐시의 2D 관리 | Synapse