Key points are not available for this paper at this time.
대형 언어 모델(LLMs)은 다양한 작업에서의 뛰어난 성과로 인해 광범위한 관심을 받고 있습니다. 하지만 환각 문제를 완화하기 위해 LLM은 종종 풍부한 외부 지식과 문맥을 제공하는 검색 보강 파이프라인을 포함합니다. 그럼에도 불구하고, 검색기에서 검색된 부정확하고 거친 문맥으로 인해 어려움이 발생합니다. LLM에 관련 없는 문맥을 제공하면 응답 품질 저하, 추론 지연 증가, 비용 상승이 초래될 수 있습니다. 본 논문은 덜 유익한 내용을 필터링하여 LLM의 활용을 가속화하고 향상시키는 지시 인식 맥락 압축(Instructon-Aware Contextual Compression) 방법을 제안합니다. 실험 결과, 본 방법은 메모리 사용량을 현저히 줄이고 생성 지연을 최소화하면서도 전체 문맥 사용 시와 유사한 성능 수준을 유지함을 보여줍니다. 구체적으로, 문맥 관련 비용을 50% 절감하여 추론 메모리 사용량이 5% 감소하고 추론 속도가 2.2배 증가했으며, Rouge-1 점수는 0.047만 미미하게 감소하였습니다. 이 결과들은 본 방법이 효율성과 성능 사이의 효과적인 균형을 이룸을 시사합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haowen Hou
Fei Ma
Binwen Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Hou 등(화요일,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68e5adbeb6db643587547177 — DOI: https://doi.org/10.48550/arxiv.2408.15491
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: