November 8, 2025Open Access

효율적인 동적 군집 기반 문서 압축을 활용한 검색 증강 생성

Key Points

문서 압축은 검색 증강 생성 응용에서 견고성을 향상시켜 출력 품질을 개선합니다.
실험 결과는 다양한 실험 설정에서 성능 향상을 보여주며 상당한 향상을 달성했습니다.
동적 군집 방법을 사용한 평가로 문서 검색 시 노이즈와 중복 내용을 효과적으로 제거할 수 있습니다.
이 방법은 추론 중 대형 언어 모델의 지식 주입 능력을 강화할 수 있습니다.

Abstract

검색 증강 생성(RAG)은 최근 대형 언어 모델(LLM) 추론 시 지식 주입을 위한 널리 채택된 접근법으로 부상했습니다. 그러나 미세한 문서 간 관계를 충분히 활용하는 능력이 제한되어 있어, 현재의 RAG 구현체는 검색된 노이즈 및 중복 내용을 효과적으로 처리하지 못해 생성 결과에 오류를 초래할 수 있는 문제에 직면해 있습니다. 이러한 한계를 극복하기 위해, 우리는 잠재적인 문서 간 관계를 활용하면서 동시에 불필요한 정보와 중복 내용을 제거하는 효율적인 동적 군집 기반 문서 압축 프레임워크(EDC2-RAG)를 제안합니다. 본 접근법은 GPT-3.5-Turbo 및 GPT-4o-mini를 기반으로 하며, 널리 사용되는 지식-QA 및 환각 탐지 데이터셋에서 검증되었습니다. 실험 결과, 본 방법은 다양한 시나리오와 실험 설정에서 일관된 성능 향상을 달성하여 뛰어난 견고성과 적용 가능성을 입증하였습니다. 본 코드와 데이터셋은 https://github.com/Tsinghua-dhy/EDC-2-RAG 에서 이용할 수 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weitao Li

Kaiming Liu

Xiangyu Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

효율적인 동적 군집 기반 문서 압축을 활용한 검색 증강 생성

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider