February 21, 2024Open Access

벤치: 10만 토큰 이상의 긴 문맥 평가 확장

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)의 많은 실용적 응용 분야, 예를 들면 문서 이해나 에이전트 구성에서 긴 문맥 처리와 추론은 매우 중요합니다. 10만 토큰 이상의 문맥을 처리할 수 있도록 LLM을 개선하는 최근의 진전에도 불구하고, 이러한 긴 문맥 능력을 평가하기 위한 표준화된 벤치마크는 현재 부족한 실정입니다. 기존의 공개 벤치마크들은 대개 약 1만 토큰 내외의 문맥에 초점을 맞추고 있어, 더 긴 문맥을 처리하는 LLM의 평가와 비교를 제한합니다. 본 논문에서는 평균 데이터 길이가 10만 토큰을 넘는 최초의 LLM 벤치마크인 Bench를 제안합니다. Bench는 합성 및 실제적인 과제로 구성되며, 다양한 분야를 포괄하고 영어와 중국어로 제공됩니다. Bench의 과제들은 문맥 내 긴 의존성을 잘 이해하는 것을 요구하며, 단순히 제한된 수의 지문을 문맥에서 검색하는 것만으로는 충분하지 않습니다. 본 연구에서는 Bench를 기반으로 긴 문맥 처리에 특화된 최신 독점 및 오픈소스 LLM을 평가하였습니다. 결과는 현존하는 긴 문맥 LLM들이 10만 토큰 이상의 문맥을 효과적으로 처리하기 위해서는 상당한 발전이 필요함을 시사합니다. 또한, 긴 문맥을 처리하는 LLM의 행동에 관한 세 가지 흥미로운 분석을 추가로 제시합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrong Zhang

Yingfa Chen

Shengding Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

벤치: 10만 토큰 이상의 긴 문맥 평가 확장

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider