Key points are not available for this paper at this time.
대형 언어 모델(LLM)의 많은 실용적 응용 분야, 예를 들면 문서 이해나 에이전트 구성에서 긴 문맥 처리와 추론은 매우 중요합니다. 10만 토큰 이상의 문맥을 처리할 수 있도록 LLM을 개선하는 최근의 진전에도 불구하고, 이러한 긴 문맥 능력을 평가하기 위한 표준화된 벤치마크는 현재 부족한 실정입니다. 기존의 공개 벤치마크들은 대개 약 1만 토큰 내외의 문맥에 초점을 맞추고 있어, 더 긴 문맥을 처리하는 LLM의 평가와 비교를 제한합니다. 본 논문에서는 평균 데이터 길이가 10만 토큰을 넘는 최초의 LLM 벤치마크인 Bench를 제안합니다. Bench는 합성 및 실제적인 과제로 구성되며, 다양한 분야를 포괄하고 영어와 중국어로 제공됩니다. Bench의 과제들은 문맥 내 긴 의존성을 잘 이해하는 것을 요구하며, 단순히 제한된 수의 지문을 문맥에서 검색하는 것만으로는 충분하지 않습니다. 본 연구에서는 Bench를 기반으로 긴 문맥 처리에 특화된 최신 독점 및 오픈소스 LLM을 평가하였습니다. 결과는 현존하는 긴 문맥 LLM들이 10만 토큰 이상의 문맥을 효과적으로 처리하기 위해서는 상당한 발전이 필요함을 시사합니다. 또한, 긴 문맥을 처리하는 LLM의 행동에 관한 세 가지 흥미로운 분석을 추가로 제시합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrong Zhang
Yingfa Chen
Shengding Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(Wed,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8a — DOI: https://doi.org/10.48550/arxiv.2402.13718
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: