Key points are not available for this paper at this time.
長文コンテキストの処理と推論は、ドキュメント理解やエージェント構築など、Large Language Models(LLMs)の多くの実用的応用にとって極めて重要です。最近ではLLMsが100Kトークン以上のコンテキストを処理できるようになってきていますが、この長文コンテキスト能力を評価する標準化されたベンチマークは現在存在しません。既存の公開ベンチマークは通常約10Kトークンのコンテキストに焦点を当てており、より長いコンテキストの処理におけるLLMsの評価や比較には限界があります。本論文では、平均データ長が100Kトークンを超える初のLLMベンチマークであるBenchを提案します。Benchは、多様な領域を網羅した合成および現実的タスクで構成され、英語と中国語の両方で提示されます。Benchのタスクは、コンテキスト内の長い依存関係を十分に理解することを要求し、単に限定された数のパッセージを検索するだけでは不十分となる設計です。我々の実験では、Benchに基づいて長文コンテキストの処理を目的とした最先端の商用およびオープンソースLLMsを評価しました。結果は、現存の長文コンテキストLLMsが100Kトークン以上のコンテキストを効果的に処理するにはなお大幅な改善が必要であることを示しています。さらに、長文コンテキスト処理時のLLMsの挙動に関する3つの興味深い分析を提示します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrong Zhang
Yingfa Chen
Shengding Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhangら(Wed,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8a — DOI: https://doi.org/10.48550/arxiv.2402.13718
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: